-
Foot: la Premier League, royaume enchanté mais aux finances abimées
-
En Roumanie, le parlement renverse le Premier ministre pro-UE Ilie Bolojan
-
Israël: la détention des deux militants de la "flottille pour Gaza" prolongée jusqu'à dimanche
-
L'Académie de médecine recommande l'obligation vaccinale contre la grippe pour les soignants
-
Mort de l'actrice Chantal Nobel, star des années 1980 au destin brisé
-
Christophe Gleizes, détenu en Algérie, renonce à son pourvoi en cassation pour une possible grâce
-
Économies, neutralité, retour du politique : ce que propose Charles Alloncle dans son rapport
-
Voiture-bélier en Allemagne: la presse évoque le passé psychiatrique du suspect
-
Au Canada, le camp séparatiste en Alberta se rapproche d'un référendum
-
Moyen-Orient: la Bourse de Paris repasse la barre des 8.000 points
-
Alloncle pointe un audiovisuel public en "crise", son rapport sous le feu des critiques
-
L'UE en sommet avec l'Arménie, pour l'éloigner de la Russie
-
De retour d'Eswatini, le président taïwanais défend son "droit d'établir des liens avec le monde"
-
Les Bourses d'Europe ouvrent sans direction claire
-
Des lycéens préparent un bac option drones, une première qui intéresse l'armée
-
Décès de Doris Fisher, fondatrice de la marque Gap
-
MMA: "Ce n'est pas mon âge qui combat", assure Ngannou, 39 ans (à l'AFP)
-
En Centrafrique, le défi de la réintégration des enfants soldats
-
Autriche: plainte contre LinkedIn pour la vente de données d'utilisateurs
-
Les hôtels à l'offensive pour être référencés par l'IA
-
La République dominicaine suspend un projet minier canadien
-
Play-offs NBA: LeBron James au défi du Thunder
-
Suisse: Sherlock Holmes retrouve les chutes du Reichenbach, 135 ans après
-
Virginie Grimaldi, numéro un avec des romans "au plus près de la vie"
-
Colombie: la terreur des populations locales dans l'arrière-cour d'un joyau touristique
-
Aux Fidji, une épidémie de VIH qui se propage "comme une traînée de poudre"
-
Le phénomène "Super El Niño" ravive les craintes pour une Asie déjà éprouvée par la guerre en Iran
-
Zack Polanski, l'"éco-populiste" qui galvanise les Verts britanniques
-
Le suspect d'un des incendies de Los Angeles en voulait aux riches, selon l'accusation
-
NBA: les Spurs surpris par les Wolves, malgré le record de contres de Wembanyama
-
Nuit des Molières: le combat de Gisèle Halimi et Muriel Robin à l'honneur
-
Ligue des champions: Luis Enrique et Vincent Kompany, au sommet de leur art
-
Tennis: à Rome, Sinner sur la voie impériale
-
Ligue des champions: Arsenal-Atlético Madrid, l'art de défendre
-
L'Ukraine décrète une trêve dès mercredi, avant celle voulue par Moscou
-
Un gouverneur républicain en Californie ? Le scénario fou né des divisions démocrates
-
Le Premier ministre roumain confronté à une motion de censure
-
Blake Lively et Justin Baldoni mettent fin à leur bataille judiciaire (avocats)
-
Au Met Gala, la mode s'érige en art, sans faire de folie
-
Blake Lively et Justin Baldoni mettent fin à leur bataille juridique (avocats)
-
Dolly Parton annule encore des concerts à Las Vegas, pour raisons de santé
-
Angleterre: Manchester City fait une passe décisive à Arsenal
-
Elections locales en Inde: Modi salue une victoire "record" au Bengale occidental
-
Théâtre: palmarès de la 37e cérémonie des Molières
-
Bond du pétrole avec les tensions à Ormuz, la nervosité gagne les Bourses
-
Netflix accorde une large diffusion en salles au "Narnia" de Greta Gerwig
-
A New York, le Met Gala et ses stars veulent élever la mode au rang d'art
-
Wall Street en baisse, le conflit au Moyen-Orient pèse
-
La Russie décrète une trêve les 8-9 mai, l'Ukraine annonce sa propre trêve les 5-6 mai
-
Recherche des origines des enfants nés sous X: Rist et El Haïry souhaitent un "débat apaisé"
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
B.Baumann--VB