-
Le boom du yoga en Occident, souvent réduit à une pratique physique
-
Mondial-2026: choc Allemagne-Côte d'Ivoire pour les 16es, les Pays-Bas sous pression
-
Tensions entre Varsovie et Kiev: des responsables ukrainiens rendent leurs médailles à la Pologne
-
Frappes israéliennes meurtrières au Liban, malgré l'annonce de cessez-le-feu
-
Bétharram: entre 700 et 1.500 élèves potentiellement victimes, selon les projections d'une ONG
-
Au Portugal, un exorciste dit chasser les démons et défie l'Église
-
Brexit: dix ans après le vote, les petits patrons britanniques en première ligne
-
Le Conseil constitutionnel retoque la suppression des frais bancaires de succession
-
Au Mexique, découverte de vestiges préhispaniques "uniques"
-
Venezuela: une figure de l'opposition se rend aux Etats-Unis pour parler "transition démocratique"
-
"Comme en Chine": les Cubains saluent les réformes, les exilés attendent plus
-
L'UE serait-elle prête à accepter un retour du Royaume-Uni?
-
Philippines: après un fort séisme, les coraux et les craintes font surface
-
Les canicules ont un "effet négatif sur la croissance", rappelle le gouverneur de la Banque de France
-
Bolivie: le président Paz décrète l'état d'exception après six semaines de contestation
-
La CFDT en congrès pour affirmer ses revendications avant la présidentielle
-
Top 14: Stade français et Montpellier, deux renaissances pour une place en finale
-
Mondial-2026: Team USA en 16es, le Brésil le Maroc s'en rapprochent
-
Mondial-2026: avec Felix Nmecha, l'Allemagne a stabilisé son milieu de terrain
-
Présidentielle: Retailleau tient meeting, en quête de dynamique avant l'été
-
Bleu, vert, écaillé: nouveau couac dans la rénovation d'un bassin cher à Trump
-
Bolivie: accord entre le gouvernement et la principale centrale syndicale après six semaines de crise
-
Mondial-2026: Team USA se qualifie, la Seleçao élimine Haïti
-
Premier cas de grippe aviaire H5 détecté en Australie
-
La France écrasée par la canicule, interrogations sur la Fête de la musique
-
Brésil: le cacique Raoni dans un état "grave mais stable" selon ses médecins
-
Mondial-2026: après le Mexique, les Etats-Unis se qualifient pour les 16es de finale
-
Royaume-Uni: un mort et des dizaines de blessés dans une collision de deux trains
-
Top 14: sur un nuage et encore en finale, Toulouse écrase le Racing
-
Albanie: manifestation contre un projet immobilier lié à Trump pour le 20e jour consécutif
-
Mondial-2026: Team USA triomphe face à l'Australie et file en seizièmes
-
Top 14: l'éclatante réponse d'Antoine Dupont
-
"Maison Blanche volante": Trump dévoile le nouvel Air Force One donné par le Qatar
-
Le président polonais annonce retirer la plus haute distinction du pays à Zelensky
-
Albanie: 27 manifestants inculpés d'atteintes à l'ordre public
-
Brésil: le cacique Raoni transféré vers un hôpital de Sao Paulo
-
Un musée basé sur l'IA propose une plongée sensorielle dans la forêt amazonienne
-
Détroit d'Ormuz: de nouvelles exigences de l'Iran laissent la reprise en suspens
-
Carmen Cid, une enfant de la guerre d'Espagne au destin britannique
-
Nouveau cessez-le-feu au Liban après de meurtrières violences menaçant l'accord irano-américain
-
Rentrée 2027: Lecornu annonce une heure par semaine d'enseignement à l'IA en seconde
-
Tourisme: l'IA va faciliter les voyages personnalisés, promet le patron de Booking
-
Le footballeur marocain Achraf Hakimi sera jugé pour viol
-
A "Trump Heights", les Israéliens ne tournent pas le dos à Trump malgré l'accord avec l'Iran
-
Le gouvernement veut baisser le remboursement de la "Sécu" sur les actes médicaux
-
Un fleuron français des drones militaires visé par une tentative d'espionnage au profit de la Russie
-
La Bourse de Paris termine la semaine atone
-
Tour de Suisse: Narvaez sous l'orage
-
La canicule s'étend, vigilance rouge en vue dimanche
-
L'émouvant adieu à Marjane Satrapi à Paris
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
B.Baumann--VB