-
L'Iran enterre son puissant chef de la sécurité Larijani et jure de le venger
-
La Colombie dénonce un bombardement sur son territoire par l'Equateur, Quito dément
-
La guerre ravive l'inflation et la perspective d'un gel des taux prolongé aux Etats-Unis
-
Avec EU Inc, Bruxelles déroule le tapis rouge aux entrepreneurs
-
Faste royal au premier jour de la visite d'Etat du président nigérian au Royaume-Uni
-
Climat: décision sur la responsabilité de TotalEnergies, poursuivi par un agriculteur belge
-
Macron près de Nantes pour dévoiler le nom du futur porte-avions géant
-
CAN: après les incidents de la finale, le Sénégal déchu de son titre qui échoit au Maroc
-
Au moins six morts dans des frappes israéliennes dans le centre de Beyrouth
-
Irak: attaques contre l'ambassade américaine à Bagdad
-
Cuba rétablit son réseau électrique, Washington accentue la pression
-
C1: le bijou d'Eze envoie Arsenal en quarts contre le Sporting
-
Ligue des champions: le Real Madrid éclipse Manchester City, encore
-
Ligue des champions: le PSG tout en talent et en maîtrise pour confirmer contre Chelsea
-
Washington accentue la pression sur Cuba qui rétablit l'électricité
-
L'Iran confirme la mort d'Ali Larijani, Israël promet le même sort à Mojtaba Khamenei
-
Le système ne "fera jamais partie" des discussions, dit une diplomate cubaine
-
Le Premier ministre irlandais tient courtoisement tête à Trump
-
Les marchés boursiers reprennent leur souffle, malgré la hausse du pétrole
-
Ligue des champions: le Sporting brise le rêve de Bodo Glimt
-
Poursuivi par sa soeur pour atteinte à la vie privée, Alain-Fabien Delon affirme avoir voulu "protéger son père"
-
"Pas de trêve contre le terrorisme", exhorte Milei en commémorant un attentat anti-israélien en Argentine
-
Sassou Nguesso, "l'Empereur" du Congo qui refuse de passer la main
-
Congo-Brazzaville: Denis Sassou Nguesso réélu pour un 5e mandat
-
Inquiétudes autour d'un vide juridique sur la pédocriminalité en Europe
-
L'Equateur nie avoir bombardé le territoire colombien
-
Washington accentue la pression sur Cuba qui rétablit peu à peu le courant
-
Gaza fête son premier Aïd en période de trêve, mais craint l'oubli face à la guerre en Iran
-
Liban: trois soldats tués par des frappes israéliennes dans le sud, centres d'accueil saturés
-
Les Bourses européennes clôturent en hausse, les yeux tournés vers les banques centrales
-
Protéger les pétroliers de l'Iran rime avec déploiement militaire massif, à Ormuz et au-delà
-
Opposé à la guerre en Iran, un haut responsable de l'antiterrorisme américain annonce sa démission
-
Visage des opérations anti-immigration de Trump, le policier Greg Bovino part à la retraite
-
Starmer appelle à "ne pas perdre de vue" l'Ukraine, en recevant Zelensky à Londres
-
Aux assises de Paris, le supplice des femmes yazidies traitées comme des "objets sexuels"
-
Etienne Davignon ou les tourments de l'histoire belge
-
Procès pour corruption en Argentine : "Je risque de mourir en prison" lance Mme Kirchner
-
La protection des sources des journalistes ne s'arrête pas aux portes du restaurant
-
Avec la guerre au Moyen-Orient, la crainte d'un choc pétrolier ressurgit
-
Logement: les expulsions ont atteint un niveau record en 2025
-
Assassinat de Lumumba : la justice ordonne le renvoi en procès d'un ex-diplomate belge
-
Financement libyen: Guéant "pas en capacité de comparaître" au procès en appel
-
Au tribunal, l'ex-leader du Sinn Fein Gerry Adams dément toute appartenance à l'IRA
-
Allemagne: des Ukrainiens suspectés de préparer des sabotages pour Moscou devant la justice
-
Municipales: Delogu se retire à Marseille, Knafo pourrait l'imiter à Paris
-
Israël annonce avoir tué le chef de la sécurité en Iran
-
Hôpitaux publics: l'activité est restée "très dynamique" en 2025
-
En Suède, une prison se prépare à accueillir des enfants de 13 ans, malgré les critiques
-
À Sao Paulo, un "Big Brother" boosté à l'IA cible les délinquants, et des innocents
-
Un survivant de la bombe atomique d’Hiroshima, enlacé par Obama en 2016, meurt à 88 an
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.
Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.
Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.
Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.
o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).
Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.
Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.
"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."
Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.
Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.
Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).
Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.
Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.
- L'IA en justice? -
"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.
Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.
Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.
"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".
Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.
Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.
Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.
Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".
B.Baumann--VB