-
Documentos indicam que ex-príncipe Andrew convidou Jeffrey Epstein ao Palácio de Buckingham
-
Presidente da Venezuela anuncia anistia geral e fechamento de temida prisão política
-
Tribunal da Espanha ordena que freiras desocupem convento
-
Senado dos EUA aprova projeto de lei que deve encurtar 'shutdown'
-
Bruce Springsteen interpreta canção contra polícia de imigração em Minneapolis
-
Principal refinaria de petróleo do Equador registra segundo incêndio em oito meses
-
Milhares de pessoas marcham em Minneapolis contra operações anti-imigração nos EUA
-
Lens vence Le Havre (1-0) e assume liderança provisória do Francês, à frente do PSG
-
Israel anuncia reabertura limitada da passagem de fronteira de Rafah a partir de domingo
-
Departamento de Justiça dos EUA publica mais de 3 milhões de páginas do caso Epstein
-
Trump diz que Irã 'quer chegar a um acordo' para evitar ataque de EUA
-
Cubanos exaustos pela crise apostam no diálogo diante das ameaças de Trump
-
Número de mortos em catástrofe ferroviária na Espanha sobe para 46
-
Primeiros atletas se instalam na vila olímpica em Milão a uma semana dos Jogos de Inverno
-
Fela Kuti será primeiro africano a receber Grammy pelo conjunto da obra
-
Presidente eleito do Chile visita megaprisão de El Salvador para 'estudar' modelo
-
Jogos Pan-Americanos de 2027, em Lima, vão começar uma semana depois do previsto
-
Inter Miami contrata atacante Germán Berterame, da seleção mexicana
-
Morre Catherine O'Hara, estrela de 'Esqueceram de mim'
-
Espanhol Albert Riera é o novo técnico do Eintracht Frankfurt
-
Postos de gasolina têm longas filas em Cuba, que acusa Trump de 'asfixiar' sua economia
-
EUA improvisa programa de controle das finanças venezuelanas que levanta questionamentos
-
Fermín López renova com Barcelona até 2031
-
Voto de confiança: costarriquenhos guardam cédulas eleitorais em casa
-
Arsenal tenta afastar pressão em sua luta para conquistar a Premier League após 22 anos
-
Justiça dos EUA descarta pena de morte para Luigi Mangione, acusado de matar executivo
-
Real Madrid vai se reencontrar com Benfica na repescagem da Champions
-
Procuradora-geral dos EUA ordena detenção de jornalista que interrompeu missa em Minneapolis
-
Panamá negocia com dinamarquesa Maersk operação de portos do canal
-
Postos de gasolina têm longas filas em Cuba, que acusa EUA de 'asfixiar' sua economia
-
Goretzka anuncia saída do Bayern de Munique ao final da temporada
-
Grealish vai 'provavelmente' desfalcar o Everton no restante da temporada
-
Juiz dos EUA descarta pena de morte para Luigi Mangione, acusado de matar executivo
-
Vice-presidente da Comissão Europeia lamenta imagens 'aterrorizantes' de Minneapolis
-
Itália julga seis pessoas por naufrágio de embarcação de migrantes que deixou 94 mortos
-
AIEA se reúne preocupada com segurança nuclear na Ucrânia
-
Colômbia retoma voos de deportação dos EUA antes do encontro entre Petro e Trump
-
Lula é operado de catarata e tem alta após cirurgia 'sem intercorrências'
-
Djokovic vence Sinner em jogo de 5 sets e vai enfrentar Alcaraz na final do Aberto da Austrália
-
Kendrick Lamar, Bad Bunny e Lady Gaga lideram a disputa pelo Grammy
-
Indicados às principais categorias do Grammy
-
África do Sul e Israel anunciam expulsão de representantes diplomáticos
-
Desemprego no Brasil caiu para 5,6% em 2025, menor índice da série histórica
-
Forças curdas anunciam acordo 'global' com o governo da Síria
-
Chanceler iraniano se diz disposto a negociação nuclear 'em pé de igualdade'
-
Trump indica Kevin Warsh para ser o próximo presidente do Fed
-
Zona do euro registra crescimento de 1,5% em 2025 apesar da tensão com EUA
-
IA ajuda médicos a detectar câncer de mama em exames, aponta estudo
-
Repescagem da Champions terá Monaco-PSG e reencontro de Benfica com Real Madrid
-
Panamá anula concessão a uma empresa de Hong Kong em seu canal; China promete proteger suas companhias
IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
N.Schaad--VB