
-
Benfica demite Bruno Lage após derrota na Champions e busca contratação de Mourinho
-
Volante Thomas Partey, do Villarreal, se declara inocente de acusações de estupro
-
Alison dos Santos se classifica para final no Mundial de Atletismo
-
Comissão Europeia propõe mais impostos a produtos de Israel e sanções contra dois ministros
-
IA pode aumentar em 40% o valor do comércio global, diz OMC
-
Bolsonaro segue internado com problema renal e anemia
-
Beleza escondida: cirurgias estéticas estão na moda no Afeganistão
-
Kast sustenta sua candidatura presidencial em plano anticrime para o Chile
-
Cofundador dos sorvetes Ben & Jerry's renuncia devido a crise de 'valores' na empresa
-
'FC 26' volta aos 'fundamentos' do FIFA para se reconciliar com seus fãs
-
Reino Unido exibe toda a sua pompa para visita de Estado de Trump
-
Imposto a super-ricos agita o debate político na França
-
Colômbia foi o país mais perigoso para ambientalistas em 2024
-
Viúva de opositor russo Navalny diz que ele morreu envenenado
-
Israel anuncia nova rota 'temporária' para acelerar fuga dos moradores da Cidade de Gaza
-
Principal suspeito do caso Madeleine McCann deixa a prisão na Alemanha
-
Governo resgata 1.600 turistas retidos em Machu Picchu por protestos
-
'Futuro melhor é possível': jovens dos EUA processam Trump por mudança climática
-
Trump afirma que EUA 'eliminou' 3 embarcações venezuelanas
-
Palmeiras visita River pela ida das quartas de final da Libertadores
-
Sentenciados por matarem seus pais, irmãos Menéndez têm novo julgamento negado
-
Jair Bolsonaro passará noite no hospital após "sentir-se mal"
-
Ativistas anti-Trump projetam fotos relacionadas com caso Epstein no castelo de Windsor
-
Nova York terá café chamado 'Central Perk' inspirado em 'Friends'
-
Promotoria quer pena de morte para suspeito de assassinar Charlie Kirk
-
YouTube anuncia novas ferramentas de IA para criadores de vídeos
-
Modi e Trump trocam mensagens cordiais em meio a negociações comerciais tensas
-
Governo resgata 1.400 turistas retidos em Machu Picchu por protestos
-
Jair Bolsonaro é levado a hospital em Brasília após "sentir-se mal"
-
Qarabag surpreende e vence Benfica (3-2) de virada na Champions
-
Com 8 gols no segundo tempo, Juventus e Borussia Dortmund empatam na Champions
-
Tottenham vence Villarreal (1-0) com falha de goleiro brasileiro na 1ª rodada da Champions
-
Real Madrid vence Olympique de Marselha (2-1) de virada na estreia na Champions
-
Gestão do canal do Panamá prevê iniciar construção de gasoduto em 2027
-
Trump anuncia que EUA e China chegaram a acordo sobre TikTok e adia proibição nos EUA
-
Líderes das Farc recebem primeira sentença por sequestros após acordo de paz na Colômbia
-
Luigi Mangione, acusado de matar CEO de seguradora, será julgado em dezembro nos EUA
-
Colômbia dá nacionalidade a ex-vice-presidente equatoriano preso Jorge Glas
-
EUA emitiu 'alguns' vistos para delegação do Brasil ir à Assembleia Geral da ONU, diz Vieira
-
Síria trabalha com os EUA para alcançar "acordos de segurança" com Israel
-
Arsenal vence Athletic (2-0) fora de casa na estreia na Champions
-
EUA oferece recompensa de US$ 5 milhões por membro do cartel de Sinaloa
-
Suspeito de assassinato de Kirk é acusado de homicídio qualificado
-
No Paraguai, Milei homenageia Kirk e rejeita "qualquer opção moderada"
-
Desemprego marca outro recorde positivo no Brasil
-
Isak deve estrear pelo Liverpool contra o Atlético de Madrid na Champions
-
Trump afirma que EUA 'eliminou' três embarcações venezuelanas
-
Síria retira armas pesadas do sul do país, diz comandante militar
-
Israel bombardeia porto controlado por rebeldes huthis no Iêmen
-
Barcelona voltará ao estádio Johan Cruyff contra o Getafe

IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
N.Schaad--VB