-
Príncipe William visita o Rio em missão climática antes da COP30
-
Prejuízos causados por Melissa serão um 'fardo' para a Jamaica por muitos anos, alerta a ONU
-
Queniano Benson Kipruto vence a Maratona de Nova York
-
Jannik Sinner é campeão do Masters 1000 de Paris e volta a ser número 1 do mundo
-
Dois dos suspeitos do roubo ao Louvre são um casal com filhos, diz promotora
-
Mamdani lidera disputa dramática pela Prefeitura de Nova York
-
Queniana Hellen Obiri vence e estabelece novo recorde na Maratona de Nova York
-
Israel ameaça intensificar ataques contra Hezbollah no sul do Líbano
-
Inter de Milão vence Verona e encosta no líder Napoli
-
Sabalenka confirma favoritismo contra Paolini e estreia com vitória no WTA Finals
-
Papa denuncia 'sofrimento inaceitável' da população no Sudão
-
O que se sabe sobre ataque com faca que deixou 10 feridos em trem no Reino Unido
-
Ex-Fla e Corinthians, técnico Vítor Pereira é demitido do lanterna da Premier League
-
Sem ajuda alimentar do governo, 'não como': o drama de milhões nos EUA
-
Alta do ouro impulsiona nova febre na Califórnia
-
Pequenos produtores de cacau temem nova lei europeia contra o desmatamento
-
Autoridades encontram vídeo de suposto estupro cometido por policiais em tribunal francês
-
Ataques russos na madrugada deixam ao menos seis mortos na Ucrânia
-
Morte se torna um negócio rentável em uma Coreia do Sul envelhecida e solitária
-
França exige cláusulas de salvaguarda antes de assinar acordo com Mercosul
-
Reino Unido investiga ataque com faca que deixou 10 feridos em um trem
-
Obama faz campanha antes de eleições importantes nos EUA
-
Milhares marcham na Argentina por direitos LGBTQ e contra políticas de Milei
-
Vários feridos e dois detidos por ataque com arma branca em trem na Inglaterra
-
Real Madrid goleia Valencia (4-0) e se mantém isolado na liderança do Espanhol
-
Juventus vence na estreia de Spalletti; líder Napoli tropeça em casa
-
Liverpool volta a vencer no Inglês após 4 derrotas; Arsenal segue firme na liderança
-
Crianças de Gaza voltam às aulas após dois anos de guerra
-
O que o futuro reserva para o ex-príncipe Andrew?
-
Bayern de Munique vence Bayer Leverkusen e segue imbatível na temporada
-
Milhares protestam na Sérvia no aniversário do desabamento de estação de trem
-
Napoli tropeça com Como no Italiano e fica com liderança ameaçada
-
PSG vence Nice com gol nos acréscimos e mantém liderança do Francês
-
Duas pessoas são indiciadas por roubo no Louvre, incluindo uma mulher de 38 anos
-
Operação policial mais letal do Brasil apreende R$ 12,8 milhões em armas
-
Google Maps elimina fronteira que separava Marrocos do Saara Ocidental
-
Sinner vence Zverev e vai enfrentar Auger-Aliassime na final do Masters 1000 de Paris
-
Arsenal vence Burnley e segue firme na liderança do Inglês
-
Apesar das barreiras, os eSports femininos continuam se desenvolvendo
-
RB Leipzig vence Stuttgart e recupera vice-liderança do Alemão
-
Swiatek estreia no WTA Finals com vitória esmagadora sobre Madison Keys
-
Duas pessoas são indiciadas pelo roubo no Louvre e outras três são liberadas
-
Auger-Aliassime vence Bublik e vai à final do Masters 1000 de Paris
-
EUA não enviará autoridades de alto escalão à COP30 em Belém
-
Parque Yosemite é posto à prova durante paralisação do governo federal dos EUA
-
Patrick Vieira é demitido do Genoa
-
Egito inaugura seu grande museu dedicado aos faraós
-
China reautorizará algumas exportações à Europa da fabricante de chips Nexperia
-
Aumento vertiginoso dos custos de saúde gera pânico nos EUA
-
Imagens de satélite apontam para mais massacres na cidade sudanesa de El Fasher
IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
N.Schaad--VB