-
Uma nação dividida assiste com desconfiança ao empate do Irã
-
Cabo Verde arranca empate (2-2) contra Uruguai, que se complica na Copa
-
EUA afirma que negociações com Irã vão continuar
-
Colômbia faz guinada à direita e elege milionário pró-Trump presidente
-
'Showman' milionário e pró-Trump vai governar a Colômbia
-
Deschamps garante que Dembélé vai evoluir ao longo da Copa
-
Candidato da extrema direita é eleito presidente na Colômbia
-
Candidato da extrema direita lidera segundo turno na Colômbia
-
Técnico da Áustria diz que Argentina não tem pontos fracos
-
Bélgica fica no 0 a 0 com Irã e segue sem vencer na Copa do Mundo
-
Técnico do Iraque brinca sobre jogar 'com três goleiros' contra a França
-
Francisco Conceição elogia CR7, mas o considera 'mais um na equipe' de Portugal
-
Serena Williams disputará Wimbledon em simples, aos 44 anos
-
Turistas de hotel incendiado na República Dominicana retornam para seus países
-
Delegação do Irã deixa local de negociações após ameaça de Trump
-
Brasil precisa se reestruturar rápido após lesão de Raphinha, diz Paquetá
-
Morreu Ramiro Valdés, um dos líderes da Revolução Cubana
-
Irã pede que EUA 'meça palavras', no começo de negociações
-
Noskova surpreende Pegula e é campeã do WTA 500 de Berlim
-
Espanha goleia Arábia Saudita (4-0) com primeiro gol de Yamal em Copas e brilho de Oyarzabal
-
Espanha goleia Arábia Saudita (4-0) com primeiro gol de Yamal em Copas
-
Irã e EUA retomam negociações na Suíça para pôr fim à guerra no Oriente Médio
-
Argentina treina antes de viajar para duelo contra Áustria
-
Vitória e classificação: a motivação de Mbappé em seu 100º jogo pela seleção francesa
-
Starmer pondera 'realidades políticas' enfrentadas, diz ministro do Comércio
-
Francisco Cerúndolo é campeão do torneio de Queen's, seu primeiro ATP 500
-
Brasil treina sem 7 jogadores antes de duelo contra Escócia
-
Bolívia reduz bloqueios a estradas fechadas por opositores ao presidente
-
Tiafoe vence Fritz e é campeão do ATP 500 de Halle
-
Carrasquilla, o astro panamenho que sonha em enfrentar o ídolo Modric
-
Irã e EUA voltam à Suíça para negociar o fim da guerra no Oriente Médio
-
Espanha e Uruguai voltam a campo neste domingo e querem se juntar aos campeões que já venceram
-
Colômbia escolhe entre candidato pró-Trump e herdeiro político da esquerda no poder
-
Japão goleia (4-0) e elimina Tunísia da Copa do Mundo
-
Irã poderá antecipar sua viagem a Seattle para 3º jogo na Copa, anuncia técnico
-
Messi e os dois presentes de aniversário que o aguardam contra a Áustria
-
Alemanha vence Costa do Marfim de virada (2-1) e avança em 1º lugar à próxima fase da Copa
IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
N.Schaad--VB