-
Irã examina proposta mais recente dos Estados Unidos para acabar com a guerra
-
Navio com surto de hantavírus segue para a Espanha; pacientes são hospitalizados na Europa
-
Luiz Henrique: Após 24 anos de espera, Brasil tem a 'ambição de ganhar a Copa'
-
Cantora britânica Bonnie Tyler é hospitalizada em Portugal
-
Assassinato de adolescente a caminho da escola deixa cidade francesa em estado de choque
-
UE anuncia acordo para proibir IA que cria imagens sexuais falsas
-
Japão lança mísseis durante exercícios e irrita a China
-
Rússia pede a diplomatas que abandonem Kiev diante de possível ataque
-
Fluminense empata com Independiente Rivadavia no fim (1-1) em noite de recorde de Fábio
-
Corinthians arranca empate no fim (1-1) contra o Santa Fe na Libertadores
-
Seleção mexicana excluirá da Copa do Mundo jogadores que faltarem ao início do período de treinos
-
Juiz dos EUA divulga suposta nota de suicídio de Jeffrey Epstein
-
Sem Arrascaeta, Flamengo enfrenta Independiente Medellín na Libertadores
-
Primeiro contágio de hantavírus em cruzeiro não poderia ter ocorrido no navio ou em escala, segundo OMS
-
Rússia pede a diplomatas que evacuem Kiev diante de possível ataque
-
Anthropic utilizará centros de dados da SpaceX para sua IA
-
'Não levaram o problema suficientemente a sério', diz passageiro de cruzeiro com hantavírus
-
PSG elimina Bayern e vai enfrentar Arsenal na final da Champions
-
Democratas acusam secretário de Comércio de Trump de encobrir caso Epstein
-
Em um ano eleitoral difícil, Lula visita Trump em Washington
-
Ex-presidente francês Sarkozy não precisará usar tornozeleira eletrônica novamente
-
Avião que decolou de Cabo Verde por surto de hantavírus faz escala nas Canárias
-
Fora da Copa, mas com Sinner: tênis desafia reinado do futebol na Itália
-
Justiça israelense rejeita libertar ativista brasileiro Thiago Ávila
-
Anistia Internacional designa dois líderes indígenas na Guatemala como 'prisioneiros de consciência'
-
Avião que decolou de Cabo Verde por surto de hantavírus pousou nas Canárias
-
Países asiáticos ainda não assinaram acordo para transmitir a Copa do Mundo
-
Fifa amplia punição do argentino Prestianni, que pode cumprir suspensão na Copa
-
Bienal de Veneza começa com polêmica por presença da Rússia
-
Ted Turner, fundador e 'alma' da CNN, morre aos 87 anos
-
Neymar e Robinho Jr. fazem as pazes após briga em treino
-
Trump aumenta pressão para alcançar acordo de paz e ameaça Irã com novos bombardeios
-
Ted Turner, fundador da CNN, morre aos 87 anos
-
Navio de cruzeiro com surto de hantavírus vai atracar nas Canárias
-
Prêmio Princesa de Astúrias reconhece criatividade do Studio Ghibli
-
Tribunal israelense rejeita libertação de Thiago Ávila e de ativista espanhol-palestino
-
Bienal de Veneza inicia com polêmica por presença da Rússia
-
Eleições locais no Reino Unido, um teste difícil para um governo trabalhista em baixa
-
Tradição, Trump e tênis: cinco pontos sobre o papa Leão XIV
-
Pontificado de Leão XIV: um ano de moderação ofuscado pela crise com Trump
-
Passageiros com suspeita de hantavírus são retirados de navio e levados aos Países Baixos
-
Papa Leão XIV celebrará missa na Sagrada Família de Barcelona em 10 de junho
-
Venezuela defende na CIJ seu direito 'irrenunciável' à região de Essequibo
-
Rússia ataca Ucrânia durante cessar-fogo decretado por Kiev
-
Rolling Stones lançarão novo álbum 'Foreign Tongues' em 10 de julho
-
Casemiro acha "difícil" United renovar seu contrato, apesar dos apelos da torcida
-
Trump suspende operação de escolta de navios em Ormuz para impulsionar acordo com Irã
-
Palmeiras vence Sporting Cristal (2-0) e assume liderança do Grupo F da Libertadores
-
Adolescente abre fogo em escola no Acre e deixa dois mortos
-
Musk 'ia me bater', diz cofundador da OpenAI em julgamento nos EUA
IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
N.Schaad--VB