Os pesquisadores da IA ainda não entendem completamente como o trabalho deles funciona.
Os modelos de IA mais avançados do mundo mostram novos comportamentos que estão mentindo. Eles até mentem e ameaçam os criadores para alcançar seus objetivos.
Em um exemplo particularmente desagradável, sob a ameaça de não ser desenhado, a última criação do Antrópico, Claude 4, ameaçou chantagear o engenheiro e revelar os eventos extra-conjugais.
Enquanto isso, o O1 do criador do ChatGPT Openai tentou baixar -se para um servidor externo e o rejeitou quando pegou a Red Hand.
Esses episódios enfatizam uma realidade calma. Mais de dois anos após o Chatgpt abalando o mundo, os pesquisadores da IA não entendem completamente como o trabalho deles funciona.
No entanto, a competição para implantar modelos cada vez mais poderosos continua a uma velocidade feroz.
Esse comportamento enganoso parece estar ligado ao surgimento do modelo “inferência”. Este é um sistema de IA que funciona através de problemas passo a passo, em vez de gerar respostas instantâneas.
Segundo Simon Goldstein, professor da Universidade de Hong Kong, esses novos modelos são particularmente propensos a uma explosão tão problemática.
“O O1 foi o primeiro grande modelo a ver esse tipo de comportamento”, explicou Marius Hobbhahn, chefe da Apollo Research, especializada em testar os principais sistemas de IA.
Esses modelos podem simular “alinhamento”. Eles parecem seguir as instruções enquanto buscam secretamente vários propósitos.
“Engano estratégico”
Por enquanto, esse comportamento enganoso se manifesta apenas quando os pesquisadores deliberadamente testam o modelo de estresse no modelo em cenários extremos.
No entanto, como a organização de revisão Michael Chen alertou, “é uma questão em aberto se os modelos futuros, mais capazes tendem a ser direcionados à integridade ou engano”.
O comportamento da preocupação vai muito além da “hatografia” da IA típica ou de erros simples.
O programa de inteligência artificial ChatGPT enfrenta uma série de ações judiciais dos demandantes, onde o Openai acusa a empresa de violação de direitos autorais. – AFP
Apesar dos constantes testes de pressão dos usuários, Hobbhahn argumentou que “o que estamos observando é um fenômeno real. Não estamos compensando nada”.
De acordo com co-fundadores da Apollo Research, os usuários relatam que o modelo está “mentindo para eles e criando evidências”.
“Isso não é apenas alucinações. Existe um tipo de engano muito estratégico”.
Esse desafio é exacerbado por recursos de pesquisa limitados.
Empresas como Anthropic e OpenAI estão envolvidas no estudo de empresas externas como a Apollo e seus sistemas, mas os pesquisadores dizem que é necessária mais transparência.
Como Chen apontou, “melhor compreensão e mitigação do engano serão possíveis para a pesquisa de segurança da IA”.
Outra desvantagem: o mundo da pesquisa e organizações sem fins lucrativos “têm ordens de magnitude menos recursos de computação do que as empresas de IA. Isso é muito limitado”, diz Mantas Mazeika, do AI Safety Center (CAIS).
Sem regras
Os regulamentos atuais não foram projetados para esses novos problemas.
A lei de IA da União Europeia se concentra principalmente em como os seres humanos usam os modelos de IA, em vez do próprio modelo, impede a fraude.
Nos EUA, o governo Trump demonstrou pouco interesse nos regulamentos de emergência da IA, e o Congresso poderia até proibir os estados de criar suas próprias regras de IA.
Os logotipos NVIDIA e Deepseek podem ser vistos nesta ilustração, realizada em 27 de janeiro de 2025 – Reuters
Goldstein acredita que esse problema se tornará mais pronunciado devido à popularidade generalizada dos agentes da IA - ferramentas autônomas que podem executar tarefas humanas complexas.
“Acho que ainda não foi muito bem reconhecido”, disse ele.
Tudo isso é feito no contexto de intensa concorrência.
Mesmo empresas focadas na segurança como a humanidade apoiada pela Amazon estão “constantemente tentando vencer o Openai e lançar os modelos mais recentes”, disse Goldstein.
Esse ritmo furioso deixa pouco tempo para testes e correções de segurança completos.
“No momento, os recursos se movem mais rápido que a compreensão e a segurança”, admitiu Hobbhaan. “Mas ainda estamos em posição de mudar isso.”
Os pesquisadores estão explorando diferentes abordagens para enfrentar esses desafios.
Embora especialistas como o diretor da CAIS Dan Hendrycks permaneçam céticos sobre essa abordagem, alguns defendem “interpretabilidade”.
As forças de mercado podem trazer alguma pressão sobre as soluções.
Como Mazeika apontou, o comportamento enganoso da AI “pode dificultar a adoção se for muito comum e cria um forte incentivo para as empresas resolvê -lo”.
Goldstein propôs uma abordagem mais fundamental, como o uso de tribunais para responsabilizar as empresas de IA por meio de litígios quando o sistema é prejudicado.
Ele até propôs que um conceito fundamentalmente em mudança de responsabilidade de IA fosse “responsabilizar legalmente os agentes da IA por acidentes e crimes”.
Imagem do cabeçalho: A boneca com um computador e um smartphone pode ser vista na frente da palavra “Inteligência Artificial AI” nesta ilustração, tomada em 19 de fevereiro. —Reuters

