No final de agosto, a empresa de IA Anthropic anunciou que o seu chatbot Claude não seria útil na construção de armas nucleares. Segundo a Antropic, Claude fez parceria com o Departamento de Energia (DOE) e a Administração Nacional de Segurança Nuclear (NNSA) para garantir que não divulgasse segredos nucleares.
A produção de armas nucleares é ao mesmo tempo uma ciência exata e um problema resolvido. Grande parte da informação sobre as armas nucleares mais avançadas da América é ultrassecreta, mas a ciência nuclear original tem 80 anos. A Coreia do Norte provou que qualquer país interessado em adquirir uma bomba pode fazê-lo e não precisa da ajuda de chatbots.
Como exatamente o governo dos EUA trabalhou com empresas de IA para evitar que os chatbots vazassem segredos nucleares? E havia o risco de os chatbots ajudarem alguém a construir uma arma nuclear?
A resposta à primeira pergunta é que usei a Amazon. A resposta à segunda pergunta é complicada.
Amazon Web Services (AWS) fornece aos clientes governamentais serviços em nuvem Top Secret para armazenamento de informações confidenciais e confidenciais. O DOE já possuía vários desses servidores quando começou a trabalhar com a Anthropic.
“Introduzimos a versão então Frontier de Claude em um ambiente ultrassecreto para permitir que a NNSA testasse sistematicamente se os modelos de IA poderiam criar ou exacerbar riscos nucleares”, disse Marina Favaro, diretora de política de segurança nacional e parcerias da Anthropic, à WIRED. “Desde então, a NNSA tem reunido modelos históricos de Claude em um ambiente de nuvem seguro e nos fornecido feedback.”
O processo da equipe vermelha da NNSA (ou seja, testes de pontos fracos) ajudou os cientistas nucleares da Antrópico e da América a desenvolver uma solução proativa para seu programa nuclear assistido por chatbot. Juntos, eles “co-desenvolveram um classificador nuclear, que pode ser considerado um filtro sofisticado para conversas de IA”, diz Favaro. “Criamos esta lista usando indicadores de risco nuclear criados pela NNSA, tópicos específicos e uma lista de detalhes técnicos que nos ajudam a identificar quando a conversa pode avançar para território prejudicial. A lista em si é controlada, mas não classificada, o que é muito importante porque significa que o nosso pessoal técnico e outras empresas podem fazê-lo.”
Favaro disse que foram necessários meses de ajustes e testes para que o classificador funcionasse. “Aprenda conversas relevantes sobre energia nuclear e isótopos médicos sem sinalizar discussões legítimas”, diz ela.

