A Antrópica planeja impedir que sua IA construa armas nucleares. Isso funcionará?

No final de agosto, a empresa de IA Anthropic anunciou que o seu chatbot Claude não seria útil na construção de armas nucleares. Segundo a Antropic, Claude fez parceria com o Departamento de Energia (DOE) e a Administração Nacional de Segurança Nuclear (NNSA) para garantir que não divulgasse segredos nucleares.

A produção de armas nucleares é ao mesmo tempo uma ciência exata e um problema resolvido. Grande parte da informação sobre as armas nucleares mais avançadas da América é ultrassecreta, mas a ciência nuclear original tem 80 anos. A Coreia do Norte provou que qualquer país interessado em adquirir uma bomba pode fazê-lo e não precisa da ajuda de chatbots.

Como exatamente o governo dos EUA trabalhou com empresas de IA para evitar que os chatbots vazassem segredos nucleares? E havia o risco de os chatbots ajudarem alguém a construir uma arma nuclear?

A resposta à primeira pergunta é que usei a Amazon. A resposta à segunda pergunta é complicada.

Amazon Web Services (AWS) fornece aos clientes governamentais serviços em nuvem Top Secret para armazenamento de informações confidenciais e confidenciais. O DOE já possuía vários desses servidores quando começou a trabalhar com a Anthropic.

“Introduzimos a versão então Frontier de Claude em um ambiente ultrassecreto para permitir que a NNSA testasse sistematicamente se os modelos de IA poderiam criar ou exacerbar riscos nucleares”, disse Marina Favaro, diretora de política de segurança nacional e parcerias da Anthropic, à WIRED. “Desde então, a NNSA tem reunido modelos históricos de Claude em um ambiente de nuvem seguro e nos fornecido feedback.”

O processo da equipe vermelha da NNSA (ou seja, testes de pontos fracos) ajudou os cientistas nucleares da Antrópico e da América a desenvolver uma solução proativa para seu programa nuclear assistido por chatbot. Juntos, eles “co-desenvolveram um classificador nuclear, que pode ser considerado um filtro sofisticado para conversas de IA”, diz Favaro. “Criamos esta lista usando indicadores de risco nuclear criados pela NNSA, tópicos específicos e uma lista de detalhes técnicos que nos ajudam a identificar quando a conversa pode avançar para território prejudicial. A lista em si é controlada, mas não classificada, o que é muito importante porque significa que o nosso pessoal técnico e outras empresas podem fazê-lo.”

Favaro disse que foram necessários meses de ajustes e testes para que o classificador funcionasse. “Aprenda conversas relevantes sobre energia nuclear e isótopos médicos sem sinalizar discussões legítimas”, diz ela.

Source link

What's Hot

Transação do diretor: Victoria CEO adquire ações

T-Mobile relata forte crescimento de clientes, ainda abaixo das expectativas de Wall Street

Aberto dos EUA: as ações caem enquanto os investidores se preocupam com os números do NFP de janeiro

A Antrópica planeja impedir que sua IA construa armas nucleares. Isso funcionará?

OpenAI contrata CEO do Slack como novo diretor de receitas

Funcionários da OpenAI se demitem, alegando que a pesquisa econômica da empresa está sendo usada para defender a IA

OpenAI, Anthropic e Block colaboram para melhorar o desempenho do agente de IA

A maior mineradora de Bitcoin da América está mudando seu foco para IA

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

3 moedas meme devem disparar antes do Natal

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

Subscribe to Updates

What's Hot

A Antrópica planeja impedir que sua IA construa armas nucleares. Isso funcionará?

Related Posts