Em uma conferência de segurança de computadores realizada em Arlington, Virgínia, em outubro passado, dezenas de pesquisadores de IA participaram dos primeiros exercícios concretos da equipe vermelha ou modelos de idiomas de ponta testados por estresse e outros sistemas de inteligência artificial. Ao longo de dois dias, a equipe identificou 139 novas maneiras de funcionar mal o sistema, incluindo a geração de informações falsas e vazando dados pessoais. Mais importante, eles mostraram falhas nos novos padrões do governo dos EUA projetados para ajudar as empresas a testar os sistemas de IA.
O Instituto Nacional de Padrões e Tecnologia (NIST) não publicou um relatório detalhado do exercício que foi finalizado no final do governo Biden. O documento pode ajudar as empresas a avaliar seus próprios sistemas de IA, mas fontes familiarizadas com a situação que falaram sob condição de anonimato dizem que foi um dos vários documentos da IA do NIST e não tornou público por medo de confrontos com o próximo governo.
“Mesmo sob (Presidente Joe) Biden, tornou -se extremamente difícil arquivar documentos”, diz uma fonte na época no NIST. “Parecia um estudo das mudanças climáticas e um estudo de tabaco”.
Nem o NIST nem o departamento de comércio responderam aos pedidos de comentários.
Antes de assumir o cargo, o presidente Donald Trump mostrou que estava planejando reverter a ordem executiva de Biden na IA. Desde então, o governo Trump evitou especialistas de pesquisar questões como viés de algoritmo e justiça nos sistemas de IA. O Plano de Ação da AI, divulgado em julho, exige explicitamente a estrutura de gerenciamento de riscos da AI do NIST para revisar “para eliminar referências de desinformação, diversidade, equidade, inclusão e mudanças climáticas”.
Ironicamente, o plano de ação da IA de Trump exige precisamente o tipo de exercícios cobertos por relatórios não publicados. Juntamente com o NIST, inúmeras agências estão pedindo “coordenar a iniciativa da AI Hackathon para recrutar o melhor e o mais brilhante da academia dos EUA para testar os sistemas de IA de transparência, eficácia, controle e vulnerabilidades de segurança”.
O evento Red Teaming foi organizado em colaboração com a Humane Intelligence, uma empresa especializada em testar sistemas de IA, avaliando os riscos e o impacto do programa de IA (ARIA) da NIST. O evento foi realizado na conferência da Information Security (Camlis) sobre aprendizado de máquina aplicado.
O Relatório da Camlis Red Teaming descreve os esforços para investigar vários sistemas de IA de ponta, incluindo o principal modelo de linguagem de código aberto da Meta, Llama. Anote, uma plataforma para construir e ajustar os modelos de IA. Um sistema que bloqueia os sistemas de IA da Robust Intelligence, uma empresa adquirida pela Cisco. E uma plataforma para gerar avatares de IA a partir da síntese da empresa. Representantes de cada empresa também participaram do exercício.
Os participantes foram solicitados a usar a estrutura NIST AI 600-1 para avaliar as ferramentas de IA. A estrutura abrange categorias de risco, como a geração de desinformação e ataques de segurança cibernética, vazando informações pessoais do usuário, informações importantes sobre os sistemas de IA relevantes e a probabilidade de que os usuários possam estar emocionalmente anexados às ferramentas de IA.
Os pesquisadores descobriram vários truques para pular de proteção, gerar informações falsas, vazar dados pessoais e testar modelos e ferramentas para ajudar a criar ataques de segurança cibernética. O relatório afirma que as autoridades viram alguns elementos da estrutura do NIST como mais úteis que outros. O relatório afirma que algumas das categorias de risco do NIST não estavam bem definidas como praticamente úteis.