A MLCommons, uma organização sem fins lucrativos que ajuda as empresas a medir o desempenho dos seus sistemas de inteligência artificial, está a lançar um novo benchmark para medir também o lado negro da IA.
O novo benchmark, chamado AILuminate, fornece testes extensivos de linguagem para mais de 12.000 solicitações de teste em 12 categorias, incluindo incitação ao crime violento, exploração sexual infantil, discurso de ódio, promoção de automutilação, violação de propriedade intelectual e muito mais. .
Os modelos recebem uma pontuação de “ruim”, “razoável”, “bom”, “muito bom” ou “excelente”, dependendo de seu desempenho. Os prompts usados para testar o modelo são mantidos em segredo para que não sejam tratados como dados de treinamento para que o modelo passe no teste.
Peter Mattsson, fundador e presidente da MLCommons e engenheiro sênior do Google, disse que medir o dano potencial dos modelos de IA é tecnicamente difícil e cria divergências em todo o setor. “A IA é uma tecnologia realmente nova e os testes de IA são um campo realmente novo”, diz ele. “A melhoria da segurança beneficia a sociedade. Beneficia o mercado.”
Métodos confiáveis e independentes de medição do risco de IA provavelmente se tornarão mais importantes na próxima administração dos EUA. O presidente Donald Trump diz que revogará a Ordem Executiva de IA do presidente Biden, que introduziu medidas destinadas a garantir o uso responsável da IA pelas empresas, e um novo Instituto de Segurança de IA para testar modelos poderosos, prometi.
Este esforço também poderia fornecer uma perspectiva internacional adicional sobre os danos da IA. Os membros da MLCommons incluem muitas empresas internacionais, incluindo as empresas chinesas Huawei e Alibaba. Se todas estas empresas utilizassem o novo parâmetro de referência, seria uma forma de comparar a segurança da IA nos EUA, na China e noutros países.
Alguns dos principais fornecedores de IA nos EUA já estão testando modelos usando AILumate, e a própria MLCommons está testando vários modelos de código aberto. O modelo Claude da Anthropic, o modelo menor Gemma do Google e o Phi da Microsoft obtiveram pontuação “muito boa” em nossos testes. O GPT-4o da OpenAI e o maior modelo Llama da Meta receberam pontuações “boas”. O único modelo classificado como “ruim” foi o OLMo do Allen Institute for AI, que Mattson observa ser um produto de pesquisa não projetado com a segurança em mente.
“No geral, é bom ver algum rigor científico no processo de avaliação de IA”, disse Luman Cho, CEO da Humane Intelligence, uma organização sem fins lucrativos especializada em testar e formar equipes de modelos de IA para fraudes. “As melhores práticas e métodos de medição abrangentes são necessários para determinar se um modelo de IA está funcionando conforme o esperado.”