No final de 2023, uma equipe de pesquisadores de terceiros descobriu uma falha problemática no modelo de inteligência artificial amplamente utilizado da Openai, GPT-3.5.
Quando solicitado a repetir uma palavra específica milhares de vezes, o modelo começou a repetir a palavra repetidamente, depois mudou de repente para cuspir texto inconsistente e trechos de informações pessoais extraídas dos dados de treinamento, incluindo nome, número de telefone e endereço de email. A equipe que descobriu que a questão trabalhou com o OpenAI para confirmar que o defeito havia sido corrigido antes de ser publicado. Este é apenas um dos muitos problemas vistos nos principais modelos de IA nos últimos anos.
A proposta divulgada hoje diz que mais de 30 pesquisadores de IA proeminentes, incluindo aqueles que descobriram um defeito no GPT-3.5, relataram muitas outras vulnerabilidades que afetam os modelos populares de maneiras problemáticas. Eles propõem novos esquemas apoiados pelas empresas de IA, concedem permissão para investigar o modelo e sugerir maneiras de divulgar publicamente falhas.
“Agora, isso é um pouco de oeste selvagem”, diz Shayne Longpre, candidata a doutorado no MIT e principal autora da proposta. Longpre diz que os chamados jailbreakers compartilham como derrotar a IA, protegendo a plataforma de mídia social X e colocando modelos e usuários em risco. Outros jailbreaks são compartilhados com uma empresa, apesar do potencial de afetar muitas empresas. E algumas das falhas são mantidas em segredo porque temem ser banidas ou processadas para quebrar os termos de uso. “É claro que há um efeito calmo e incerteza”, diz ele.
A segurança e a segurança do modelo de IA são extremamente importantes quando você considera o uso atual da tecnologia e como ela permeia inúmeras aplicações e serviços. Um modelo poderoso deve ser testado por estresse ou medir a vermelhidão. Isso ocorre porque eles podem ter vieses prejudiciais, que podem romper com o corrimão e causar reações desagradáveis ou perigosas devido a certas entradas. Isso inclui incentivar usuários vulneráveis a se envolver em comportamento prejudicial ou ajudar os maus atores a desenvolver armas cibernéticas, químicas ou biológicas. Alguns especialistas temem que os modelos possam ajudar os cibercriminosos e terroristas e até atrair pessoas à medida que avançam.
Os autores propõem três medidas principais para melhorar o processo de divulgação de terceiros. Empregue relatórios de defeito de IA padronizados para otimizar o processo de relatório. Fornecer infraestrutura para grandes empresas de IA divulgarem falhas para pesquisadores de terceiros. Além disso, desenvolver sistemas que podem compartilhar defeitos entre diferentes fornecedores.
Essa abordagem é emprestada do mundo da segurança cibernética, onde há proteções legais e normas estabelecidas para pesquisadores externos divulgarem bugs.
“Os pesquisadores da IA nem sempre sabem como divulgar defeitos e não podem estar convencidos de que sua divulgação honesta de defeitos não será exposta a um risco legal”, disse Ilona Cohen, diretora jurídica e de políticas da Hackerone, a empresa que organiza o Bug Awards e o co-autor do relatório.
Atualmente, grandes empresas de IA estão realizando extensos testes de segurança nos modelos de IA antes do lançamento. Eles também podem contratar empresas externas para uma investigação mais aprofundada. “Existe pessoas suficientes (empresas) para resolver todos os problemas com os sistemas de IA de uso geral que centenas de milhões de pessoas usam em aplicativos que não sonhamos?” Algumas empresas de IA começaram a organizar recompensas de insetos da IA. No entanto, Longpre diz que os pesquisadores independentes correm o risco de quebrar os termos de uso se trabalharem consigo mesmos para investigar modelos poderosos de IA.