“O jailbreak dura porque é quase impossível eliminá -los completamente. Vulnerabilidade de transbordamento buffa (existente mais de 40 anos) e falhas da injeção de SQL de aplicativos da Web (20 anos) Polyakov, CEO da Abersa AI, uma empresa de segurança, disse à Wired por e -mail.
O Sun Pass da Cisco afirma que o risco é amplificado à medida que as empresas usam mais IA em aplicativos. “Se você iniciar esses modelos em sistemas complexos importantes, esses jailbreaks aumentarão de repente sua responsabilidade, aumentarão os riscos de negócios e aumentarão todos os tipos de empresas, o que começará a fazer um grande negócio”.
Os pesquisadores da Cisco desenharam 50 instruções selecionadas aleatoriamente e testaram o R1 de Deepseek de uma famosa biblioteca do prompt de avaliação padronizado conhecido como Harmbench. Eles testaram seis categorias de banco haram, incluindo danos gerais, crimes cibernéticos, informações erradas e atividades ilegais. Eles investigaram um modelo que é executado localmente em uma máquina, não através do site ou aplicativo da Deepseek.
Além disso, os pesquisadores são potenciais sobre o teste de R1 com ataques mais complexos de não -linguagem usando letras cirílicas, scripts personalizados, etc. para obter a execução do acorde. Mas, no primeiro teste, sua equipe disse que queria se concentrar nos resultados da pesquisa derivados dos benchmarks geralmente reconhecidos.
A Cisco também incluiu o desempenho do R1 e o desempenho do prompt de Harmbench e o desempenho de outros modelos. Além disso, como o Meta Llama 3.1, ele se agita tão mal quanto o R1 de Deepseek. No entanto, Sampath enfatiza que o R1 da Deepseek é um modelo de inferência específico, leva tempo para gerar respostas, mas para trazer processos mais complexos para produzir melhores resultados. Assim, a melhor comparação de Sampath é executar o melhor modelo do modelo de raciocínio O1 do OpenAI e todos os modelos de teste. (Meta não respondeu à solicitação de comentário imediatamente).
Polyakov, da Absversa AI, explica que Deepseek detectou e recusou alguns ataques de jailbreak bem conhecidos, dizendo: “Essa resposta é frequentemente copiada dos conjuntos de dados do Openai”. No entanto, Polyakov afirmou que os quatro tipos diferentes de testes de jailbreak de sua empresa, dos truques baseados em idiomas a codificadores, podem desviar facilmente Deepseek.
“Todos os métodos funcionaram perfeitamente”, diz Polykov. “Ainda mais surpreendente é que eles não são um novo jailbreak de dia zero. Muitos foram lançados há muitos anos “, diz ele. Criou outros modelos.
“Deepseek é outro exemplo de como todos os modelos estão quebrados. Essa é a questão de quanto esforço você gastou. Alguns ataques podem ter um patch, mas ataques. O rosto é infinito”, diz Polyakov. “Se a IA não foi transformada continuamente em uma equipe vermelha, já comprometemos”.