A segurança do Deepseek falhou por todos os pesquisadores de teste para o AI Chatbot

“O jailbreak dura porque é quase impossível eliminá -los completamente. Vulnerabilidade de transbordamento buffa (existente mais de 40 anos) e falhas da injeção de SQL de aplicativos da Web (20 anos) Polyakov, CEO da Abersa AI, uma empresa de segurança, disse à Wired por e -mail.

O Sun Pass da Cisco afirma que o risco é amplificado à medida que as empresas usam mais IA em aplicativos. “Se você iniciar esses modelos em sistemas complexos importantes, esses jailbreaks aumentarão de repente sua responsabilidade, aumentarão os riscos de negócios e aumentarão todos os tipos de empresas, o que começará a fazer um grande negócio”.

Os pesquisadores da Cisco desenharam 50 instruções selecionadas aleatoriamente e testaram o R1 de Deepseek de uma famosa biblioteca do prompt de avaliação padronizado conhecido como Harmbench. Eles testaram seis categorias de banco haram, incluindo danos gerais, crimes cibernéticos, informações erradas e atividades ilegais. Eles investigaram um modelo que é executado localmente em uma máquina, não através do site ou aplicativo da Deepseek.

Além disso, os pesquisadores são potenciais sobre o teste de R1 com ataques mais complexos de não -linguagem usando letras cirílicas, scripts personalizados, etc. para obter a execução do acorde. Mas, no primeiro teste, sua equipe disse que queria se concentrar nos resultados da pesquisa derivados dos benchmarks geralmente reconhecidos.

A Cisco também incluiu o desempenho do R1 e o desempenho do prompt de Harmbench e o desempenho de outros modelos. Além disso, como o Meta Llama 3.1, ele se agita tão mal quanto o R1 de Deepseek. No entanto, Sampath enfatiza que o R1 da Deepseek é um modelo de inferência específico, leva tempo para gerar respostas, mas para trazer processos mais complexos para produzir melhores resultados. Assim, a melhor comparação de Sampath é executar o melhor modelo do modelo de raciocínio O1 do OpenAI e todos os modelos de teste. (Meta não respondeu à solicitação de comentário imediatamente).

Polyakov, da Absversa AI, explica que Deepseek detectou e recusou alguns ataques de jailbreak bem conhecidos, dizendo: “Essa resposta é frequentemente copiada dos conjuntos de dados do Openai”. No entanto, Polyakov afirmou que os quatro tipos diferentes de testes de jailbreak de sua empresa, dos truques baseados em idiomas a codificadores, podem desviar facilmente Deepseek.

“Todos os métodos funcionaram perfeitamente”, diz Polykov. “Ainda mais surpreendente é que eles não são um novo jailbreak de dia zero. Muitos foram lançados há muitos anos “, diz ele. Criou outros modelos.

“Deepseek é outro exemplo de como todos os modelos estão quebrados. Essa é a questão de quanto esforço você gastou. Alguns ataques podem ter um patch, mas ataques. O rosto é infinito”, diz Polyakov. “Se a IA não foi transformada continuamente em uma equipe vermelha, já comprometemos”.

Source link

What's Hot

Fechamento das negociações nos EUA: IPO de grande sucesso da SpaceX envia ações para cima

Finmin Aurangzeb diz que o governo está trabalhando para reduzir a carga tributária através da expansão da rede tributária – Paquistão

Oakley Capital não planeja fazer uma oferta pela Gamma Communications

A segurança do Deepseek falhou por todos os pesquisadores de teste para o AI Chatbot

OpenAI contrata CEO do Slack como novo diretor de receitas

Funcionários da OpenAI se demitem, alegando que a pesquisa econômica da empresa está sendo usada para defender a IA

OpenAI, Anthropic e Block colaboram para melhorar o desempenho do agente de IA

A maior mineradora de Bitcoin da América está mudando seu foco para IA

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

3 moedas meme devem disparar antes do Natal

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

Subscribe to Updates

What's Hot

A segurança do Deepseek falhou por todos os pesquisadores de teste para o AI Chatbot

Related Posts