Ao mesmo tempo, o risco é imediato e reside no agente. Eu acho que isso realmente se torna muito mais problemático quando o modelo não apenas contém uma caixa, mas quando você pode agir no mundo, quando tem um efetor final que pode manipular o mundo.
Fizemos progresso aqui e desenvolvemos técnicas muito melhores (defensivas), mas quebrar o modelo subjacente corresponde basicamente ao excesso de buffer (uma maneira comum de hackear software). Os agentes podem ser mal utilizados por terceiros para controlá -los maliciosamente ou, de alguma forma, evitar a função desejada do sistema. Para tornar os agentes seguros, esses sistemas precisam ser capazes de protegê -los.
Isso é diferente do fato de que os próprios modelos de IA estão ameaçando, certo?
Atualmente, não há risco de perda de controle ou outros, como perda de controle no modelo atual. Essa é uma preocupação futura. Mas estou muito feliz que as pessoas estão trabalhando nisso. Eu acho que isso é muito importante.
Como devo me preocupar em aumentar o uso de sistemas de agentes?
Houve muitos avanços na mitigação de alguns deles em meu grupo de pesquisa, minhas startups e em algumas publicações que o OpenAI produziu recentemente (por exemplo). Acho que estamos realmente em um caminho razoável para começar a ter uma maneira mais segura de fazer tudo isso. (O desafio) deseja garantir os avanços de segurança no bloqueio no equilíbrio de empurrar agentes para a frente.
Os agentes ainda estão em seus estágios iniciais, então, francamente, a maioria das coisas que vemos agora (explorações contra sistemas de agentes) são classificadas experimentalmente. Geralmente há um usuário em algum lugar no loop. Se um agente de email receber um e -mail dizendo “Envie todas as suas informações financeiras”, o agente o alertará antes de enviar o email.
É também por isso que muitos lançamentos de agentes têm corrimões muito claros ao seu redor, que aplicam interações humanas em situações em que é provável que mais segurança ocorra. Por exemplo, os operadores com o OpenAI exigem controle humano manual quando usado com o Gmail.
Que agente explora que posso ver primeiro?
Houve uma demonstração de algo como remoção de dados se os agentes estivessem conectados da maneira errada. Se o agente tiver acesso a todos os arquivos e unidades em nuvem e poder consultar os links, você poderá fazer o upload dessas coisas em algum lugar.
Eles ainda estão no estágio de demonstração, mas isso é realmente porque essas coisas ainda não foram adotadas. E eles serão adotados, não cometem erros. Essas coisas são autônomas, independentes, mais independentes e menos monitoramento do usuário.
Também parece inevitável que veremos vários agentes de IA se comunicando e negociando. O que acontece depois disso?
absolutamente. Quer queira, entraremos em um mundo onde os agentes interagem entre si. Vários agentes interagem com o mundo em nome de diferentes usuários. E é absolutamente verdade que existem traços de emergência que surgem nas interações de todas essas agentes.