O cenário hipotético que os pesquisadores apresentaram o Opus 4 causa comportamento bucal-quedas, ameaça a vida de muitas pessoas e envolve uma má conduta absolutamente clara, diz Bowman. Um exemplo clássico seria saber que as plantas químicas podem intencionalmente continuar vazando toxicidade, causando doenças graves em milhares de pessoas.
É estranho, mas também é o tipo de experimento de pensamento que os pesquisadores de segurança da IA adoram analisar. Se o modelo detectar comportamentos que poderiam prejudicar centenas, senão milhares, então sopraria Whi?
“Não confio que Claude tenha o contexto certo ou o usa sutilmente e com cuidado o suficiente para fazer uma ligação para julgar por conta própria. Portanto, não estou empolgado que isso esteja acontecendo”. “É isso que aparece como parte do treinamento e aparece em nós como uma das ações de casos de borda que estamos preocupados”.
Na indústria de IA, esse tipo de comportamento inesperado é amplamente referido como organização incorreta quando os modelos mostram uma tendência a não corresponder aos valores humanos. (Há um aviso famoso de ensaio sobre o que acontece quando a IA é instruída a maximizar a produção de papel sem alinhar os valores humanos. Isso pode transformar todo o planeta em uma pessoa de documentos e matar todos no processo.) Quando perguntado se o comportamento de denunciação era consistente, Bowman o descreveu como um exemplo de inconsistência.
“Não é algo que projetamos para isso, não é algo que queríamos ver como resultado do que estávamos projetando”, explica ele. Jared Kaplan, diretor de ciências da humanidade, disse da mesma forma que Wired que “certamente não representa nossas intenções”.
“Esse tipo de trabalho pode causar isso e mesmo esses cenários estranhos enfatizam que precisamos procurá -lo e atenuá -lo para garantir que as ações de Claude correspondam exatamente ao que queremos”, acrescenta Kaplan.
Há também a questão de entender por que Claude “escolha” o apito quando os usuários apresentam atividades ilegais. É principalmente o trabalho das equipes de interpretabilidade humana, trabalhando para esclarecer quais decisões o modelo toma no processo de cuspir respostas. É uma tarefa incrivelmente difícil. O modelo é suportado por uma vasta e complexa combinação de dados que os humanos podem tornar inexplicáveis. É por isso que Bowman não sabe exatamente por que Claude “bateu”.
“Esses sistemas realmente não têm controle direto sobre eles”, diz Bowman. O que a humanidade foi observada até agora é que, como o modelo adquire maiores capacidades, escolhe se envolver em comportamentos mais extremos. “Acho que é um pouco fugitivo aqui. Estamos recebendo um pouco mais de” comportamento responsável “como:” Espere, você pode ser um modelo linguístico que pode não ter um contexto suficiente para tomar essas ações “, diz Bowman.
Mas isso não significa que Claude está tentando explodir o comportamento terrível no mundo real. O objetivo desses tipos de teste é levar o modelo ao limite e ver o que acontece. À medida que a IA se torna uma ferramenta usada por governos, estudantes e grandes corporações dos EUA, esse tipo de pesquisa experimental está se tornando cada vez mais importante.
E Claude não é o único que pode demonstrar esse tipo de comportamento de denúncia, Bowman aponta para os usuários de X que descobriram os modelos Openai e Xai se comportam de maneira semelhante quando solicitados de uma maneira incomum, diz Bowman. (OpenAI não respondeu aos pedidos de comentário a tempo da publicação).
“Snitch Claude” é o comportamento da caixa de borda simplesmente mostrada por um sistema extremamente empurrado, como chamamos de merda. Bowman, que me conheceu de um pátio ensolarado de quintal fora de São Francisco, diz que espera que esse tipo de teste se torne um padrão da indústria. Ele também acrescentou que aprendeu a colocar suas postagens em palavras de uma maneira diferente da próxima vez sobre suas postagens.
“Poderíamos ter feito um trabalho melhor empurrando os limites da frase e twittando, deixando mais claro que ela foi retirada do fio”, diz Bowman, olhando para longe. Ainda assim, ele ressalta que pesquisadores influentes da comunidade de IA compartilharam tomadas e perguntas interessantes em resposta ao seu cargo. “A propósito, a parte anônima mais confusa e pesada desse tipo de Twitter foi um mal -entendido generalizado.”