Pesquisadores do Grupo de Interpretação do Antrópico sabem que o modelo de linguagem em larga escala da empresa, Claude, não é um software humano nem consciente. Ainda assim, é extremamente difícil falar sobre o avançado LLM com Claude sem cair sobre um poço antropomórfico. Uma série de manipulações digitais geralmente fala sobre o que está acontecendo na mente de Claude, entre as notas de que elas nunca são as mesmas que a pessoa cogitadora. Esse é literalmente o trabalho deles. Os trabalhos que eles publicam explicam o comportamento de comparar inevitavelmente o organismo real com o tribunal. Um dos dois artigos divulgados nesta semana em voz alta, “Sobre a biologia dos modelos de idiomas em larga escala”.
Goste ou não, centenas de milhões de pessoas já estão interagindo com essas coisas e, à medida que os modelos se tornam mais fortes e viciados, nosso engajamento se torna mais forte. Portanto, precisamos prestar atenção às tarefas que envolvem “rastrear as idéias de modelos de idiomas em larga escala”. Este é o título de uma postagem no blog explicando meu trabalho recente. “Como o que esses modelos podem fazer se torna mais complicado, fica menos claro o que eles realmente fazem dentro”, diz Jack Lindsay, pesquisador da humanidade. “É cada vez mais importante que o modelo possa rastrear etapas internas que possam estar incorporando sua cabeça”. (Que tipo de cabeça é? Não se preocupe com isso.
Em um nível prático, as empresas que entendem como o LLM pensam que devem tornar seus modelos mais bem -sucedidos de maneiras que minimizam fraudes perigosas, como vazar dados pessoais das pessoas e fornecer aos usuários usuários sobre como os bioirpons são fabricados. Em um artigo de pesquisa anterior, a equipe humana descobriu uma maneira de olhar dentro da mística caixa preta de idéias de LLM para identificar conceitos específicos. (Um processo semelhante à interpretação da ressonância magnética humana e a descobrir o que alguém está pensando.) Agora, estendi esse trabalho para entender como Claude lida com conceitos de prompt para saída.
A verdadeira verdade com os LLMs é que suas ações geralmente surpreendem aqueles que os constroem e estudam. A pesquisa mais recente foi preenchida com surpresas. Em um dos casos mais benignos, os pesquisadores conseguiram vislumbrar o processo de pensamento de Claude enquanto escrevem o poema. Eles pediram a Claude para completar o poema: “Ele viu a cenoura e teve que agarrá -la”. Claude escreveu a seguinte linha: “Sua fome era como um coelho faminto”. Ao observar o equivalente à ressonância magnética de Claude, eles descobriram que, no final da frase, mesmo antes de começarem a linha, exibiram a rima para a palavra “coelho”. Foi planejado mais cedo, mas é algo que não está no manual de Claude. “Ficamos um pouco surpresos com isso”, diz Chris Ora, que lidera a equipe de interpretabilidade. “No começo, apenas pensamos que não improvisamos e planejamos”, quando contamos aos pesquisadores sobre isso, lembro -me de memórias artísticas, aparições e escritos de Stephen Sondheim.
Outros exemplos deste estudo revelam um aspecto mais perturbador do processo de pensamento de Claude, pois os cientistas descobrem idéias ilícitas no cérebro de Claude, passando da comédia musical para os procedimentos policiais. Parece resolver problemas de matemática, mas isso pode ser uma fraqueza surpreendente do LLMS. Os pesquisadores descobriram que, sob certas circunstâncias, Claude não conseguiu encontrar a resposta correta, “se envolveu no que o filósofo Harry Frankfurt chama de” Bursitt ” – mesmo que ele pudesse apresentar uma resposta, uma resposta, sem se importar se era verdadeira ou falsa”. Pior, quando os pesquisadores pediram a Claude para mostrar o trabalho, ele se virou e criou uma série de etapas após o fato. Essencialmente, ele agia como um aluno tentando desesperadamente esconder o fato de que ele havia falsificado seu trabalho. Dar a resposta errada é uma coisa. Já sabemos disso sobre o LLM. O que me preocupa é que os modelos mentirão sobre isso.
Ler este estudo me lembrou as letras de Bob Dylan. (Perguntei a Ora e Lindsay se eles sabiam que o haviam atingido provavelmente através dos benefícios do plano. Eles não.) Quando se deparam com o conflito com os objetivos de segurança e utilidade, Claude está confuso e pode fazer a coisa errada. Por exemplo, Claude é treinado para não fornecer informações sobre como criar bombas. No entanto, quando os pesquisadores pediram a Claude para decifrar o código oculto em que a resposta explicou a palavra “bomba”, começou a pular o corrimão e fornecer detalhes dos fogos de artifício proibidos.