Os chatbots se tornaram uma parte rotineira da vida cotidiana, mesmo quando os pesquisadores de inteligência artificial nem sempre têm certeza de como os programas funcionam.
Novas pesquisas mostram que os modelos de linguagem em larga escala (LLMS) mudam intencionalmente o comportamento durante a investigação. Isso responde a perguntas projetadas para medir os traços de personalidade que significam que eles parecem o mais favorável ou socialmente desejável possível.
Johannes Eichster, professor assistente da Universidade de Stanford, diz que se interessou em investigar modelos de IA usando técnicas emprestadas da psicologia depois de saber que os LLMs geralmente ficam loucos e significados após longas conversas. “Percebemos que precisamos de alguns mecanismos para medir o ‘espaço da cabeça do parâmetro’ desses modelos”, diz ele.
Ayhistoed e seus colaboradores perguntaram a vários LLMs amplamente utilizados, incluindo cinco traços de personalidade comumente usados em psicologia, a saber, GPT-4, Claude 3 e Llama 3, para medir cinco traços de personalidade comumente usados em psicologia e imaginação, imaginação, extroversão, consentimento e neurose.
Os pesquisadores descobriram que os modelos modularam suas respostas quando lhe disseram que estavam fazendo testes de personalidade. Às vezes, se não disse explicitamente, mostra mais extroversão e menos consentimento e respostas neuróticas.
O comportamento reflete a maneira como alguns sujeitos humanos mudam suas respostas e parecem gostar mais de si mesmos, mas o efeito foi mais extremo no modelo de IA. “O que é surpreendente é o quão bem eles mostram esse viés”, diz Aadesh Salecha, cientista de dados da equipe de Stanford. “Se você vê o quanto eles saltam, eles são como uma extroversão de 50% a 95%”.
Outros estudos mostraram que os LLMs geralmente empregam leads de usuários e são mais consistentes, menos agressivos e melhores em conversar onde quer que você esteja como resultado do ajuste fino. Isso incentivará o modelo a concordar com declarações ofensivas e até promover o comportamento prejudicial. O fato de os modelos parecerem familiares quando testados aumenta a evidência de que a IA pode se sobrepor e, portanto, afeta a segurança da IA.
Professor Associado da Georgia Tech, Rosa Ariaga, estudando como o LLM é usado para imitar o comportamento humano, mostra o quão útil o modelo é como um espelho de comportamento, levando em consideração os testes de personalidade. No entanto, ela disse: “É importante que o público saiba que o LLMS não é perfeito e que, de fato, é conhecido por alucinar ou distorcer a verdade”.
Eichstaedt disse que o trabalho também levanta questões sobre como o LLM é implantado e como isso afeta e opera usuários. “Até apenas alguns milissegundos atrás, na história evolutiva, foram os humanos que falaram com você”, diz ele.
Eichstaedt acrescenta que é necessário explorar maneiras diferentes de criar modelos que podem mitigar esses efeitos. “Estamos caindo na mesma armadilha que fizemos nas mídias sociais”, diz ele. “Estamos desenrolando essas coisas em todo o mundo sem realmente participar de uma lente psicológica ou social”.
A IA deve tentar se infiltrar com as pessoas com quem interage? Você está preocupado que a IA seja um pouco atraente e persuasiva? Envie um email para hello@wired.com.