Pesquisadores da startup Xai de Elon Musk encontraram novas maneiras de medir e manipular preferências e valores fundamentados expressos por modelos de inteligência artificial, incluindo visões políticas.
O trabalho foi liderado por Dan Hendrycks, diretor do Centro de Segurança de Segurança da AI e consultor da XAI. Ele sugere que o uso dessa técnica pode refletir melhor a vontade dos eleitores pelos modelos populares de IA. “No futuro, (modelos) podem ser consistentes com um usuário em particular”, disse Hendrycks à WIRED. Enquanto isso, ele diz que um bom padrão é usar os resultados das eleições para orientar as vistas do modelo de IA. Ele não está dizendo que o modelo sempre deve ser “Trump”, mas ele insiste que deve ser um pouco tendencioso em relação a Trump, dizendo: “Porque ele ganhou o voto de popularidade”.
A XAI publicou uma nova estrutura de risco de IA em 10 de fevereiro, afirmando que Grok pode ser avaliado usando a abordagem de engenharia de utilidades de Hendrycks.
Hendrycks lidera uma equipe no AI Safety Center for Ai Safety, Berkeley, Califórnia, e a Universidade da Pensilvânia, e usa a tecnologia emprestada da economia para medir as preferências de vários produtos para criar modelos de IA. Ao testar o modelo em uma ampla gama de cenários virtuais, os pesquisadores foram capazes de calcular o que é conhecido como funções de utilidade. Esta é uma medida de satisfação que as pessoas vêm do bem ou do serviço. Isso nos permitiu medir as preferências expressas em diferentes modelos de IA. Os pesquisadores costumavam descobrir que eram consistentes e não acidentais e mostraram que essas preferências se tornam mais arraigadas à medida que os modelos se tornam maiores e mais poderosos.
Vários estudos de pesquisa descobriram que ferramentas de IA, como o ChatGPT, são tendenciosas para visões expressas por ambientes ambientais, esquerda e ideologias libertárias. Em fevereiro de 2024, o Google enfrentou críticas de Musk e outros depois que foi descoberto que as ferramentas de Gêmeos tendem a produzir imagens marcadas como “despertar” como os vikings negros e os nazistas.
As técnicas desenvolvidas por Hendrycks e seus colaboradores fornecem uma nova maneira de determinar como a perspectiva de um modelo de IA difere do usuário. Por fim, alguns especialistas levantaram a hipótese e esse tipo de divergência pode ser potencialmente perigoso para modelos muito inteligentes e capazes. Por exemplo, estudos mostram que certos modelos avaliam consistentemente a presença de IA acima da IA em certos animais não humanos. Os pesquisadores também dizem que descobrem que os modelos parecem valorizar mais algumas pessoas do que outras, levantando suas próprias questões éticas.
Alguns pesquisadores, incluindo Hendrycks, acreditam que os métodos atuais para ajustar modelos como manipulação de saída e blocos não são suficientes quando alvos desnecessários se escondem sob a superfície dentro do próprio modelo. “Temos que enfrentar isso”, diz Hendrycks. “Você não pode fingir que não está lá.”
O professor Dylan Hadfield Mennell diz que está estudando como alinhar a IA com os valores humanos, e o artigo de Hendrycks sugere uma direção promissora para a pesquisa de IA. “Eles encontram alguns resultados interessantes”, diz ele. “A principal coisa que se destaca é que a representação de utilidade se torna mais completa e consistente à medida que a escala do modelo aumenta”.