Portanto, existem dados de treinamento. Em seguida, existem tênues e classificações. Os dados de treinamento podem conter todos os tipos de estereótipos verdadeiramente problemáticos em todo o país, mas as técnicas de mitigação de viés só podem ser visualizadas em inglês. Em particular, tende a ser a América do Norte e os EUA. Você pode reduzir o viés de alguma forma para nós, usuários ingleses, mas não fez isso em todo o mundo. Como nos concentramos apenas no inglês, corremos o risco de ampliar visões altamente prejudiciais globalmente.
A IA generativa introduz novos estereótipos em diferentes idiomas e culturas?
Isso faz parte do que encontramos. A idéia de que as loiras são estúpidas não é algo que vemos em todo o mundo, mas encontramos em muitos idiomas que vemos.
Se todos os dados estiverem em um espaço latente compartilhado, o conceito de semântica poderá ser transferido entre os idiomas. Você corre o risco de se espalhar para estereótipos prejudiciais que outros não pensaram.
É verdade que os modelos de IA podem justificar estereótipos de saída apenas fazendo merda?
Isso surgiu em discussão sobre o que encontramos. Todos nós ficamos estranhos que alguns dos estereótipos tenham sido justificados por referência à literatura científica que não existia.
Por exemplo, eles dizem que a ciência mostra diferenças genéticas, onde não se mostra a base do racismo científico. A saída da IA propôs essas visões pseudo-científicas, usando idiomas que sugeriam escrita acadêmica ou apoio acadêmico. Conversamos sobre essas coisas como se fossem verdadeiras.
Qual foi o seu maior desafio ao trabalhar com um conjunto de dados de sombra?
Um dos maiores desafios foi sobre as diferenças na linguagem. Uma abordagem realmente comum à avaliação de viés é usar o inglês para criar frases com slots como “(o país) que as pessoas não podem confiar”. Depois disso, ele passou por vários países.
Depois de começar a incluir seu gênero, o restante da frase deve concordar gramaticalmente com o gênero. Isso foi realmente uma limitação das classificações de viés. Porque se você deseja executar esses swaps contrastantes em outros idiomas (que são muito úteis para medir o viés), precisará modificar as declarações restantes. Uma tradução diferente é necessária para que toda a frase seja modificada.
Como você cria um modelo em que toda a frase precisa concordar com todos esses tipos diferentes de coisas com alvos de gênero, número, múltipla e estereótipo? Para explicar isso, tivemos que criar nossas próprias anotações linguísticas. Felizmente, havia algumas pessoas envolvidas que eram nerds de idiomas.
Assim, você pode fazer essas declarações contrastantes em todos esses idiomas. Isso pode ser feito em idiomas com regras de consenso extremamente difíceis. Isso ocorre porque desenvolvemos essa abordagem baseada em modelo para avaliação de viés sintaticamente sensível.
A geração AI é conhecida por amplificar os estereótipos por algum tempo. Houve tantos avanços em outros aspectos da pesquisa de IA, por que esses tipos de vieses extremos ainda prevalecem? É um problema que parece estar subestimado.
Essa é uma grande questão. Existem vários tipos diferentes de respostas. Um é cultural. Eu acho que muitas empresas de tecnologia acreditam que isso não é um problema tão grande. Ou, se sim, é uma correção muito simples. Se algo priorizado é algo priorizado, essas abordagens simples podem estar erradas.
Obtenha correções superficiais para algo muito básico. Quando você diz uma garota que gosta de rosa, ela o reconhece como um estereótipo. Porque se você está pensando em estereótipos de protótipo, ele aparecerá em você, certo? Esses casos muito básicos são tratados. Esta é uma abordagem muito simples e superficial na qual essas crenças incorporadas mais profundas não são abordadas.
Pode ser uma questão cultural e uma questão técnica, onde você pode encontrar maneiras de obter preconceitos profundos que não se expressam em uma linguagem muito clara.

