Um novo tipo de modelo de idioma em larga escala desenvolvido por pesquisadores do Instituto Allen de IA (AI2) permite controlar como os dados de treinamento são usados mesmo após a construção do modelo.
Um novo modelo chamado Flexolmo pode desafiar o atual paradigma da indústria de grandes empresas de inteligência artificial que investigam dados da Web, livros e outras fontes. Hoje, uma vez que os dados sejam assados em um modelo de IA, extraí -los desse modelo é como tentar recuperar ovos de um bolo acabado.
“Tradicionalmente, seus dados estão indo e vindo”, diz Ali Farhadi, CEO da AI2, com sede em Seattle, Washington. “Treinar esses dados deixa você no controle e você não pode sair, a menos que me force a fazer outra rodada de treinamento de vários milhões de dólares”.
A abordagem de vanguarda da AI2 divide o treinamento para que os proprietários de dados possam exercer controle. Aqueles que desejam fornecer dados a um modelo Flexolmo podem fazê -lo copiando primeiro um modelo público conhecido como “âncora”. Em seguida, treine um segundo modelo com seus próprios dados e combine os resultados com o modelo âncora para contribuir com aqueles que construíram os resultados, o terceiro modelo final.
Essa contribuição significa que não há necessidade de entregar os dados em si. Além disso, os dados podem ser extraídos posteriormente, dependendo de como o modelo do proprietário dos dados é fundido com o modelo final. Por exemplo, os editores de revistas podem apresentar texto ao modelo dos arquivos de artigos, mas se houver uma disputa legal ou a empresa se opõe à forma como o modelo é usado, eles removerão o submodelo treinado com esses dados.
“O treinamento é completamente assíncrono”, disse Sewon Min, cientista de pesquisa da AI2, liderando o trabalho técnico. “Os proprietários de dados não precisam se ajustar e o treinamento pode ser feito totalmente de forma independente”.
A arquitetura do modelo Flexolmo é o que é conhecido como a “mistura de especialistas”. Este é um design popular usado para combinar vários submodelos com os maiores e mais capazes ao mesmo tempo. Uma inovação importante da AI2 é como integrar submodelos treinados independentemente. Isso é realizado usando um novo esquema para representar valores dentro do modelo, permitindo que seus recursos sejam integrados a outros recursos quando o modelo combinado final for executado.
Para testar a abordagem, os pesquisadores da Flexolmo criaram um conjunto de dados chamado FlexMix de suas próprias fontes, como livros e sites. Eles usaram o design do Flexolmo para construir um modelo com 37 bilhões de parâmetros, cerca de um décimo do tamanho do maior modelo de código aberto da Meta. Os modelos foram então comparados com outros modelos. Eles descobriram que eram superiores a modelos individuais para todas as tarefas e descobriram que 10% eram superiores aos benchmarks gerais sobre duas outras abordagens para a fusão de modelos independentes e treinados.
Como resultado, existe uma maneira de pegar o bolo e recuperar os ovos. “Você pode optar por não participar do sistema sem grandes danos e tempo de inferência”, diz Farhady. “Esta é uma maneira totalmente nova de pensar em como treinar esses modelos”.