Desde que o DeepSeek foi lançado em janeiro, o impulso vem crescendo em torno do modelo de inteligência artificial chinês de código aberto. Alguns investigadores estão a pressionar por uma abordagem mais aberta à construção de IA, onde a criação de modelos possa ser distribuída por todo o mundo.
Prime Intellect, uma startup especializada em IA distribuída, está atualmente treinando um modelo de linguagem de fronteira em grande escala chamado INTELLECT-3 usando um novo tipo de aprendizagem por reforço distribuído para ajuste fino. O modelo demonstrará uma nova maneira de construir modelos competitivos de IA abertos usando hardware diferente em locais diferentes, sem depender de grandes empresas de tecnologia, disse o CEO Vincent Weisser.
Weiser disse que o mundo da IA está atualmente dividido entre empresas que dependem de modelos fechados nos Estados Unidos e empresas que dependem de produtos abertos da China. A tecnologia que a Prime Intellect está desenvolvendo democratizará a IA, permitindo que mais pessoas construam e modifiquem IA avançada.
Melhorar os modelos de IA não é mais apenas uma questão de aprimorar os dados de treinamento e a computação. Os modelos atuais da Frontier usam aprendizagem por reforço para melhorar após a conclusão do processo de pré-treinamento. Você quer que seu modelo se destaque em matemática, responda questões jurídicas ou jogue Sudoku? Deixe-os melhorar praticando em um ambiente onde sucessos e fracassos possam ser medidos.
“Esses ambientes de aprendizagem por reforço são atualmente o gargalo para realmente dimensionar sua funcionalidade”, disse Weisser.
Prime Intellect criou uma estrutura que permite a qualquer pessoa criar um ambiente de aprendizagem por reforço personalizado para uma tarefa específica. A empresa está ajustando o INTELLECT-3 usando uma combinação de ambientes ideais criados por sua própria equipe e pela comunidade.
Executei o ambiente de resolução de quebra-cabeças Wordle criado pelo pesquisador da Prime Intellect, Will Brown, e executei-o enquanto observava um pequeno modelo resolver os quebra-cabeças Wordle (para ser honesto, era mais metódico do que eu). Se eu fosse um pesquisador de IA tentando melhorar um modelo, eu o transformaria em um mestre do Wordle, ligando um monte de GPUs e deixando-o praticar continuamente enquanto o algoritmo de aprendizado por reforço altera os pesos.

