Essas startups estão construindo modelos de IA avançados sem data centers

Os pesquisadores treinaram um novo tipo de modelos de idiomas em larga escala (LLMS) usando GPUs que pontilham o mundo e fornecem dados públicos e privados. Este é um movimento que sugere que as maneiras dominantes de construir inteligência artificial podem ser destruídas.

Flower AI e Vana são duas startups que buscam uma abordagem não convencional para a construção de IA, e trabalharam juntos para criar um novo modelo chamado Collective-1.

As flores criaram uma tecnologia que pode espalhar treinamento para centenas de computadores conectados pela Internet. A tecnologia da empresa já está sendo usada por algumas empresas para treinar modelos de IA sem a necessidade de calcular recursos ou dados. O Vana forneceu uma fonte de dados que inclui mensagens privadas de X, Reddit e Telegram.

O Collective-1 é pequeno pelos padrões modernos, com 7 bilhões de parâmetros (dignos de fornecer ao modelo seus recursos) e é comparado a centenas de milhões de modelos mais avançados de hoje, incluindo programas de energia como ChatGPT, Claude e Gêmeos.

Nic Lane, cientista da computação da Universidade de Cambridge e co-fundador da Flower AI, diz que a abordagem descentralizada promete expandir muito além do tamanho do Collective-1. Lane está em processo de treinamento de um modelo com 30 bilhões de parâmetros usando dados tradicionais e planeja treinar outro modelo com 100 bilhões de parâmetros este ano para se ajustar ao tamanho oferecido pelos líderes do setor. “Isso pode realmente mudar a maneira como todo mundo pensa em IA, então estamos seguindo isso bastante difícil”, diz Lane. Ele diz que as startups estão incorporando imagens e áudio em seu treinamento para criar modelos multimodais.

Os modelos distribuídos de construção também podem desestabilizar a dinâmica de poder que moldaram a indústria da IA.

Agora, as empresas de IA estão construindo modelos combinando vastas quantidades de dados de treinamento com uma grande quantidade de centers de data internos computados, repletos de GPUs avançados em rede usando cabos de fibra óptica de velocidade ultra-alta. Também depende muito de conjuntos de dados criados por reduções reduzidas de redução, incluindo sites e livros.

Essa abordagem significa que apenas as empresas e países mais ricos com acesso a um grande número de chips mais poderosos podem desenvolver os modelos mais poderosos e valiosos. Mesmo modelos de código aberto, como a Llama e R1 da Deepseek, são construídos por empresas que têm acesso a grandes data centers. Uma abordagem distribuída pode permitir que pequenas empresas e universidades construam IA sofisticada, reunindo diferentes recursos. Como alternativa, os países que carecem de infraestrutura tradicional podem rede vários data centers para construir modelos mais fortes.

Lane acredita que se transformará cada vez mais em novas maneiras que permitirão à indústria de IA remover o treinamento de data centers individuais. Uma abordagem distribuída “pode torná -la mais elegante do que um modelo de data center”, diz ele.

Helentner, especialista em governança da IA no Centro de Tecnologia emergente e de Segurança, diz que a abordagem de Flower ai é “interessante e potencialmente altamente relevante” para a competição e a governança da IA. “Provavelmente continuaremos lutando para acompanhar a fronteira, mas pode ser uma abordagem interessante do primeiro seguidor”, diz Toner.

Dividir e conquistar

O treinamento de IA distribuído envolve repensar como os cálculos usados para construir sistemas de IA poderosos são divididos. A criação de um LLM envolve fornecer uma enorme quantidade de texto ao modelo que ajusta os parâmetros para gerar respostas úteis ao prompt. Dentro do data center, o processo de treinamento é dividido, permitindo que as peças sejam executadas em diferentes GPUs e se integrem periodicamente a um único modelo mestre.

Uma nova abordagem permite que o hardware execute tarefas que normalmente ocorrem em grandes data centers. O hardware pode estar a alguns quilômetros de distância e pode ser conectado por meio de uma conexão de Internet relativamente lenta ou variável.

Source link

What's Hot

Os impostos devem subir para atingir seus objetivos, disse o Thinktank.

Entrevista | Sharplink Co-CEO: Nossa estratégia financeira da ETH vai muito além de apostar

Fechamento dos EUA: após o estoque de serviço cair inesperadamente

Essas startups estão construindo modelos de IA avançados sem data centers

O Openai lançou seu primeiro modelo de peso aberto desde o GPT-2

Claude Fan jogou um funeral para o modelo de IA aposentado da Humanidade

De acordo com Jack Dongara, como a supercomputação evolui

O caminhante estava faltando por quase um ano. Depois disso, o sistema de IA encontrou o capacete

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

3 moedas meme devem disparar antes do Natal

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

Subscribe to Updates

What's Hot

Essas startups estão construindo modelos de IA avançados sem data centers

Dividir e conquistar

Related Posts