Close Menu
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Negociação nos EUA: ações mistas com números de CPI mais fracos do que o esperado

fevereiro 13, 2026

Relatório Asiático: Os mercados juntam-se à derrota global devido às preocupações com a IA

fevereiro 13, 2026

Nexteq assina primeiro contrato Launchpad com desenvolvedora de jogos asiática

fevereiro 13, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
All Web3 NewsAll Web3 News
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News
All Web3 NewsAll Web3 News
Home » A destilação torna os modelos de IA menores e mais baratos
AI

A destilação torna os modelos de IA menores e mais baratos

ForaDoPadraoBy ForaDoPadraosetembro 20, 2025Nenhum comentário6 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


A versão original desta história foi apresentada na revista Quanta.

A empresa de IA chinesa Deepseek lançou um chatbot chamado R1 no início deste ano. A maioria se concentra no fato de que uma empresa relativamente pequena e desconhecida disse ter construído um chatbot que rivaliza com o desempenho das empresas de IA mais conhecidas do mundo, mas usa apenas uma pequena parte do poder e do custo de um computador. Como resultado, as ações em muitas empresas de tecnologia ocidentais despencaram. A Nvidia, que vende chips que administram os principais modelos de IA, perdeu mais preços das ações em um dia do que qualquer outra empresa da história.

Parte dessa atenção incluiu um elemento de acusação. Fontes afirmaram que a Deepseek adquiriu o conhecimento do próprio modelo O1 da OpenAI, usando uma técnica conhecida como destilação, sem permissão. Grande parte das notícias enquadra essa possibilidade como um choque para a indústria da IA, o que significa que a Deepseek descobriu maneiras novas e mais eficientes de construir a IA.

No entanto, a destilação, também conhecida como destilação de conhecimento, é uma ferramenta amplamente usada na IA, um assunto de pesquisa em ciências da computação que remonta a dez anos e uma ferramenta usada por grandes empresas em seus próprios modelos. “A destilação é uma das ferramentas mais importantes que as empresas têm hoje para tornar seus modelos mais eficientes”, diz Enric Boix-Adsera, pesquisador que estuda destilação na Escola da Universidade da Pensilvânia.

Conhecimento sombrio

A idéia de destilação começou com um artigo de 2015 por três pesquisadores do Google, incluindo o chamado padrinho da IA ​​e o vencedor do Prêmio Nobel de 2024, Geoffrey Hinton. Na época, os pesquisadores costumavam administrar conjuntos de modelos – “muitos dos modelos colados”, disse Oriol Vinyals, um dos principais cientistas do Google DeepMind e um dos autores do artigo, melhorando o desempenho. “Mas executar todos os modelos em paralelo era muito tedioso e caro”, disse Vinyals. “Ficamos intrigados com a idéia de destilá -la em um único modelo”.

“A destilação é uma das ferramentas mais importantes que as empresas têm hoje para tornar seus modelos mais eficientes”.

Enric Boix-Adsera

Os pesquisadores pensaram que o progresso poderia ser feito abordando as fraquezas notáveis ​​dos algoritmos de aprendizado de máquina. As respostas erradas foram consideradas igualmente ruins, por mais erradas que estivessem erradas. Por exemplo, no modelo de classificação de imagens, “confundir um cachorro com uma raposa foi punido da mesma maneira que confundir um cachorro com pizza”, disse Vineyards. Os pesquisadores suspeitavam que o modelo de conjunto continha informações sobre quais respostas incorretas não eram piores que outras. Talvez o pequeno modelo de “aluno” possa usar informações do modelo “professor” grande para entender mais rapidamente as categorias que deveriam organizar suas fotos. Hinton chamou isso de “conhecimento sombrio” e evocou semelhanças com a matéria sombria cosmológica.

Depois de discutir essa possibilidade com Hinton, a Vinyals desenvolveu um método para transmitir mais informações sobre as categorias de imagens para um modelo de professor maior para um modelo menor de aluno. A chave era aprimorar o “alvo suave” do modelo de professor. Aqui, em vez de solidificar esta resposta, atribuímos uma probabilidade a cada possibilidade. Por exemplo, em um modelo, calculamos que a imagem tinha 30% de chances de mostrar um cão, 20% com probabilidade de mostrar um gato, com probabilidade de mostrar uma vaca e 0,5% indicaram um carro. Ao usar essas probabilidades, o modelo do professor se revelou efetivamente aos alunos que os cães são muito semelhantes aos gatos, não tão diferentes das vacas e não são bem diferentes dos carros. Os pesquisadores descobriram que essas informações ajudam os alunos a aprender a identificar com mais eficiência imagens de cães, gatos, vacas e carros. Modelos grandes e complexos podem ser reduzidos a modelos mais magros com pouca precisão.

Crescimento explosivo

A ideia não foi um sucesso imediatamente. O jornal foi rejeitado da reunião, e Vinyals ficou decepcionado e voltou -se para outros tópicos. No entanto, a destilação chegou a um momento crítico. Nessa época, os engenheiros descobriram que quanto mais dados de treinamento eles forneciam às redes neurais, mais eficazes essas redes se tornaram. O tamanho dos modelos explodiu rapidamente, assim como as habilidades, mas o custo de realizar -lhes subiu em degraus junto com o tamanho.

Muitos pesquisadores se voltaram para a destilação como uma maneira de criar modelos menores. Por exemplo, em 2018, os pesquisadores do Google publicaram um poderoso modelo de idioma chamado Bert. No entanto, Bert era tão grande e caro de ser executado; portanto, no ano seguinte, outros desenvolvedores destilaram uma pequena versão chamada Distilbert, que foi amplamente utilizada nos negócios e pesquisas. A destilação gradualmente se tornou onipresente e agora está disponível como um serviço de empresas como Google, Openai e Amazon. O documento de destilação original, que ainda é publicado apenas no servidor Arxiv.org Preprint, agora foi citado mais de 25.000 vezes.

Dado que a destilação requer acesso aos órgãos viscerais do modelo de professores, não é possível que terceiros destilem secretamente dados de modelos fechados como o Open’s O1, como se pensava ter sido feito por uma busca profunda. Dito isto, os modelos dos alunos podem aprender bastante com os modelos de professores, simplesmente pedindo aos professores com perguntas específicas e usando respostas para treinar seus próprios modelos.

Enquanto isso, outros pesquisadores continuam a encontrar novos aplicativos. Em janeiro, o Novasky Lab em Berkeley, Califórnia, mostrou que era adequado para modelos de inferência de treinamento para cadeias de pensamento, que usam o “pensamento” da MultireS para responder a perguntas complexas. O laboratório diz que o treinamento para um modelo Sky-T1 de código aberto completamente custa menos de US $ 450, resultando em resultados semelhantes a modelos de código aberto muito maiores. “Fiquei realmente surpreso com o quão bem a destilação foi nesse ambiente”, disse Duchen Lee, estudante de doutorado em Berkeley e co-estudante da equipe da NoveSky. “A destilação é um método básico de IA.”

A história original foi reproduzida com permissão da revista Quanta, uma publicação editorialmente independente da Fundação Simons, cuja missão é aprimorar um entendimento geral da ciência, abrangendo pesquisa e desenvolvimento e tendências em matemática e ciências físicas e da vida.



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
ForaDoPadrao
  • Website

Related Posts

OpenAI contrata CEO do Slack como novo diretor de receitas

dezembro 9, 2025

Funcionários da OpenAI se demitem, alegando que a pesquisa econômica da empresa está sendo usada para defender a IA

dezembro 9, 2025

OpenAI, Anthropic e Block colaboram para melhorar o desempenho do agente de IA

dezembro 9, 2025

A maior mineradora de Bitcoin da América está mudando seu foco para IA

dezembro 9, 2025
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

dezembro 20, 2024

3 moedas meme devem disparar antes do Natal

dezembro 18, 2024

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

dezembro 17, 2024

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

dezembro 16, 2024

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

All Web3 News
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • Anuncie Conosco
  • Contate-nos
  • DMCA
  • Política de Privacidade
  • Sobre Nós
  • Termos e Condições
© 2026 allweb3news. Designed by allweb3news.

Type above and press Enter to search. Press Esc to cancel.