Close Menu
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Sharplink adiciona 83.562 ETH, no valor de US $ 264,5 milhões, pois seu estoque total atinge 521.939 ETH

agosto 5, 2025

O Openai lançou seu primeiro modelo de peso aberto desde o GPT-2

agosto 5, 2025

Claude Fan jogou um funeral para o modelo de IA aposentado da Humanidade

agosto 5, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
All Web3 NewsAll Web3 News
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News
All Web3 NewsAll Web3 News
Home » Modelos de idiomas pequenos são nova raiva, dizem os pesquisadores
AI

Modelos de idiomas pequenos são nova raiva, dizem os pesquisadores

ForaDoPadraoBy ForaDoPadraoabril 13, 2025Nenhum comentário4 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


A versão original desta história foi apresentada na revista Quanta.

Modelos de linguagem grandes são tão grandes que funcionam bem. Os modelos mais recentes do OpenAI, Meta e Deepseek usam centenas de bilhões de “parâmetros”. Este é um botão ajustável que determina a conexão entre os dados e é ajustado durante o processo de treinamento. Com mais parâmetros, o modelo é mais poderoso e preciso, pois permite uma melhor identificação de padrões e conexões.

Mas esse poder custa muito. Treinar um modelo com centenas de bilhões de parâmetros requer enormes recursos computacionais. Por exemplo, o Google gastou US $ 191 milhões para treinar o modelo Gemini 1.0 Ultra. Os grandes modelos de idiomas (LLMs) requerem um poder de computação considerável cada vez que eles respondem a uma solicitação. Isso o torna um porco de energia infame. De acordo com o Electric Power Research Institute, uma única consulta no ChatGPT consome cerca de 10 vezes mais energia do que as pesquisas do Google.

Em resposta, alguns pesquisadores agora estão pensando em pequenas idéias. IBM, Google, Microsoft e OpenAI lançaram todos os modelos de idiomas pequenos (SLMs) recentemente que usam bilhões de parâmetros, que são apenas uma pequena parte dos colegas LLM.

Os modelos pequenos não são usados ​​como ferramentas gerais, a menos que sejam grandes. Mas se destaca em certas tarefas estreitamente definidas, como resumir conversas, responder a perguntas dos pacientes como chatbots de assistência médica e coletar dados sobre dispositivos inteligentes. “Para muitas tarefas, o modelo de 8 bilhões de parâmetros é realmente muito bom”, disse Zico Kolter, cientista da computação da Universidade Carnegie Mellon. Ele também pode ser executado em um laptop ou telefone celular em vez de um enorme data center. (Não há consenso sobre a definição exata de “pequena”, mas todos os novos modelos aproveitam ao máximo 10 bilhões de parâmetros.)

Para otimizar o processo de treinamento para esses pequenos modelos, os pesquisadores usam vários truques. Modelos grandes geralmente esfregam dados de treinamento bruto da Internet. Esses dados podem ser organizados, confusos e difíceis de processar. No entanto, esses grandes modelos podem gerar conjuntos de dados de alta qualidade que podem ser usados ​​para treinar modelos pequenos. Essa abordagem, conhecida como destilação do conhecimento, é obtida para aprovar efetivamente o treinamento, assim como os alunos dão aos professores. “O motivo (SLM) é que um modelo tão pequeno pode ser muito bom, e esses dados pequenos usam dados de alta qualidade em vez de bagunçados”, disse Colter.

Os pesquisadores também exploraram maneiras de criar pequenos modelos começando com modelos maiores e depois aparando -os. Um método conhecido como poda envolve a remoção de partes desnecessárias ou ineficientes de uma rede neural. Esta é a vasta rede de pontos de dados conectados subjacentes a um modelo grande.

A poda foi inspirada pelas redes neurais reais que são o cérebro humano. Isso ganha eficiência, criando conexões entre sinapses como seres humanos. A abordagem de poda de hoje remonta a um artigo de 1989, onde o cientista da computação Yann Lecun, atualmente na meta, alegou que até 90% dos parâmetros de uma rede neural treinada podem ser removidos sem sacrificar a eficiência. Ele chamou esse método de “dano cerebral ideal”. A poda ajuda os pesquisadores a ajustar os modelos pequenos de linguagem para uma tarefa ou ambiente específico.

Para pesquisadores interessados ​​em como os modelos de idiomas, pequenos modelos oferecem uma maneira barata de testar novas idéias. Além disso, a inferência pode ser mais transparente, pois possui menos parâmetros do que modelos grandes. “Se você deseja criar um novo modelo, precisa experimentar as coisas”, diz Leshem Choshen, cientista de pesquisa do MIT-IBM Watson AI Lab. “O modelo pequeno permite que os pesquisadores experimentem apostas mais baixas”.

Modelos grandes e caros com parâmetros cada vez maiores são úteis para aplicações como chatbots generalizados, geradores de imagens, descoberta de medicamentos e muito mais. No entanto, para muitos usuários, os pequenos modelos de destino funcionam da mesma maneira, mas facilita o treino e a construção dos pesquisadores. “Esses modelos eficientes economizam dinheiro, tempo e cálculos”, disse Choshen.

A história original foi reproduzida com permissão da revista Quanta, uma publicação editorialmente independente da Fundação Simons, cuja missão é aprimorar um entendimento geral da ciência, abrangendo pesquisa e desenvolvimento e tendências em matemática e ciências físicas e da vida.



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
ForaDoPadrao
  • Website

Related Posts

O Openai lançou seu primeiro modelo de peso aberto desde o GPT-2

agosto 5, 2025

Claude Fan jogou um funeral para o modelo de IA aposentado da Humanidade

agosto 5, 2025

De acordo com Jack Dongara, como a supercomputação evolui

agosto 5, 2025

O caminhante estava faltando por quase um ano. Depois disso, o sistema de IA encontrou o capacete

agosto 4, 2025
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

dezembro 20, 2024

3 moedas meme devem disparar antes do Natal

dezembro 18, 2024

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

dezembro 17, 2024

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

dezembro 16, 2024

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

All Web3 News
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • Anuncie Conosco
  • Contate-nos
  • DMCA
  • Política de Privacidade
  • Sobre Nós
  • Termos e Condições
© 2025 allweb3news. Designed by allweb3news.

Type above and press Enter to search. Press Esc to cancel.