Close Menu
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

What's Hot

Sharplink adiciona 83.562 ETH, no valor de US $ 264,5 milhões, pois seu estoque total atinge 521.939 ETH

agosto 5, 2025

O Openai lançou seu primeiro modelo de peso aberto desde o GPT-2

agosto 5, 2025

Claude Fan jogou um funeral para o modelo de IA aposentado da Humanidade

agosto 5, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
All Web3 NewsAll Web3 News
  • Home
  • Crypto
    • Cryptocurrencies
    • Crypto Memes
    • Bitcoin & Ethereum
  • AI
  • DeFi
  • Exchanges
    • Trade
    • Market
  • NFT Games
  • Web3
  • Economy
  • Latest News
All Web3 NewsAll Web3 News
Home » Conhecer agentes de IA com múltiplas personalidades
AI

Conhecer agentes de IA com múltiplas personalidades

ForaDoPadraoBy ForaDoPadraoabril 16, 2025Nenhum comentário3 Mins Read
Facebook Twitter Pinterest LinkedIn Tumblr Email
Share
Facebook Twitter LinkedIn Pinterest Email


Nos anos seguintes, espera -se que os agentes assumam mais e mais tarefas em nome de seres humanos, como o uso de computadores e smartphones. Por enquanto, no entanto, eles são propensos a erros demais para erros.

Criado pela Startup Simular IA, o novo agente chamado S2 combina modelos de fronteira com modelos especializados para uso em computador. Os agentes atingem o desempenho de ponta em tarefas como uso de aplicativos e manipulação de arquivos, sugerindo que confiar em diferentes modelos em várias situações poderia ajudar os agentes a avançar.

“Os agentes que usam computadores diferem da codificação, diferentemente dos modelos de idiomas em larga escala”, disse Ang Li, co-fundador e CEO da Simular. “Esse é um tipo diferente de problema.”

Na abordagem simular, modelos poderosos de IA de uso geral como o GPT-4O do OpenAI e o Claude 3.7 do Antrópico são usados ​​para inferir a melhor maneira de concluir as tarefas em mãos.

Li, pesquisador do Google DeepMind antes de estabelecer simular em 2023, explica que os modelos de idiomas em larga escala são bons no planejamento, mas não são bons em reconhecer elementos de interfaces gráficas de usuários.

O S2 foi projetado para registrar ações e feedback do usuário e aprender com a experiência com módulos de memória externos que usam essas gravações para melhorar as ações futuras.

Especialmente em tarefas complexas, o S2 tem um desempenho melhor do que qualquer outro modelo OSWorld. Esta é uma referência que mede a capacidade de um agente usar um sistema operacional de computador.

Por exemplo, o S2 derrotará os operadores do OpenAI que podem concluir 34,5% das tarefas que contêm 50 etapas e completam 32%. Da mesma forma, o S2 ganhou 50% no Android World. O Androidworld é a referência para agentes que usam smartphones, com o próximo melhor agente ganhando 46%.

Victor Zhong, cientista da computação da Universidade de Waterloo no Canadá e um dos criadores da Osworld, acredita que os grandes modelos de IA do futuro incorporam dados de treinamento que ajudarão você a entender o mundo visual e a entender a interface gráfica do usuário.

“Isso ajuda os agentes a navegar pela GUI com muito maior precisão”, diz Zhong. “Enquanto isso, antes desses avanços básicos, acho que os sistemas de ponta são simultaneamente semelhantes, pois combinam vários modelos para corrigir as limitações de um único modelo”.

Para me preparar para esta coluna, usei o Simular para reservar meus voos e examinar a Amazon para o acordo. Isso parecia ser melhor do que alguns agentes de código aberto que tentamos no ano passado, incluindo Autogen e VIMGPT.

Mas mesmo os agentes de IA mais inteligentes ainda atormentam o caso de Edge e parecem às vezes mostrar comportamento estranho. Em um exemplo, quando solicitado ao S2 para ajudar a encontrar as informações de contato do pesquisador por trás de Osworld, o agente foi pego em loop pulando entre a página do projeto e o Login do Discord do Osworld.

Os benchmarks da Osworld mostram por que os agentes estão fazendo mais hype do que eles. Os seres humanos podem completar 72% das tarefas do Osworld, mas os agentes perdem 38% de seu tempo em tarefas complexas. Dito isto, quando a referência foi introduzida em abril de 2024, os melhores agentes só conseguiram concluir 12% das tarefas.



Source link

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
ForaDoPadrao
  • Website

Related Posts

O Openai lançou seu primeiro modelo de peso aberto desde o GPT-2

agosto 5, 2025

Claude Fan jogou um funeral para o modelo de IA aposentado da Humanidade

agosto 5, 2025

De acordo com Jack Dongara, como a supercomputação evolui

agosto 5, 2025

O caminhante estava faltando por quase um ano. Depois disso, o sistema de IA encontrou o capacete

agosto 4, 2025
Add A Comment
Leave A Reply Cancel Reply

Editors Picks

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

dezembro 20, 2024

3 moedas meme devem disparar antes do Natal

dezembro 18, 2024

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

dezembro 17, 2024

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

dezembro 16, 2024

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

All Web3 News
Facebook X (Twitter) Instagram Pinterest Vimeo YouTube
  • Home
  • Anuncie Conosco
  • Contate-nos
  • DMCA
  • Política de Privacidade
  • Sobre Nós
  • Termos e Condições
© 2025 allweb3news. Designed by allweb3news.

Type above and press Enter to search. Press Esc to cancel.