O novo modelo da humanidade é excelente no raciocínio e planejamento e tem as habilidades de Pokémon para provar isso

Quando Claude 3,7 soneto jogou o jogo, ele encontrou vários desafios. Passou “dezenas de horas” em uma cidade e lutou para identificar personagens não-jogadores. Com Claude 4 Opus, Hershey percebeu que a memória de longo prazo de Claude e as habilidades de planejamento melhoraram quando o viu navegar na complexa missão de Pokemon. Depois de perceber que certas forças eram necessárias para avançar, a IA melhorou suas habilidades por dois dias antes de continuar jogando. A Hershey acredita que esse raciocínio em vários estágios demonstra um novo nível de consistência sem feedback imediato. Em outras palavras, o modelo está a caminho de melhorar seus recursos.

“Esta é uma das minhas maneiras favoritas de conhecer modelos. É uma maneira de entender quais são seus pontos fortes e quais são suas fraquezas”, diz Hershey. “É a minha maneira de entender esse novo modelo que estamos prestes a trazer à tona e como trabalhamos com isso”.

Todo mundo quer um agente

A pesquisa de Pokémon Human é uma nova abordagem para enfrentar os problemas existentes. Como você entende e ajusta a direção certa que decisões a IA está tomando quando você está se aproximando de tarefas complexas?

A resposta a essa pergunta é essencial para avançar com agentes de IA muito estimulados no setor. Em Pokemon, é importante que o modelo não perca o contexto ou “esqueça” as tarefas em questão. Isso também se aplica a agentes de IA que são solicitados a automatizar o fluxo de trabalho. Isso também pode levar centenas de horas.

“Quando uma tarefa passa de uma tarefa de 5 minutos para uma tarefa de 30 minutos, você sabe que o modelo é consistente e se lembra de tudo o que precisa ser alcançado (tarefa) piorarem com o tempo”, diz Hershey.

A humanidade, como muitos outros laboratórios de IA, quer criar agentes poderosos para vender como produtos de consumo. Krieger diz que o “maior objetivo” da humanidade este ano é “fazer horas de trabalho para você”.

“Este modelo está oferecendo agora. Vimos um cliente de acesso antecipado desligar o modelo por sete horas e fazer uma grande refatoração”, diz Krieger.

Este é o futuro em que empresas como Google e OpenAI estão indo. No início desta semana, o Google lançou a Mariner, um agente de IA incorporado ao Chrome que pode executar tarefas como comprar as compras (US $ 249,99 por mês). O Openai lançou recentemente um agente de codificação e lançou um operador há alguns meses. Este é um agente que permite aos usuários navegar na web.

Comparado aos seus concorrentes, a humanidade é frequentemente vista como uma jogada mais cuidadosa e está progredindo mais rapidamente na pesquisa, mas se desenvolve mais lenta. E com a AI poderosa, provavelmente é positiva. Pode haver um problema com agentes que tenham acesso a informações confidenciais, como a caixa de entrada de um usuário ou login bancário. Em um post no blog na quinta -feira, a humanidade disse: A empresa também afirma que o Claude 4 Opus e o Soneto 4 Claude têm 65% menos chances de se envolver nesse comportamento conhecido como hackers de recompensa do que os modelos anteriores, pelo menos para determinadas tarefas de codificação.

Source link

What's Hot

Preços de fechamento dos EUA: mercado misto devido à surpresa do pico do PPI

EnergyPathways Inc. faz parceria com ABP para avaliar Barrow Port

O CEO da Aave diz que o Clarity Act poderia remodelar a regulamentação DeFi, mas será que ~$80.000 BTC permanecerão focados em pressões macro?

O novo modelo da humanidade é excelente no raciocínio e planejamento e tem as habilidades de Pokémon para provar isso

OpenAI contrata CEO do Slack como novo diretor de receitas

Funcionários da OpenAI se demitem, alegando que a pesquisa econômica da empresa está sendo usada para defender a IA

OpenAI, Anthropic e Block colaboram para melhorar o desempenho do agente de IA

A maior mineradora de Bitcoin da América está mudando seu foco para IA

Pixelverse dá vida a memes criptográficos com o jogo MemeBattle

3 moedas meme devem disparar antes do Natal

4 melhores novas moedas meme para investir neste fim de semana, de especialistas em criptografia

Esqueça o Bitcoin – a próxima estrela da criptografia tem como objetivo um aumento de 26.000% na pré-venda da moeda Meme

Subscribe to Updates

What's Hot

O novo modelo da humanidade é excelente no raciocínio e planejamento e tem as habilidades de Pokémon para provar isso

Todo mundo quer um agente

Related Posts