Quando Claude 3,7 soneto jogou o jogo, ele encontrou vários desafios. Passou “dezenas de horas” em uma cidade e lutou para identificar personagens não-jogadores. Com Claude 4 Opus, Hershey percebeu que a memória de longo prazo de Claude e as habilidades de planejamento melhoraram quando o viu navegar na complexa missão de Pokemon. Depois de perceber que certas forças eram necessárias para avançar, a IA melhorou suas habilidades por dois dias antes de continuar jogando. A Hershey acredita que esse raciocínio em vários estágios demonstra um novo nível de consistência sem feedback imediato. Em outras palavras, o modelo está a caminho de melhorar seus recursos.
“Esta é uma das minhas maneiras favoritas de conhecer modelos. É uma maneira de entender quais são seus pontos fortes e quais são suas fraquezas”, diz Hershey. “É a minha maneira de entender esse novo modelo que estamos prestes a trazer à tona e como trabalhamos com isso”.
Todo mundo quer um agente
A pesquisa de Pokémon Human é uma nova abordagem para enfrentar os problemas existentes. Como você entende e ajusta a direção certa que decisões a IA está tomando quando você está se aproximando de tarefas complexas?
A resposta a essa pergunta é essencial para avançar com agentes de IA muito estimulados no setor. Em Pokemon, é importante que o modelo não perca o contexto ou “esqueça” as tarefas em questão. Isso também se aplica a agentes de IA que são solicitados a automatizar o fluxo de trabalho. Isso também pode levar centenas de horas.
“Quando uma tarefa passa de uma tarefa de 5 minutos para uma tarefa de 30 minutos, você sabe que o modelo é consistente e se lembra de tudo o que precisa ser alcançado (tarefa) piorarem com o tempo”, diz Hershey.
A humanidade, como muitos outros laboratórios de IA, quer criar agentes poderosos para vender como produtos de consumo. Krieger diz que o “maior objetivo” da humanidade este ano é “fazer horas de trabalho para você”.
“Este modelo está oferecendo agora. Vimos um cliente de acesso antecipado desligar o modelo por sete horas e fazer uma grande refatoração”, diz Krieger.
Este é o futuro em que empresas como Google e OpenAI estão indo. No início desta semana, o Google lançou a Mariner, um agente de IA incorporado ao Chrome que pode executar tarefas como comprar as compras (US $ 249,99 por mês). O Openai lançou recentemente um agente de codificação e lançou um operador há alguns meses. Este é um agente que permite aos usuários navegar na web.
Comparado aos seus concorrentes, a humanidade é frequentemente vista como uma jogada mais cuidadosa e está progredindo mais rapidamente na pesquisa, mas se desenvolve mais lenta. E com a AI poderosa, provavelmente é positiva. Pode haver um problema com agentes que tenham acesso a informações confidenciais, como a caixa de entrada de um usuário ou login bancário. Em um post no blog na quinta -feira, a humanidade disse: A empresa também afirma que o Claude 4 Opus e o Soneto 4 Claude têm 65% menos chances de se envolver nesse comportamento conhecido como hackers de recompensa do que os modelos anteriores, pelo menos para determinadas tarefas de codificação.