Nos anos seguintes, espera -se que os agentes assumam mais e mais tarefas em nome de seres humanos, como o uso de computadores e smartphones. Por enquanto, no entanto, eles são propensos a erros demais para erros.
Criado pela Startup Simular IA, o novo agente chamado S2 combina modelos de fronteira com modelos especializados para uso em computador. Os agentes atingem o desempenho de ponta em tarefas como uso de aplicativos e manipulação de arquivos, sugerindo que confiar em diferentes modelos em várias situações poderia ajudar os agentes a avançar.
“Os agentes que usam computadores diferem da codificação, diferentemente dos modelos de idiomas em larga escala”, disse Ang Li, co-fundador e CEO da Simular. “Esse é um tipo diferente de problema.”
Na abordagem simular, modelos poderosos de IA de uso geral como o GPT-4O do OpenAI e o Claude 3.7 do Antrópico são usados para inferir a melhor maneira de concluir as tarefas em mãos.
Li, pesquisador do Google DeepMind antes de estabelecer simular em 2023, explica que os modelos de idiomas em larga escala são bons no planejamento, mas não são bons em reconhecer elementos de interfaces gráficas de usuários.
O S2 foi projetado para registrar ações e feedback do usuário e aprender com a experiência com módulos de memória externos que usam essas gravações para melhorar as ações futuras.
Especialmente em tarefas complexas, o S2 tem um desempenho melhor do que qualquer outro modelo OSWorld. Esta é uma referência que mede a capacidade de um agente usar um sistema operacional de computador.
Por exemplo, o S2 derrotará os operadores do OpenAI que podem concluir 34,5% das tarefas que contêm 50 etapas e completam 32%. Da mesma forma, o S2 ganhou 50% no Android World. O Androidworld é a referência para agentes que usam smartphones, com o próximo melhor agente ganhando 46%.
Victor Zhong, cientista da computação da Universidade de Waterloo no Canadá e um dos criadores da Osworld, acredita que os grandes modelos de IA do futuro incorporam dados de treinamento que ajudarão você a entender o mundo visual e a entender a interface gráfica do usuário.
“Isso ajuda os agentes a navegar pela GUI com muito maior precisão”, diz Zhong. “Enquanto isso, antes desses avanços básicos, acho que os sistemas de ponta são simultaneamente semelhantes, pois combinam vários modelos para corrigir as limitações de um único modelo”.
Para me preparar para esta coluna, usei o Simular para reservar meus voos e examinar a Amazon para o acordo. Isso parecia ser melhor do que alguns agentes de código aberto que tentamos no ano passado, incluindo Autogen e VIMGPT.
Mas mesmo os agentes de IA mais inteligentes ainda atormentam o caso de Edge e parecem às vezes mostrar comportamento estranho. Em um exemplo, quando solicitado ao S2 para ajudar a encontrar as informações de contato do pesquisador por trás de Osworld, o agente foi pego em loop pulando entre a página do projeto e o Login do Discord do Osworld.
Os benchmarks da Osworld mostram por que os agentes estão fazendo mais hype do que eles. Os seres humanos podem completar 72% das tarefas do Osworld, mas os agentes perdem 38% de seu tempo em tarefas complexas. Dito isto, quando a referência foi introduzida em abril de 2024, os melhores agentes só conseguiram concluir 12% das tarefas.