Mesmo os melhores agentes de inteligência artificial são bastante inúteis no trabalho freelance online, de acordo com uma experiência que põe em dúvida a ideia de que a IA substituirá em massa os trabalhadores de escritório.
O Índice de Trabalho Remoto, um novo benchmark desenvolvido pela empresa de anotação de dados Scale AI e por pesquisadores da organização sem fins lucrativos AI Safety Center (CAIS), mede a capacidade dos modelos de IA de fronteira para automatizar tarefas economicamente valiosas.
Os pesquisadores deram a vários agentes líderes de IA uma variedade de empregos freelance simulados e descobriram que mesmo os melhores agentes poderiam concluir menos de 3% dos trabalhos e ganhar US$ 1.810 em US$ 143.991. Os pesquisadores analisaram várias ferramentas e descobriram que a Manus, uma startup chinesa de mesmo nome, era a mais capaz, seguida por Grok da xAI, Claude da Anthropic, ChatGPT da OpenAI e Gemini do Google.
“Esperamos que isso nos dê uma impressão mais precisa do que está acontecendo com nossas capacidades de IA”, afirma Dan Hendrycks, diretor do CAIS. Ele acrescentou que, embora alguns agentes tenham melhorado significativamente ao longo do último ano, isso não significa que continuarão no mesmo ritmo.
Avanços impressionantes na IA levaram à especulação de que em breve ultrapassará a inteligência humana e substituirá um grande número de trabalhadores. O CEO da Anthropic, Dario Amodei, sugeriu em março que 90% das tarefas de codificação serão automatizadas dentro de meses.
Ondas anteriores de IA levaram a falsas previsões sobre perdas de empregos, como a substituição iminente de radiologistas por algoritmos de IA.
Os pesquisadores geraram uma variedade de trabalhos autônomos por meio de funcionários verificados da Upwork. As tarefas variam de design gráfico, edição de vídeo, desenvolvimento de jogos e tarefas administrativas, como coleta de dados. Eles combinaram uma descrição de cada trabalho com um diretório de arquivos necessários para realizar o trabalho e um exemplo de projeto concluído criado por um ser humano.
Embora os modelos de IA tenham melhorado em codificação, matemática e raciocínio lógico nos últimos anos, eles ainda têm dificuldade para usar ferramentas diferentes ou executar tarefas complexas que envolvem muitas etapas, disse Hendricks. “Eles não têm memória de longo prazo e não conseguem aprender continuamente com suas experiências. Eles não conseguem adquirir habilidades no trabalho como os humanos conseguem”, diz ele.
Esta análise fornece um contraponto ao Economic Works Benchmark, denominado GDPval, fornecido pela OpenAI em setembro, que visa medir trabalhos economicamente valiosos. De acordo com o GDPval, modelos de IA de ponta, como o GPT-5, abordam o desempenho humano em 220 tarefas em uma variedade de empregos de escritório. OpenAI não comentou.

