A postagem no blog da OpenAI afirma que o GPT-5 está derrotando modelos anteriores em vários benchmarks de codificação, incluindo a validação de bancada SWE (pontuação de 74,9%), SWE Lancer (GPT-5 registrado 55%) e poliglota de caixa (pontuação de 88%).
Durante uma conferência de imprensa na quarta-feira, Yann Dubois, líder pós-abertura, pediu ao GPT-5 que “crie um aplicativo web bonito e altamente interativo para aprender francês para meu parceiro, um falante de inglês”. Ele observou que queria incluir recursos como progresso diário, várias atividades, como cartões de inflamação e testes, e que ele queria montar o aplicativo em um “tema muito atraente”. Cerca de um minuto depois, o aplicativo gerado pela IA foi exibido. Era apenas uma demonstração da ferrovia, mas o resultado foi um site sofisticado que forneceu exatamente o que Dubois queria.
“É um ótimo colaborador de codificação e também é ótimo para tarefas de agentes”, diz Michelle Pokras, líder pós-treinamento. “Ele efetivamente executa cadeias longas e chamadas de ferramentas (ou seja, oferece uma melhor compreensão de quando e como usar funções como navegadores da Web e APIs externas, seguiu instruções detalhadas e forneceu uma explicação antecipada da ação”.
O Openai também disse em um post no blog que o GPT-5 é “o melhor modelo de todos os tempos para perguntas relacionadas à saúde”. Três benchmarks LLM relacionados à saúde do OpenAI (Healthbench, Healthbench Hard e Healthbench Consensus) afirmam que os cartões do sistema (documentos que descrevem as capacidades técnicas do produto e outras descobertas) superam os modelos anteriores da idéia GPT-5 “por uma margem significativa”. A versão pensante do GPT-5 obteve 25,5% no Healthbench, com uma pontuação de 31,6% na O3. De acordo com o cartão do sistema, essas pontuações foram verificadas por dois ou mais médicos.
Segundo Pokrass, diz -se que o modelo é menos alucinante. Pokrass é um problema comum com a IA que fornece informações erradas. A Alex Beutel, líder da Investigation de Segurança do OpenAI, acrescentou que “a taxa de decepções do GPT-5 caiu significativamente”.
“Nossa mitigação não é perfeita e requer mais pesquisas, mas tomamos medidas para reduzir a tendência de enganar, CHE ou hackear a idéia do GPT-5”, diz o cartão do sistema. “Treinei o modelo para falhar graciosamente, especialmente quando poso nas tarefas que não consegui resolver”.
De acordo com os cartões do sistema da empresa, depois de testar um modelo GPT-5 que não tem acesso à navegação na Web, os pesquisadores encontraram uma taxa de alucinação (definida como “a porcentagem de reivindicações de fato que incluem erros menores ou maiores”) de 26% menor que o modelo GPT-4O. A idéia do GPT-5 tem uma redução de 65% na taxa de alucinação em comparação com o O3.
Para avisos que podem ser de uso duplo (potencialmente prejudicial ou benigno), Beutel diz que o GPT-5 está usando “conclusão segura”. De acordo com a Beutel, o OpenAI realizou mais de 5.000 horas de equipes vermelhas e as testou com uma organização externa para garantir que o sistema seja robusto.
O Openai disse que possui quase 700 milhões de usuários ativos por semana, com ChatGPT, 5 milhões de usuários empresariais pagos e 4 milhões de desenvolvedores.
“A vibração nesse modelo é muito boa. Acho que as pessoas realmente sentirão isso”, diz Chatgpt Nick Tarley. “Especialmente as pessoas comuns que não passam o tempo pensando em modelos”.