A diferença entre modelos tradicionais e raciocínio vem de dois tipos de pensamentos explicados pelo economista do Prêmio Nobel, Michael Kahneman, em seu livro de 2011, pensando rápido e lento: um sistema lento e instintivo 1 pensamento e um sistema de deliberação mais lento. -2 Pensamentos.
O tipo de modelo que permite o ChatGPT, conhecido como modelo de idioma em larga escala ou LLM, gera respostas instantâneas aos avisos, consultando redes neurais em larga escala. Esses resultados são surpreendentemente inteligentes e consistentes, mas podem não ser capazes de responder a perguntas que exigem inferência passo a passo, incluindo aritmética simples.
Os LLMs podem ser forçados a imitar o raciocínio deliberativo se forem instruídos a criar um plano que eles devem seguir. No entanto, esse truque nem sempre é confiável. Os modelos geralmente lutam para resolver problemas que requerem um planejamento extenso e cuidadoso. Openai, Google e agora a humanidade estão aprendendo a usar um método de aprendizado de máquina conhecido como aprendizado de reforço para obter os modelos mais recentes e gerar motivos para apontar para a resposta correta. Isso requer a coleta de dados de treinamento adicionais de humanos para resolver um problema específico.
Penn diz que o modo de inferência de Claude recebeu dados adicionais sobre aplicativos de negócios, incluindo redação e modificação, usando computadores e respondendo a perguntas legais complexas. “O que melhoramos é um assunto ou assunto técnico que requer um longo raciocínio”, diz Penn. “O que os clientes têm é um grande interesse em implantar o modelo em cargas de trabalho reais”.
A Humanity diz que Claude 3.7 é particularmente bom em resolver problemas de codificação que exigem inferência passo a passo do O1 Openi do OpenAI em vários benchmarks, como o banco SWE. A empresa está lançando hoje uma nova ferramenta chamada Claude Code, projetada especificamente para esse tipo de codificação assistida por AA.
“Os modelos já são bons em codificação”, diz Penn. Mas “o pensamento adicional é bom para casos em que pode exigir um planejamento muito complicado. Por exemplo, você está olhando para uma base de código muito grande para uma empresa”.