A Databricks, uma empresa que ajuda as grandes empresas a criar modelos de inteligência artificial personalizados, desenvolveram um truque de aprendizado de máquina que pode melhorar o desempenho dos modelos de IA sem a necessidade de dados de etiquetas limpas.
Jonathan Frankle, cientista -chefe da IA da Databricks, conversou com os clientes no ano passado sobre os principais desafios que enfrentam para garantir que a IA funcione.
Frankle disse que o problema é dados sujos.
“Todo mundo tem alguns dados e está pensando no que querem fazer”, diz Frankl. No entanto, a falta de dados limpos dificulta o ajuste do modelo e executa certas tarefas. Para os modelos, ninguém o verá em dados de ajustes limpos e limpos que podem seguir o prompt ou (a interface de programação do aplicativo).
O modelo do Databricks permite que as empresas implantem seus próprios agentes para executar tarefas.
Essa técnica raramente vê alguns dos truques importantes que os engenheiros usam atualmente para melhorar os recursos dos modelos avançados de IA, especialmente quando é difícil obter bons dados. Esse método utiliza idéias que ajudam a criar modelos de inferência sofisticados, combinando o aprendizado de reforço, uma maneira pela qual os modelos de IA podem melhorar os dados de treinamento gerados por meio da prática, seja “síntese” ou IA.
Os modelos mais recentes do OpenAI, Google e Deepseek dependem muito de dados de aprendizado e treinamento sintéticos aumentados. A Wired revelou que a Nvidia planeja adquirir a Gretel, uma empresa especializada em dados sintéticos. “Estamos todos navegando por esse espaço”, diz Frankl.
O método Databricks tira proveito do fato de que modelos ainda mais fracos podem ter uma boa pontuação em uma tarefa ou referência específica, recebendo ensaios suficientes. Os pesquisadores estão chamando esse método de maneira de melhorar o desempenho do modelo para “Best-NN”. Os Databricks treinaram o modelo para prever os melhores resultados de N que os testadores humanos preferem, com base em exemplos. Você pode usar os modelos de recompensa de Databricks (DBRM) para melhorar o desempenho de outros modelos sem a necessidade de dados rotulados.
Em seguida, use o DBRM para selecionar a melhor saída de um modelo específico. Isso cria dados de treinamento sintético para ajustar ainda mais o modelo e gera uma melhor saída pela primeira vez. O Databricks chama a nova abordagem de otimização adaptativa do tempo de teste ou TAO. “Esse método que estamos falando sobre esse método usa o aprendizado de reforço relativamente leve para queimar essencialmente os benefícios dos melhores n no próprio modelo”, diz Frankl.
Ele acrescentou que o trabalho realizado pelo Databricks mostra que os métodos TAO melhoram quando eles são expandidos para modelos maiores e mais capazes. Embora os dados de aprendizado e sintético aumentados já sejam amplamente utilizados, combiná -los para melhorar os modelos de linguagem é uma técnica relativamente nova e tecnicamente desafiadora.
O Databricks é extraordinariamente aberto sobre como desenvolver IA. Isso ocorre porque você deseja mostrar aos seus clientes que você tem as habilidades necessárias para criar um poderoso modelo personalizado. A empresa revelou anteriormente à Wired como desenvolveu o DBX, o principal modelo de linguagem de código aberto (LLM), do zero.