Embora os executivos das empresas de inteligência artificial possam querer nos dizer que a AGI está aqui, os modelos mais recentes exigem algumas aulas adicionais para ajudá -las a ficarem o mais inteligentes possível.
A Scale AI é uma empresa que desempenha um papel fundamental para ajudar as empresas de IA da Frontier a criar modelos sofisticados, desenvolvendo uma plataforma que pode testar automaticamente modelos em milhares de benchmarks e tarefas, permitindo que você sinalize dados de treinamento adicionais que o ajudarão a melhorar suas habilidades. Obviamente, a escala fornece os dados necessários.
A escala aumentou proeminentemente o trabalho humano para treinamento e teste de modelos avançados de IA. Os modelos de idiomas em larga escala (LLMS) são treinados com uma grande quantidade de texto raspado de livros, web e outras fontes. Transformar esses modelos em chatbots úteis, consistentes e bem gerenciados requer “treinamento” adicional na forma humana que fornece feedback sobre a saída do modelo.
A Escala fornece trabalhadores especializados em investigar modelos de problemas e limitações. Uma nova ferramenta chamada avaliação em escala usa algoritmos de aprendizado de máquina específicos para automatizar parte desse trabalho.
“Os grandes laboratórios têm todas essas maneiras acidentais de rastrear algumas das fraquezas do modelo”, diz Daniel Bellios, diretor de produtos da Scale Ratings. A nova ferramenta é “como (fabricantes de modelos) passam pelos resultados e correm e redimensionam para entender onde o desempenho do modelo não está funcionando bem”, diz Berrios.
Berrios diz que várias empresas de modelos de IA de fronteira já estão usando a ferramenta. Ele diz que a maioria o usa para melhorar a capacidade de raciocínio dos melhores modelos. A inferência de IA inclui modelos que tentam dividir o problema em componentes para resolvê -lo com mais eficiência. Essa abordagem depende muito do treinamento pós-treinamento dos usuários para determinar se o modelo resolveu o problema corretamente.
Em um exemplo, a classificação da escala revelou que as habilidades de inferência do modelo caíram quando foram alimentadas a um prompt que não é inglês, diz Berrios. “A capacidade de raciocínio genérico (do modelo) era muito bom e funcionou bem em benchmarks, mas tendia a se deteriorar bastante quando os avisos não estavam em inglês”, diz ele. A evolução da escala destacou esse problema e permitiu à empresa coletar e abordar dados de treinamento adicionais.
Jonathan Frankle, cientista-chefe da AI da Databricks, uma empresa que constrói modelos de IA em larga escala, diz que ser capaz de testar um modelo básico parece útil, em princípio. “Todo mundo que avança a bola com classificações ajuda a construir uma IA melhor”, diz Frankl.
Nos últimos meses, a Scale contribuiu para o desenvolvimento de vários novos benchmarks projetados para tornar os modelos de IA mais inteligentes e examinará com mais cuidado a forma como eles chateam. Isso inclui enigmabal, multichallenge, máscaras e o exame final para a humanidade.
A escala diz que está se tornando mais difícil medir melhorias nos modelos de IA. A empresa diz que sua nova ferramenta pode ser usada para criar testes personalizados dos recursos do modelo, como a combinação de vários benchmarks para fornecer uma imagem mais abrangente e investigar inferências em diferentes idiomas. A IA da Scale pega problemas específicos, gera mais exemplos e permite um teste mais abrangente das habilidades do modelo.
As novas ferramentas da empresa também podem informar os esforços para padronizar os testes de modelos de fraude de IA. Alguns pesquisadores dizem que a falta de padronização significa que os jailbreaks para alguns modelos serão privados.
Em fevereiro, o Instituto Nacional de Normas e Tecnologia anunciou que ajudaria a desenvolver metodologias para modelos de teste, para que as escalas sejam seguras e confiáveis.
Que erros você encontrou na saída da ferramenta de AI do gerador? Qual você acha que é o maior ponto cego do modelo? Informe -nos por e -mail hello@wired.com ou comentando abaixo.