O Latam-GPT é um novo modelo de idioma líder desenvolvido na América Latina. O projeto, liderado pelo Centro Nacional de Inteligência Artificial, sem fins lucrativos, no Chile (Cenia), visa ajudar as regiões a alcançar a independência tecnológica, desenvolvendo modelos de IA de código aberto treinados em idiomas e contextos latino-americanos.
“Este trabalho não pode ser feito em um grupo ou em um país na América Latina. É um desafio que requer a participação de todos”, diz o diretor da Cenia, Alvaro Soto, em entrevista à Wired En Español. “O Latam-GPT é um projeto que busca criar um modelo de IA aberto, gratuito e mais importante e colaborativo. Trabalhamos em um processo muito de baixo para cima há dois anos e recentemente se reunimos com mais iniciativas de cima para baixo, e o governo começou a se interessar por ele e participar do projeto”.
Este projeto se destaca em seu espírito colaborativo. “Não estamos tentando competir com o Openai, Deepseek ou Google. Precisamos de um modelo exclusivo da América Latina e do Caribe. Isso reconhece os requisitos e desafios culturais que acompanham isso, incluindo a compreensão dos vários dialetos, história local e aspectos culturais únicos”, explica Soto.
Graças a 33 parcerias estratégicas entre a América Latina e as instituições do Caribe, o projeto reuniu um corpus de dados que excede 8 terabytes de terabytes, no valor de milhões de livros. Essa base de informações permite o desenvolvimento de modelos de idiomas com 50 bilhões de parâmetros, que estão em uma escala comparável ao GPT-3.5, fornecendo grandes volumes da mídia para executar tarefas complexas, como inferência, tradução e relevância.
O Latam-GPT é treinado em um banco de dados regional que reúne informações de 20 países latino-americanos e Espanha, com um total impressionante de 2.645.500 documentos. A distribuição de dados mostra uma grande concentração em grandes países da região, sendo o Brasil o líder com 685.000 documentos, seguido por 385.000 México com 385.000, Espanha com 325.000 Espanha, 220.000 Colômbia e Argentina com 210.000 documentos. Os números refletem o tamanho desses mercados, o desenvolvimento digital e a disponibilidade de conteúdo estruturado.
“Começamos primeiro com o modelo de idioma. Esperamos que o desempenho em uma tarefa típica esteja mais próximo do de um grande modelo comercial, mas temos um excelente desempenho em tópicos exclusivos da América Latina. A idéia é que, quando perguntamos sobre tópicos relacionados à nossa região, teremos um conhecimento mais profundo”, explica Soto.
O primeiro modelo é o ponto de partida para o desenvolvimento futuro e a expansão para modelos maiores, incluindo aqueles com imagens e vídeos. “Como este é um projeto aberto, esperamos que outras instituições possam usá -lo. Grupos colombianos podem se adaptar ao sistema escolar. Grupos brasileiros podem se adaptar ao setor de saúde. A idéia é abrir a porta para diferentes organizações para gerar modelos específicos em áreas específicas, como agricultura, cultura etc.

