Além de sua extensa coleção de livros, a Iniciativa de Dados Institucionais está trabalhando com a Biblioteca Pública de Boston para digitalizar milhões de artigos de vários jornais que estão atualmente em domínio público e está preparada para colaborações semelhantes no futuro. . Exatamente como o conjunto de dados de livros será lançado ainda não foi determinado. A Iniciativa de Dados Institucionais pediu ao Google que cooperasse com o público, mas os detalhes ainda estão sendo acertados. Kent Walker, presidente global do Google, disse em comunicado que a empresa está “orgulhosa de apoiar” o projeto.
Não importa como o conjunto de dados do IDI seja lançado, uma série de empresas semelhantes se juntarão a ele que prometem dar às empresas acesso a materiais de treinamento em IA substantivos e de alta qualidade, sem o risco de enfrentar problemas de direitos autorais. startup ou iniciativa. Empresas como a Calliope Networks e a ProRata surgiram como empresas que emitem licenças e gerem esquemas de compensação destinados a recompensar criadores e detentores de direitos pelo fornecimento de dados de formação em IA.
Existem também outros novos projetos de domínio público. A startup francesa de IA Pleias lançou seu próprio conjunto de dados de domínio público, Common Corpus, na primavera passada, de acordo com o coordenador do projeto Pierre Karl Lenglet. Este conjunto de dados contém cerca de 3 a 4 milhões de livros e periódicos. Com o apoio do Ministério da Cultura francês, o Common Corpus foi baixado mais de 60.000 vezes somente neste mês na plataforma de IA de código aberto Hugging Face. Na semana passada, Pleias anunciou que estava lançando o primeiro conjunto de modelos de linguagem em larga escala treinados neste conjunto de dados. Lenglet disse à WIRED que este será o primeiro modelo “treinado exclusivamente em dados abertos e em conformidade com as leis de IA (da UE)”.
Esforços também estão em andamento para criar conjuntos de dados de imagens semelhantes. A startup de IA Spawning lançou seu próprio serviço neste verão, chamado Source.Plus. Inclui imagens de domínio público do Wikimedia Commons e de vários museus e arquivos. Algumas instituições culturais importantes, como o Metropolitan Museum of Art de Nova Iorque, há muito que disponibilizam os seus arquivos ao público como projectos independentes.
Ed Newton-Rex, ex-executivo da Stability AI que agora dirige uma organização sem fins lucrativos que certifica ferramentas de IA treinadas eticamente, diz que o crescimento desses conjuntos de dados significa alto desempenho e alta qualidade. material para construir modelos de IA. A OpenAI disse anteriormente aos legisladores britânicos que é “impossível” criar produtos como o ChatGPT sem usar material protegido por direitos autorais. “Esses grandes conjuntos de dados de domínio público são uma ‘defesa da necessidade’ que algumas empresas de IA usam para justificar a remoção de obras protegidas por direitos autorais para treinar seus modelos e destruí-los ainda mais”, disse Newton-Rex.
Mas ainda tenho dúvidas se o IDI e projetos semelhantes irão realmente mudar o status quo da formação em IA. “Esses conjuntos de dados só terão um impacto positivo se forem usados para substituir obras protegidas por direitos autorais, talvez em conjunto com o licenciamento de outros dados”. os criadores internos proporcionarão benefícios esmagadores para as empresas de IA”, diz ele.
Atualizado em 24/12/12 às 11h18 ET: Esta história foi atualizada com comentários do Google.