Atualmente, a Deepseek é uma das únicas grandes empresas de IA na China, que não depende do financiamento de grandes empresas de tecnologia como Baidu, Alibaba e Bytedance.
Um jovem grupo genial que quer provar sua capacidade
Segundo Liang, quando formou uma equipe de pesquisa profunda, ele não procurou engenheiros experientes para construir produtos para os consumidores. Em vez disso, ele se concentrou em um médico de prestigiado universidade na China, que quer provar suas habilidades, como a Universidade de Pequim e a Universidade Seika. De acordo com as publicações técnicas chinesas, Qbitai, muitos foram listados no The Top Journal e ganharam prêmios na Conferência Internacional, mas não tinham experiência no setor.
“A maioria de nossas posições técnicas centrais é ocupada por aqueles que se formaram este ano ou nos últimos 1-2 anos”, disse Liang em 36kr em 2023. Essa estratégia de recrutamento é um projeto de pesquisa não convencional que pode ser usado para criar uma cultura corporativa cooperativa que as pessoas possam perseguir livremente e buscar recursos de computação suficientes. Este é um método de operação completamente diferente de uma empresa de Internet existente na China, que geralmente compete por recursos entre as equipes. (Exemplo recente: Bytedance acusou o estagiário original, um vencedor do prêmio acadêmico honorário, para impedir o trabalho dos colegas para armazenar mais recursos de computação para a equipe.)
Lyan disse que os alunos podem ser adequados para grandes investimentos e baixos lucros. “A maioria das pessoas pode se concentrar totalmente em suas missões sem pensar em seus serviços públicos quando são jovens”, disse ele. Suas vendas para a pessoa recrutada foram criadas para “resolver as questões mais difíceis do mundo”.
Segundo especialistas, o fato de quase todos esses jovens pesquisadores serem educados na China está aumentando ainda mais sua motivação. “Essa geração mais jovem incorpora o patriotismo, especialmente para superar os desafios dos regulamentos dos EUA, a tecnologia importante de hardware e software”, explica Zhang. “Sua determinação em superar essas barreiras reflete uma ampla gama de esforços para melhorar não apenas a ambição pessoal, mas também a China como líder global de inovação”.
Inovação nascida de uma crise
Em outubro de 2022, o governo dos EUA iniciou uma compilação de regulamentos de exportação que restringem estritamente o acesso aos chips mais recentes, como o H100 da NVIDIA, pelas empresas de IA na China. Esse movimento foi um problema para a Deepseek. A empresa inicialmente estocou 10.000 H100, mas a concorrência em empresas como o OpenAI e a Meta exigiu mais ações. “O problema que estamos enfrentando não é um financiamento, mas um regulamento de exportação do chip de ponta”, disse Liang na segunda entrevista em 2024.
Deepseek teve que criar uma maneira mais eficiente de treinar modelos. “Eles otimizaram a arquitetura do modelo usando uma série de truques de engenharia, como esquemas de comunicação personalizados entre chips, tamanhos de campo para salvar a memória e o uso inovador de abordagens de modelo -mix. Wendy Chang, que mudou de um mecanismo de software para um representante de política . Analista do Instituto Mercattle Chinese. “Muitas dessas abordagens não são novas idéias, mas é uma tarefa surpreendente combiná -las bem para criar modelos de corte de corte”.
O Deepseek também fez um grande progresso na mistura de potencial multi -cabeça (MLA) e especialistas, que são dois projetos técnicos que aprimoram a eficiência de custo do Deepseek, reduzindo os recursos de computação necessários para o treinamento. De fato, de acordo com a instituição de pesquisa Epock IA, o mais recente modelo de Deepseek foi muito eficiente, e a capacidade de cálculo necessária para o treinamento foi um décimo décimo do modelo equivalente de llama 3.1.
O desejo da Deepseek de compartilhar essas inovações com o público em geral ganhou considerável confiança na comunidade mundial de pesquisas de IA. Para muitas empresas de IA chinesas, o desenvolvimento de modelos de código aberto é a única maneira de acompanhar mais usuários e colaboradores e, eventualmente, levar ao crescimento do modelo. “Os pesquisadores podem criar modelos de corte de corte com fundos menores, mas ainda têm dinheiro suficiente para usar uma grande quantia de dinheiro e que o padrão atual de construção de modelos tem espaço suficiente para otimização. Eu fiz”, diz Chang. “Não há dúvida de que mais tentativas serão feitas nessa direção”.
As notícias podem causar problemas com as exportações atuais dos EUA, que se concentram na criação de um gargalo de recursos de computação. “Existe a possibilidade de que a estimativa existente de quanto capacidade de computação de IA possui a China e o que pode ser alcançado usando -o pode ser derrubado”, diz Chang.