Nas histórias de ficção científica, a inteligência artificial geralmente administra todos os tipos de robôs inteligentes, capazes e às vezes matando. A limitação óbvia da melhor IA de hoje é que, por enquanto, ela permanece reta dentro da janela de bate -papo.
O Google DeepMind sinalizou planos para mudar hoje (presumivelmente menos a parte assassina), revelando uma nova versão do modelo Gemini AI, que impulsiona uma variedade de robôs mais capazes, adaptativos e potencialmente úteis, fundindo a linguagem, a visão e o comportamento físico.
Em uma série de vídeos de demonstração, a empresa exibirá vários robôs equipados com um novo modelo chamado Gemini Robotics e manipulará itens em resposta aos comandos de voz. Entreguei os braços do robô para dobrar o papel, distribuindo vegetais, colocando delicadamente óculos no estojo para completar as outras tarefas. O robô conta com o novo modelo para conectar itens exibidos com possíveis ações para fazer o que é exibido. Este modelo é treinado para generalizar sua operação em hardware muito diferente.
O Google DeepMind também lançou uma versão de um modelo chamado Gemini Robotics-ER (para inferência incorporada). A idéia é que outros pesquisadores de robôs usem esse modelo para treinar seus próprios modelos para controlar as ações do robô.
Na demonstração de vídeo, pesquisadores do Google DeepMind usaram esse modelo para controlar um robô humanóide chamado Apollo da Startup Apptronik. O robô fala com humanos e move cartas ao redor do topo da mesa quando instruído.
“Conseguimos trazer a compreensão global do Gemini 2.0, um conceito geral para a robótica”, disse Kanishka Rao, pesquisador de robôs do Google DeepMind, em um briefing antes da apresentação de hoje.
O Google Deepmind disse que o novo modelo pode controlar com sucesso vários robôs em centenas de cenários específicos que não foram incluídos anteriormente no treinamento. “Ter um entendimento conceitual geral dos modelos robóticos pode ser muito mais comum e útil”, disse Rao.
Os avanços que criaram chatbots poderosos, incluindo o ChatGPT do Openai e o Gemini do Google, levantaram esperanças de uma revolução semelhante na robótica nos últimos anos, mas os grandes obstáculos permanecem.