Embora eles tenham respondido uma pergunta de acompanhamento sobre a pontuação final corretamente, Gemini obteve o nome do marcador errado para o primeiro touchdown. Ai sugeriu que era Johann Dotson. Dotson mostrou-se ter um touchdown com os destaques no placar em 0-0, mas isso foi descartado. Este é um exemplo de nuance que a IA não cobre necessariamente.
Gêmeos identifica com sucesso quando o chefe do Kansas City marcou seus primeiros pontos, incluindo um registro de data e hora que se vincula diretamente aos touchdowns nos clipes do YouTube. Além disso, o nome do artilheiro está correto. Gêmeos parece depender muito do comentário sobre clipes de esportes, o que não é surpreendente.
Resumo do conteúdo do vídeo
A IA pode selecionar detalhes de vídeo se for mencionado no áudio.
Foto de David Nield
Gêmeos então tentou combater os longas-metragens nos bastidores do Grand Budapest Hotel do diretor Wes Anderson. O clipe correu até quatro minutos e meio, e Gêmeos disparou várias respostas quase instantaneamente. Ele identificou o nome do filme sendo falado e a principal batida da história do clipe.
No entanto, tudo depende do áudio (ou transcrição). Parece não haver análise do conteúdo de vídeo real. A IA não sabia dizer quem estava a cabeça falante no vídeo e quem era o diretor, apesar de seus nomes sendo exibidos na tela (embora isso também tenha sido mencionado na descrição do vídeo).
No lado positivo, Gemini fez um trabalho impressionante ao resumir o áudio no vídeo. Ele identificou corretamente alguns dos desafios do cinema que lhes proporcionaram cupons de hora, desde a busca de um conjunto representando Grand Budapeste até que fossem cheios de extras.
Resumo da entrevista
Gêmeos pode fornecer o registro de data e hora para um vídeo especificado.
Foto de David Nield
Finalmente, experimentamos o Google Gemini: o Canal 4 do Reino Unido falou com Charlie Brooker e Sienna Kelly sobre o último espelho preto (provavelmente adequado para artigos na IA). Gêmeos se mostrou extremamente capaz de escolher pontos tópicos e adicionar registros de data e hora, mas é claro que todo o vídeo fala principalmente.
Novamente, não há contexto para outra coisa senão áudio ou transcrições. Gemini AI não pôde dizer mais nada sobre onde a entrevista foi realizada, como os participantes estavam se comportando ou o visual do vídeo.
Se a resposta desejada é um vídeo no áudio de um vídeo do YouTube e sua transcrição associada, a Gemini funciona muito bem em fornecer um resumo e uma resposta precisa (se os comentaristas mencionarem quando os touchdowns forem excluídos e quando pontuados). Para todos os tipos de informações visuais, você precisará assistir ao vídeo.