Omni Flash, do Google, quer ser para o vídeo o que Nano Banana foi para a imagem

Criar uma imagem com IA já não surpreende como antes. O que começa a fazer a diferença é a capacidade de modificá-la, dar continuidade e transformar uma ideia inicial em algo mais elaborado sem perder a coerência no processo. No vídeo, esse desafio é muito maior: há movimento, tempo, física e personagens que precisam continuar parecendo coerentes.

O Gemini Omni, anunciado nesta quarta-feira (20/5) pelo Google, chega com a promessa de enfrentar esse problema e tornar a edição uma tarefa muito mais simples.

A própria DeepMind, divisão de IA do Google, pede para que o Omni seja visto como o Nano Banana, mas para vídeo. O gerador de imagens do Google explodiu em 2025 e levou a criação visual com IA a novos patamares nas redes sociais. A primeira versão, lançada em agosto, somou 13 milhões de usuários em quatro dias e já havia gerado mais de 5 bilhões de imagens em meados de outubro.

O Gemini Omni Flash é apresentado como o primeiro modelo da família Gemini Omni. Segundo a empresa, ele foi projetado para criar conteúdo a partir de qualquer tipo de entrada. A ideia é que o usuário possa combinar imagens, áudio, vídeo e texto como ponto de partida para gerar vídeos de alta qualidade apoiados no conhecimento do mundo real do Gemini.

Alterando a criação da IA sem perder a coerência

A parte mais interessante está em como o Google descreve o processo de edição. Ele não é apresentado apenas como uma ferramenta para gerar um clipe do zero, mas como um sistema capaz de trabalhar sobre uma cena por meio de instruções encadeadas. A empresa fala em alterar elementos específicos ou transformar completamente um vídeo inicial, ajustando estética, ação, ambiente, ângulo, estilo e detalhes específicos. Também promete manter a consistência dos personagens, preservar a continuidade da cena e oferecer uma física mais coerente.

Em seu comunicado, o Google mostra como Gemini Omni pode partir de uma cena e modificá-la com uma instrução direta, seja para mudar o material de um objeto, alterar uma ação ou transformar uma ideia complexa em uma explicação visual. Vejamos alguns exemplos de prompts:

“Make the sculpture out of bubbles” (Faça a escultura ser feita de bolhas)
“When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person’s arm turns into reflective mirror material” (Quando a pessoa tocar o espelho, faça o espelho ondular com um efeito líquido e elegante, e que o braço da pessoa se transforme em um material refletivo)
“Claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate” (Um tutorial em claymation sobre o dobramento de proteínas, tudo feito de argila, sem mãos, em stop motion e com precisão)

No Xataka, fizemos um primeiro teste com uma imagem reconhecível: o monumento Puerta de Alcalá, em Madri. O ponto de partida foi uma fotografia estática e o prompt que utilizamos foi o seguinte: “Create a video from this image. Cars are moving forward and people are walking.” (Crie um vídeo a partir desta imagem. Os carros avançam e as pessoas caminham).

A ideia era verificar até que ponto Gemini Omni conseguia transformar uma cena real em um pequeno clipe com movimento. No vídeo acima, percebe-se justamente essa tentativa de animar a imagem original, com carros avançando, pedestres caminhando e um som ambiente que combina com a cena. A ferramenta também parece preservar alguns elementos de marca visíveis nos veículos, especialmente o logo da Mercedes-Benz, embora em outros casos, como Fiat, o resultado fique menos claro.

Disponibilidade

O Google afirma que Gemini Omni Flash começa a chegar aos assinantes do Google AI Plus, Pro e Ultra por meio do Gemini e do Google Flow, enquanto sua implementação gratuita no YouTube Shorts e no aplicativo YouTube Create começa nesta semana.

Em Xataka Brasil

Para encarar de frente o Nano Banana Pro, OpenAI lança o novo ChatGPT Images

Em nosso teste com uma conta corporativa, porém, encontramos um limite bastante restrito: após gerar três vídeos, o sistema nos avisou que “havíamos atingido nosso limite de geração de vídeo até 20 de maio às 19h59”. Isso não surpreende muito se pensarmos no que acontece nos bastidores: criar vídeo com IA exige muitos recursos, então tudo indica que o Google estaria dosando o acesso, pelo menos nesta primeira fase.

Quando falamos de geração de vídeo com inteligência artificial, é provável que um dos primeiros nomes que venha à cabeça seja Sora. Ele chegou como uma das grandes promessas da OpenAI para esse campo. O percurso, porém, acabou sendo bem mais curto do que sugeria aquela ambição inicial. Seu site e aplicativo deixaram de estar disponíveis no fim de abril de 2026, embora a API continue funcionando até 24 de setembro.

Imagens | Google | Xataka

Este texto foi traduzido/adaptado do site Xataka Espanha.

Alterando a criação da IA sem perder a coerência

Disponibilidade

RECEBA "", NOSSA NEWSLETTER SEMANAL