O próximo marco para IAs geradoras de vídeo era fazê-las com áudio; o Google conseguiu isso com o Veo 3

Ótimo dia para o Google. Estamos no meio do I/O 2025, o evento de software mais importante do ano para a empresa americana. Curiosamente, Android é um dos nomes menos comentados: neste ano, a única coisa que importa é IA.

E, relacionado à IA, o Google vem trabalhando há algum tempo em um modelo que permite gerar vídeos por meio de texto. Esse modelo é o Veo , e em sua nova atualização ele é capaz de gerar esses vídeos... com áudio.

Veo 3

O Google agora tem três níveis para sua IA de vídeo generativa. Veo 1, Veo 2 e o novo Veo 3. Sim, são nomes muito mais fáceis do que estamos acostumados . O Veo 3 é o modelo mais potente, capaz de gerar vídeos 4K com compressão cinematográfica avançada. Neste Google I/O, ele ganha um recurso essencial: geração de vídeo com áudio.

De sons ambientes a diálogos

O Google está apostando tudo no Veo 3. Este modelo não só oferece melhor qualidade que o Veo 2: é o único modelo do Google capaz de gerar vídeos com áudio. Por exemplo, se especificarmos no prompt que queremos uma cena urbana, ele será capaz de recriar alguns dos sons correspondentes a ela (pessoas caminhando, trânsito, barulho, etc.).

O Google vai além e promete até mesmo criar diálogos entre personagens. Essa é uma das barreiras definitivas para que a conversão de vídeo em texto se torne praticamente um recurso de ficção científica. Com o Veo 3 será possível fazer tudo.

Melhorias no Veo 2

Embora o Veo 3 seja o protagonista absoluto, o Veo 2 é atualizado com novos recursos. Entre elas, ele introduz novos controles de câmera muito mais precisos para rastreamento e zoom de movimentos, opções de pintura para expandir o quadro (para mover o vídeo da vertical para a horizontal ou vice-versa), bem como a capacidade de adicionar ou excluir elementos do vídeo.

O fluxo chega

Relacionado ao Veo, Imagen e Gemini está o Flow, a nova ferramenta do Google para criar vídeos cinematográficos usando IA. É um novo ambiente de trabalho que permite que você libere suas criações com o Veo: um editor de vídeo que permite criar com o Imagen e o Veo.

Além de funcionar como editor, ele terá uma certa função social. Através do Flow, podemos acessar o Flow TV, um feed onde podemos ver conteúdo, canais e criadores que estão gerando vídeos com o Veo.

Ultrapassando a Open AI

Os criadores do ChatGPT surpreenderam o mundo com o Sora , sua inteligência artificial para gerar vídeos a partir de um prompt. O problema? Pelo menos no momento em que este artigo foi escrito, ele não era capaz de gerar vídeo.

Em dezembro de 2024, o Google ultrapassou Sora ao mostrar os recursos do Veo 2, que quadruplicou a resolução de saída de vídeo em comparação ao modelo da Open AI. Também permitiu vídeos mais duradouros e uma compreensão espetacular da física, o que faz toda a diferença na hora de criar um vídeo natural.

Seus rivais

Geradores de vídeo concorrentes como Runway , Luma AI ou Pika Labs permitem que você adicione áudio externo, mas eles nunca geram som ao entregar o vídeo final.

O Google acaba de causar impacto com o Veo 3, mantendo sua liderança na corrida e dificultando ainda mais as coisas para gigantes como a Open AI.

Por enquanto, esses recursos estarão disponíveis para assinantes do Gemini Ultra nos Estados Unidos por meio do aplicativo Gemini e do Flow, bem como para empresas por meio do Vertex AI.