UStackUStack
Gemini Omni icon

Gemini Omni

Gemini Omni é um modelo Gemini para criar e editar vídeos com prompts em linguagem natural. Suporta edições passo a passo e usa vídeo, imagem, texto ou áudio como referência.

Gemini Omni

O que é o Gemini Omni?

Gemini Omni é um modelo Gemini para criar e editar vídeos por meio de prompts em linguagem natural. A página o apresenta como um sistema que pode receber um vídeo, imagem, texto ou áudio como referência de entrada e produzir uma única saída coesa, com ênfase em edição iterativa e consistência ao longo de várias interações.

Ele é posicionado como um modelo em que o raciocínio e a compreensão de mundo do Gemini se unem à criação. Segundo a página, ele foi projetado para suportar edições que se baseiam em instruções anteriores, alterar a aparência ou a ação de uma cena e aplicar conhecimento do mundo real ao gerar ou transformar conteúdo.

Principais recursos

  • Edição de vídeo em várias interações: Os usuários podem refinar um vídeo por meio de conversa passo a passo, com cada edição construindo sobre a anterior para manter a cena coerente.
  • Transformação em linguagem natural: Os prompts podem mudar a estética, a ação ou o efeito em um vídeo existente sem edição manual na linha do tempo.
  • Fluxo de trabalho de referência para saída: O modelo pode usar imagem, texto, vídeo ou áudio como referências de entrada e transformá-los em uma única saída.
  • Geração consciente de conhecimento de mundo: A página diz que o Gemini Omni combina compreensão de física com o histórico, a ciência e o conhecimento cultural do Gemini para apoiar resultados mais significativos.
  • Disponível no Gemini e no Google Flow: A página indica repetidamente que é possível experimentá-lo no Gemini ou no Google Flow.

Como usar o Gemini Omni

Comece fornecendo um vídeo ou outra referência, como uma imagem, um prompt de texto ou áudio. Depois, descreva a alteração desejada em linguagem simples e continue refinando com prompts de acompanhamento, se necessário. A página também inclui links para orientações de prompts para usuários que querem ajuda para estruturar seus pedidos.

Casos de uso

  • Edição de cena por conversa: Ajuste um vídeo existente em etapas, como alterar um objeto, efeito ou ação, mantendo o restante da cena consistente.
  • Transformação de estilo: Converta o tratamento visual de um vídeo para um visual diferente, como line art ou outra estética ilustrada.
  • Criação de efeitos: Adicione ou altere um efeito visual específico com base em um prompt, como um ondular refletivo ou uma transformação de material.
  • Criação com base em referências: Combine diferentes materiais de origem, como texto, áudio e elementos visuais, em um único resultado gerado e coerente.
  • Narrativa conceitual: Use a base de conhecimento de mundo do modelo para criar vídeos que não sejam apenas fotorrealistas, mas também alinhados a uma ideia narrativa ou factual.

FAQ

Que tipos de entradas o Gemini Omni suporta? A página diz que ele pode funcionar com vídeo e também com referências de imagem, texto, vídeo ou áudio.

As edições podem ser feitas em várias etapas? Sim. A página enfatiza uma conversa natural, passo a passo, em que cada edição se baseia na anterior.

O Gemini Omni gera apenas vídeos novos? Não. A página destaca tanto a criação de vídeo quanto a edição de vídeos existentes por meio de prompts.

Onde ele pode ser testado? A página aponta para o Gemini e o Google Flow.

Alternativas

  • Editores de vídeo tradicionais sem IA: São melhores para controle preciso da linha do tempo, cortes, composição e edição manual quadro a quadro.
  • Outros modelos generativos de vídeo: Ferramentas semelhantes podem focar mais em geração de texto para vídeo e menos em edição iterativa baseada em conversa.
  • Modelos de geração de imagens com recursos de edição: São mais próximos de fluxos de trabalho de imagem estática e não foram projetados para continuidade de vídeo ao longo de várias interações.
  • Assistentes de IA de uso geral com ferramentas de mídia: Podem ajudar com prompts ou planejamento, mas não são especializados em transformação de vídeo e consistência da forma como o Gemini Omni é apresentado aqui.
Gemini Omni | UStack