UStackUStack
Gemini Omni icon

Gemini Omni

Gemini Omni 是一款用于通过自然语言提示创建和编辑视频的 Gemini 模型,支持分步骤修改,可基于视频、图片、文本或音频参考进行生成。

Gemini Omni

什么是 Gemini Omni?

Gemini Omni 是一款通过自然语言提示创建和编辑视频的 Gemini 模型。页面将其呈现为一个系统,可接收输入视频、图片、文本或音频参考,并生成单一连贯的输出,强调迭代式编辑以及跨多轮保持一致性。

它被定位为 Gemini 的推理与世界理解能力和创作能力的结合体。根据页面说明,它旨在支持基于先前指令继续修改、改变场景的外观或动作,并在生成或转换内容时应用现实世界知识。

主要功能

  • 多轮视频编辑: 用户可通过分步骤对话逐步优化视频,每次修改都建立在上一次基础上,以保持场景连贯。
  • 自然语言转换: 提示词可改变现有视频的美感、动作或效果,无需手动编辑时间轴。
  • 参考到输出工作流: 该模型可将图片、文本、视频或音频作为输入参考,并将其转化为单一输出。
  • 具备世界知识感知的生成: 页面称 Gemini Omni 结合了物理理解以及 Gemini 的历史、科学和文化知识,以支持更有意义的输出。
  • 可通过 Gemini 和 Google Flow 使用: 页面多次引导用户在 Gemini 或 Google Flow 中尝试。

如何使用 Gemini Omni

先提供一个视频,或图片、文本提示、音频等其他参考内容。然后用通俗语言描述你想要的修改,如有需要,再通过后续提示继续优化。页面还链接了提示词指南,帮助用户更好地组织请求。

使用场景

  • 通过对话编辑场景: 分阶段调整现有视频,例如更改物体、效果或动作,同时保持场景其他部分一致。
  • 风格转换: 将视频的视觉表现转换为不同风格,例如线稿或其他插画风格。
  • 效果设计: 根据提示添加或调整特定视觉效果,例如反射涟漪或材质变化。
  • 基于参考内容创作: 将文本、音频和视觉内容等不同源材料结合为一个连贯的生成结果。
  • 概念叙事: 利用模型的世界知识基础来创建不仅逼真,而且与叙事或事实概念一致的视频。

常见问题

Gemini Omni 支持哪些类型的输入?
页面说明它可基于视频工作,也可参考图片、文本、视频或音频输入。

可以分多步进行编辑吗?
可以。页面强调自然的分步骤对话,每次编辑都建立在前一次基础上。

Gemini Omni 只生成新视频吗?
不是。页面同时强调视频创作和通过提示编辑现有视频。

可以在哪里体验?
页面指向 Gemini 和 Google Flow。

替代方案

  • 传统非 AI 视频编辑器: 更适合精确的时间轴控制、裁剪、合成和逐帧手动编辑。
  • 其他生成式视频模型: 类似工具可能更侧重文本生成视频,而较少支持迭代式、对话式编辑。
  • 带编辑功能的图像生成模型: 这类工具更接近静态图像工作流,不适用于多轮视频连续性设计。
  • 带媒体工具的通用 AI 助手: 这类工具可帮助处理提示词或规划,但并非像此处所示的 Gemini Omni 那样专为视频转换和一致性而设计。
Gemini Omni | UStack