UStackUStack
Gemini Omni icon

Gemini Omni

Gemini Omni 是一款可透過自然語言提示創建與編輯影片的 Gemini 模型,支援逐步修改,並可依影片、圖片、文字或音訊參考進行轉換。

Gemini Omni

Gemini Omni 是什麼?

Gemini Omni 是一款可透過自然語言提示創建與編輯影片的 Gemini 模型。頁面將其描述為一個可接收影片、圖片、文字或音訊參考並產生單一連貫輸出的系統,強調迭代式編輯與多輪一致性。

它被定位為 Gemini 的推理與世界理解能力結合創作的模型。根據頁面說明,它旨在支援基於先前指令的修改、變更場景的外觀或動作,並在生成或轉換內容時套用現實世界知識。

主要功能

  • 多輪影片編輯: 使用者可透過逐步對話精修影片,每次修改都建立在前一次基礎上,讓場景保持連貫。
  • 自然語言轉換: 提示詞可在不手動編輯時間軸的情況下,改變現有影片的美感、動作或效果。
  • 參考到輸出流程: 模型可將圖片、文字、影片或音訊作為輸入參考,並轉換成單一輸出。
  • 具世界知識感知的生成: 頁面指出 Gemini Omni 結合了物理理解與 Gemini 的歷史、科學和文化知識,以支援更有意義的輸出。
  • 可透過 Gemini 和 Google Flow 使用: 頁面多次引導使用者在 Gemini 或 Google Flow 中試用。

如何使用 Gemini Omni

先提供影片或其他參考,例如圖片、文字提示或音訊。接著用簡單明瞭的語言描述你想要的變更,必要時再透過後續提示持續微調。頁面也提供提示指引,協助想要整理需求的使用者。

使用情境

  • 透過對話編輯場景: 分階段調整現有影片,例如更換物件、效果或動作,同時維持場景其他部分一致。
  • 風格轉換: 將影片的視覺表現轉換成不同風格,例如線條畫或其他插畫式美感。
  • 效果設計: 根據提示新增或調整特定視覺效果,例如反射波紋或材質變化。
  • 基於參考的創作: 將不同來源素材,如文字、音訊與視覺內容,整合成一個連貫的生成結果。
  • 概念敘事: 運用模型的世界知識基礎,創作不僅寫實,且符合敘事或事實概念的影片。

常見問題

Gemini Omni 支援哪些類型的輸入?
頁面說明它可處理影片,並可參考圖片、文字、影片或音訊輸入。

可以分多步進行編輯嗎?
可以。頁面強調自然、逐步的對話方式,每次編輯都建立在前一次之上。

Gemini Omni 只會生成新影片嗎?
不是。頁面同時強調影片創作,以及透過提示編輯既有影片。

可以在哪裡試用?
頁面指向 Gemini 和 Google Flow。

替代方案

  • 傳統非 AI 影片編輯器: 更適合精準時間軸控制、剪裁、合成與逐格手動編輯。
  • 其他生成式影片模型: 類似工具可能更專注於文字生成影片,而較少著重於迭代式、對話式編輯。
  • 具編輯功能的圖像生成模型: 這類工具較接近靜態圖片工作流程,並非為多輪影片連貫性而設計。
  • 具媒體工具的通用型 AI 助手: 這些工具可能有助於提示或規劃,但不像此處所述的 Gemini Omni 那樣專為影片轉換與一致性設計。
Gemini Omni | UStack