UStackUStack
edit-mind icon

edit-mind

edit-mind 本地優先 AI 影片情報平台,索引影片轉寫、臉部/物件/文字分析與語意嵌入,支援用自然語言搜尋影片內容。

edit-mind

什麼是 Edit Mind?

Edit Mind 是一個本地優先 AI 影片情報平台,能索引影片庫,並讓你用自然語言搜尋影片內容。它處理影片以擷取轉寫、偵測物件與臉部等中繼資料,然後儲存這些資訊以供語意查詢。

核心目的是將現有影片集轉換為可搜尋知識——涵蓋整部影片及特定場景(若適用)——透過 Docker 執行,可在任何安裝 Docker 的電腦或伺服器上運作。

主要功能

  • 背景影片索引服務:監控新影片檔案並排入 AI 分析佇列,讓你的影片庫保持最新。
  • 多模型影片分析:擷取臉部辨識、轉寫、物件與文字偵測,以及場景層級分析等中繼資料。
  • 基於向量語意搜尋 (ChromaDB):支援使用儲存於 ChromaDB 的嵌入向量,以自然語言搜尋影片內容。
  • 使用 Docker 本地執行:以 Docker Compose 作為容器化服務執行,保持模組化設定,並可在不同機器部署。
  • AI/NLP 處理模型選項:使用 Whisper 進行轉寫,並支援選擇 Google Gemini 或透過 Ollama 本地執行(依設定)。

如何使用 Edit Mind

  1. 安裝並執行 Docker Desktop(或確保伺服器上有 Docker)。
  2. 複製儲存庫並執行提供的設定流程。
  3. 將媒體資料夾暴露給 Docker,透過設定 Docker Desktop 檔案分享(macOS/Windows)。在 Linux 上,檔案分享通常預設啟用。
  4. 建立環境檔案:下載/複製 .env.example.env.system.example.env.env.system,然後設定必要參數。
  5. 設定影片資料夾路徑HOST_MEDIA_PATH)並選擇 AI 模型:
    • Ollama:設定 USE_OLLAMA_MODEL,加上 OLLAMA_HOSTOLLAMA_PORTOLLAMA_MODEL(需先執行 ollama serve / 下載模型)。
    • Gemini:設定 USE_GEMINI 並提供 GEMINI_API_KEY
  6. 產生安全性金鑰:使用設定指南中的指令設定 ENCRYPTION_KEYSESSION_SECRET
  7. 啟動 Docker Compose 堆疊(儲存庫提供標準 compose 檔案及適用 NVIDIA GPU 的 CUDA 版本)。

使用情境

  • 依口述詞彙搜尋:使用從影片擷取的轉寫,以你記得的音訊片語查詢影片庫。
  • 找出含特定物件或螢幕文字的影片:使用索引期間產生的物件與文字偵測輸出,搭配自然語言查詢。
  • 定位含已知臉部的場景:使用臉部辨識中繼資料,縮小範圍至人物出現的影片或場景。
  • 整理與導航大型個人檔案:自動在新增影片檔案時更新中繼資料,無需手動標記即可搜尋。
  • 在注重隱私的本地環境執行:透過 Docker 在自家機器(或伺服器)上完整索引與搜尋,而非依賴雲端工作流程。

常見問題

  • Edit Mind 是否適合正式環境? 儲存庫表示目前處於積極開發中,未達正式環境就緒,可能有未完成功能與偶發錯誤。

  • Edit Mind 需要 Docker 嗎? 是的。設定說明指定使用 Docker Compose 以容器方式執行所有元件。

  • 支援哪些 AI 處理選項? 文件提及使用 Whisper 進行轉寫,並支援 Google Gemini 或 Ollama 處理 NLP 相關任務,透過環境變數選擇。

  • 如何連接系統至我的影片檔案? 設定 Docker 存取媒體資料夾(macOS/Windows 上使用 Docker Desktop 檔案分享),並在 .env 檔案中將 HOST_MEDIA_PATH 設為對應資料夾路徑。

  • 語意搜尋資料儲存在哪裡? 堆疊包含 ChromaDB 用於基於向量的語意搜尋,以及 PostgreSQL(透過 Prisma ORM)作為關聯式資料庫。

替代方案

  • 雲端託管影片搜尋平台:這些通常將處理集中於託管基礎設施上。相較於 Edit Mind 的本地優先 Docker 方式,它們可能以隱私/控制權交換更簡單的設定。
  • 具手動標記的桌面媒體管理工具:有些工具讓您透過使用者輸入的標記和中繼資料來組織影片。它們的差異在於不執行基於 AI 的轉寫/物件/臉部萃取,用於語意搜尋。
  • 自託管轉寫 + 搜尋流程:您可以建置一個轉寫影片並索引文字以供搜尋的工作流程。這與 Edit Mind 的差異在於更狹隘地聚焦音訊/文字,而非多模態分析(臉部/物件/場景)與整合語意查詢。
  • 通用向量資料庫搜尋應用程式:您可以使用嵌入與向量資料庫來實作語意搜尋,但需自行處理影片擷取、多模態萃取與場景層級連結——這些是 Edit Mind 在其流程中已封裝的工作。