UStackUStack
edit-mind icon

edit-mind

edit-mindはローカルファーストのAI動画インテリジェンス。文字起こし・顔/物体/テキスト分析と埋め込みで自然言語検索できます。

edit-mind

Edit Mindとは?

Edit Mindは、ローカルファーストのAI動画インテリジェンスプラットフォームです。動画ライブラリをインデックス化し、自然言語で動画コンテンツを検索できます。動画を処理して文字起こし、検出された物体、顔などのメタデータを抽出・保存し、セマンティッククエリに対応します。

主な目的は、既存の動画セットを検索可能な知識に変えることです。全体の動画や該当する場合の特定シーンを対象に、Docker経由で動作し、Dockerがインストールされた任意のコンピューターやサーバーで利用可能です。

主な機能

  • バックグラウンド動画インデックスサービス: 新しい動画ファイルを監視し、AI分析のキューに追加してライブラリを最新状態に保ちます。
  • マルチモデル動画分析: 顔認識、文字起こし、物体・テキスト検出、シーン単位分析を含むメタデータを抽出します。
  • ベクター基盤セマンティック検索 (ChromaDB): ChromaDBに保存された埋め込みで動画コンテンツを自然言語検索します。
  • Dockerによるローカル実行: Docker Composeでコンテナ化されたサービスとして動作し、セットアップをモジュール化・多機種展開可能にします。
  • AI/NLP処理のモデルオプション: 文字起こしにWhisperを使用し、Google GeminiまたはOllama(設定によるローカル実行)を選択可能です。

Edit Mindの使い方

  1. Docker Desktopをインストール・実行(またはサーバーでDockerが利用可能か確認)。
  2. リポジトリをクローンし、提供されたセットアップフローを実行。
  3. メディアフォルダをDockerに公開:Docker Desktopのファイル共有を設定(macOS/Windows)。Linuxでは通常デフォルトで有効。
  4. 環境ファイルを作成: .env.example.env.system.example.envおよび.env.systemにダウンロード/コピーし、必要な設定を構成。
  5. 動画フォルダパスを設定 (HOST_MEDIA_PATH)し、AIモデルを選択:
    • Ollama: USE_OLLAMA_MODELを設定し、OLLAMA_HOSTOLLAMA_PORTOLLAMA_MODELを指定(ollama serve実行/モデルpullを事前に行う)。
    • Gemini: USE_GEMINIを設定し、GEMINI_API_KEYを入力。
  6. セキュリティキーを生成: セットアップガイドのコマンドでENCRYPTION_KEYSESSION_SECRETを設定。
  7. Docker Composeスタックを起動(リポジトリに標準composeファイルとNVIDIA GPU向けCUDA版を提供)。

ユースケース

  • 話し言葉で検索: 音声から抽出された文字起こしで、覚えているフレーズでライブラリをクエリ。
  • 特定物体や画面テキストを含む動画を検索: インデックス時の物体・テキスト検出結果に基づく自然言語クエリ。
  • 既知の顔が登場するシーンを特定: 顔認識由来のメタデータで動画やシーンを絞り込み。
  • 大規模個人アーカイブの整理・ナビゲーション: 新規動画追加時にメタデータを自動更新し、手動タグ付けなしで検索。
  • プライバシー重視のローカル環境で実行: Docker経由で自身のマシン(またはサーバー)上でインデックス・検索し、ホスト型ワークフローを不要に。

FAQ

  • Edit Mindは本番運用可能ですか? リポジトリではアクティブ開発中で本番運用未対応と明記。不完全な機能やバグが発生する可能性があります。

  • Edit MindはDockerが必要ですか? はい。セットアップ手順でDocker Composeによるコンテナ実行を指定しています。

  • 処理にサポートされるAIオプションは? ドキュメントで文字起こしにWhisper、NLP関連タスクにGoogle GeminiまたはOllamaを環境変数で選択可能と記載。

  • システムを動画ファイルに接続する方法は? Dockerでメディアフォルダにアクセス設定(macOS/WindowsのDocker Desktopファイル共有)し、.envHOST_MEDIA_PATHをフォルダパスに合わせる。

  • セマンティック検索データはどこに保存? スタックにベクター検索用のChromaDBとリレーショナルDBとしてPostgreSQL(Prisma ORM経由)を含みます。

代替案

  • クラウドホスト型動画検索プラットフォーム: これらは通常、ホストされたインフラで処理を集中化します。Edit MindのローカルファーストDockerアプローチに比べ、プライバシー/制御を簡単なセットアップと引き換えにしています。
  • 手動タグ付け付きデスクトップメディア管理ツール: 一部のツールはユーザー入力のタグとメタデータで動画を整理できます。AIベースの文字起こし/物体/顔抽出によるセマンティック検索を行わない点が異なります。
  • セルフホスト型文字起こし + 検索パイプライン: 動画を文字起こししてテキストをインデックス化するワークフローを構築できます。Edit Mindとは異なり、オーディオ/テキストに特化し、マルチモーダル分析(顔/物体/シーン)や統合セマンティッククエリを備えていません。
  • 汎用ベクトルデータベース検索アプリ: エンベディングとベクトルデータベースでセマンティック検索を実装できますが、動画取り込み、マルチモーダル抽出、シーン連結を自分で扱う必要があります—Edit Mindがパイプラインにまとめている作業です。