edit-mind
edit-mindはローカルファーストのAI動画インテリジェンス。文字起こし・顔/物体/テキスト分析と埋め込みで自然言語検索できます。
Edit Mindとは?
Edit Mindは、ローカルファーストのAI動画インテリジェンスプラットフォームです。動画ライブラリをインデックス化し、自然言語で動画コンテンツを検索できます。動画を処理して文字起こし、検出された物体、顔などのメタデータを抽出・保存し、セマンティッククエリに対応します。
主な目的は、既存の動画セットを検索可能な知識に変えることです。全体の動画や該当する場合の特定シーンを対象に、Docker経由で動作し、Dockerがインストールされた任意のコンピューターやサーバーで利用可能です。
主な機能
- バックグラウンド動画インデックスサービス: 新しい動画ファイルを監視し、AI分析のキューに追加してライブラリを最新状態に保ちます。
- マルチモデル動画分析: 顔認識、文字起こし、物体・テキスト検出、シーン単位分析を含むメタデータを抽出します。
- ベクター基盤セマンティック検索 (ChromaDB): ChromaDBに保存された埋め込みで動画コンテンツを自然言語検索します。
- Dockerによるローカル実行: Docker Composeでコンテナ化されたサービスとして動作し、セットアップをモジュール化・多機種展開可能にします。
- AI/NLP処理のモデルオプション: 文字起こしにWhisperを使用し、Google GeminiまたはOllama(設定によるローカル実行)を選択可能です。
Edit Mindの使い方
- Docker Desktopをインストール・実行(またはサーバーでDockerが利用可能か確認)。
- リポジトリをクローンし、提供されたセットアップフローを実行。
- メディアフォルダをDockerに公開:Docker Desktopのファイル共有を設定(macOS/Windows)。Linuxでは通常デフォルトで有効。
- 環境ファイルを作成:
.env.exampleと.env.system.exampleを.envおよび.env.systemにダウンロード/コピーし、必要な設定を構成。 - 動画フォルダパスを設定 (
HOST_MEDIA_PATH)し、AIモデルを選択:- Ollama:
USE_OLLAMA_MODELを設定し、OLLAMA_HOST、OLLAMA_PORT、OLLAMA_MODELを指定(ollama serve実行/モデルpullを事前に行う)。 - Gemini:
USE_GEMINIを設定し、GEMINI_API_KEYを入力。
- Ollama:
- セキュリティキーを生成: セットアップガイドのコマンドで
ENCRYPTION_KEYとSESSION_SECRETを設定。 - Docker Composeスタックを起動(リポジトリに標準composeファイルとNVIDIA GPU向けCUDA版を提供)。
ユースケース
- 話し言葉で検索: 音声から抽出された文字起こしで、覚えているフレーズでライブラリをクエリ。
- 特定物体や画面テキストを含む動画を検索: インデックス時の物体・テキスト検出結果に基づく自然言語クエリ。
- 既知の顔が登場するシーンを特定: 顔認識由来のメタデータで動画やシーンを絞り込み。
- 大規模個人アーカイブの整理・ナビゲーション: 新規動画追加時にメタデータを自動更新し、手動タグ付けなしで検索。
- プライバシー重視のローカル環境で実行: Docker経由で自身のマシン(またはサーバー)上でインデックス・検索し、ホスト型ワークフローを不要に。
FAQ
-
Edit Mindは本番運用可能ですか? リポジトリではアクティブ開発中で本番運用未対応と明記。不完全な機能やバグが発生する可能性があります。
-
Edit MindはDockerが必要ですか? はい。セットアップ手順でDocker Composeによるコンテナ実行を指定しています。
-
処理にサポートされるAIオプションは? ドキュメントで文字起こしにWhisper、NLP関連タスクにGoogle GeminiまたはOllamaを環境変数で選択可能と記載。
-
システムを動画ファイルに接続する方法は? Dockerでメディアフォルダにアクセス設定(macOS/WindowsのDocker Desktopファイル共有)し、
.envのHOST_MEDIA_PATHをフォルダパスに合わせる。 -
セマンティック検索データはどこに保存? スタックにベクター検索用のChromaDBとリレーショナルDBとしてPostgreSQL(Prisma ORM経由)を含みます。
代替案
- クラウドホスト型動画検索プラットフォーム: これらは通常、ホストされたインフラで処理を集中化します。Edit MindのローカルファーストDockerアプローチに比べ、プライバシー/制御を簡単なセットアップと引き換えにしています。
- 手動タグ付け付きデスクトップメディア管理ツール: 一部のツールはユーザー入力のタグとメタデータで動画を整理できます。AIベースの文字起こし/物体/顔抽出によるセマンティック検索を行わない点が異なります。
- セルフホスト型文字起こし + 検索パイプライン: 動画を文字起こししてテキストをインデックス化するワークフローを構築できます。Edit Mindとは異なり、オーディオ/テキストに特化し、マルチモーダル分析(顔/物体/シーン)や統合セマンティッククエリを備えていません。
- 汎用ベクトルデータベース検索アプリ: エンベディングとベクトルデータベースでセマンティック検索を実装できますが、動画取り込み、マルチモーダル抽出、シーン連結を自分で扱う必要があります—Edit Mindがパイプラインにまとめている作業です。
代替品
Wikiwand
ユーザーがウィキペディアを利用する際の体験を向上させるために、知識の消費を効率化するAI駆動のウィキ集約ツールです。
Struere
Struereはスプレッドシートの運用を置き換えるAIネイティブな業務OS。ダッシュボード、アラート、オートメーションで一元化。
garden-md
会議の文字起こしをローカルMarkdownで構造化し、HTMLブラウザ表示の会社wikiを作成。対応ソースから同期可能。
Falconer
Falconerは、スピード重視のチーム向けの自己更新ナレッジ基盤。社内ドキュメントとコード文脈を一元化して共有・検索できます。
ClayHog
ClayHogはChatGPT・Gemini・Perplexity・Claude・Google AI Overviewsでのブランド言及を可視化。表示・感情・引用・競合比較も追跡。
Grok AI Assistant
GrokはxAIによって開発された無料のAIアシスタントであり、真実性と客観性を優先するように設計されており、リアルタイム情報アクセスや画像生成などの高度な機能を提供します。