UStackUStack
edit-mind icon

edit-mind

edit-mind est une plateforme d’IA vidéo local-first qui indexe transcriptions et scènes (visages/objets/texte) pour rechercher en langage naturel.

edit-mind

Qu'est-ce qu'Edit Mind ?

Edit Mind est une plateforme d’IA vidéo local-first qui indexe une bibliothèque vidéo et permet de rechercher le contenu vidéo en langage naturel. Elle traite les vidéos pour extraire des métadonnées telles que la transcription, les objets détectés et les visages, puis stocke ces informations pour des requêtes sémantiques.

L'objectif principal est de transformer un ensemble existant de vidéos en connaissances recherchables — couvrant les vidéos entières et, le cas échéant, des scènes spécifiques — tout en s'exécutant via Docker pour fonctionner sur n'importe quel ordinateur ou serveur disposant de Docker.

Fonctionnalités principales

  • Service d'indexation vidéo en arrière-plan : Surveille les nouveaux fichiers vidéo et les met en file d'attente pour une analyse alimentée par l'IA afin que votre bibliothèque reste à jour.
  • Analyse vidéo multi-modèles : Extrait des métadonnées incluant la reconnaissance faciale, la transcription, la détection d'objets & de texte, et l'analyse au niveau des scènes.
  • Recherche sémantique basée sur vecteurs (ChromaDB) : Prend en charge la recherche en langage naturel sur le contenu vidéo à l'aide d'embeddings stockés dans ChromaDB.
  • Exécution locale avec Docker : S'exécute en tant que services conteneurisés via Docker Compose pour un déploiement modulaire sur différentes machines.
  • Options de modèles pour le traitement IA/NLP : Utilise Whisper pour la transcription et permet de choisir entre Google Gemini ou localement via Ollama (par configuration).

Comment utiliser Edit Mind

  1. Installer et lancer Docker Desktop (ou s'assurer que Docker est disponible sur votre serveur).
  2. Cloner le dépôt et suivre le flux de configuration fourni.
  3. Exposer votre dossier média à Docker en configurant le partage de fichiers Docker Desktop (macOS/Windows). Sur Linux, le partage de fichiers est généralement activé par défaut.
  4. Créer les fichiers d'environnement : Télécharger/copier .env.example et .env.system.example en .env et .env.system, puis configurer les paramètres requis.
  5. Définir le chemin du dossier vidéo (HOST_MEDIA_PATH) et choisir votre option de modèle IA :
    • Ollama : définir USE_OLLAMA_MODEL, plus OLLAMA_HOST, OLLAMA_PORT et OLLAMA_MODEL (et lancer ollama serve / télécharger le modèle au préalable).
    • Gemini : définir USE_GEMINI et fournir GEMINI_API_KEY.
  6. Générer les clés de sécurité : Définir ENCRYPTION_KEY et SESSION_SECRET à l'aide des commandes indiquées dans le guide de configuration.
  7. Démarrer la pile Docker Compose (le dépôt fournit un fichier compose standard et un autre orienté CUDA pour les GPU NVIDIA).

Cas d'usage

  • Rechercher par mots parlés : Interroger votre bibliothèque avec des phrases que vous vous rappelez de l'audio, en s'appuyant sur la transcription extraite des vidéos.
  • Trouver des vidéos contenant des objets spécifiques ou du texte à l'écran : Utiliser des requêtes en langage naturel liées aux sorties de détection d'objets & de texte générées lors de l'indexation.
  • Localiser des scènes avec des visages connus : Utiliser les métadonnées issues de la reconnaissance faciale pour affiner les résultats sur les vidéos ou scènes où des personnes apparaissent.
  • Curater et naviguer dans de grandes archives personnelles : Maintenir automatiquement les métadonnées à jour lors de l'ajout de nouveaux fichiers vidéo, puis rechercher sans étiquetage manuel.
  • Exécuter dans un environnement local axé sur la confidentialité : Indexer et rechercher entièrement sur votre propre machine (ou serveur) via Docker plutôt que via un workflow hébergé.

FAQ

  • Edit Mind est-il prêt pour la production ? Le dépôt indique qu'il est en développement actif et pas encore prêt pour la production, avec des fonctionnalités incomplètes et des bugs occasionnels attendus.

  • Edit Mind nécessite-t-il Docker ? Oui. Les instructions de configuration spécifient Docker Compose pour exécuter tout en conteneurs.

  • Quelles options IA sont prises en charge pour le traitement ? La documentation mentionne Whisper pour la transcription et prend en charge soit Google Gemini, soit Ollama pour les tâches liées au NLP, sélectionnées via les variables d'environnement.

  • Comment connecter le système à mes fichiers vidéo ? Configurer Docker pour accéder à votre dossier média (partage de fichiers Docker Desktop sur macOS/Windows) et définir HOST_MEDIA_PATH dans le fichier .env pour correspondre à ce chemin de dossier.

  • Où résident les données de recherche sémantique ? La pile inclut ChromaDB pour la recherche sémantique basée sur vecteurs et PostgreSQL (via Prisma ORM) comme base de données relationnelle.

Alternatives

  • Plateformes de recherche vidéo hébergées dans le cloud : Elles centralisent généralement le traitement sur une infrastructure hébergée. Par rapport à l’approche local-first Docker d’Edit Mind, elles échangent souvent confidentialité/contrôle contre une configuration plus simple.
  • Outils de gestion multimédia de bureau avec étiquetage manuel : Certains outils permettent d’organiser les vidéos via des étiquettes et métadonnées saisies par l’utilisateur. Ils diffèrent en ce qu’ils ne réalisent pas de transcription basée sur l’IA ni d’extraction d’objets/visages pour une recherche sémantique.
  • Pipelines d’auto-hébergement transcription + recherche : Vous pouvez créer un workflow qui transcrit la vidéo puis indexe le texte pour la recherche. Cela diffère d’Edit Mind en se concentrant plus étroitement sur l’audio/texte plutôt que sur l’analyse multi-modale (visages/objets/scènes) et l’interrogation sémantique intégrée.
  • Applications générales de recherche en base de données vectorielle : Vous pourriez utiliser des embeddings et une base vectorielle pour implémenter une recherche sémantique, mais vous devriez gérer vous-même l’ingestion vidéo, l’extraction multi-modale et la liaison au niveau scène — un travail qu’Edit Mind intègre dans son pipeline.