UStackUStack
edit-mind icon

edit-mind

edit-mind è una piattaforma AI video local-first che indicizza video con trascrizione, volti/oggetti/testo ed embeddings per cercare con linguaggio naturale.

edit-mind

Cos'è Edit Mind?

Edit Mind è una piattaforma AI video local-first che indicizza una libreria di video e permette di cercare il contenuto video usando linguaggio naturale. Elabora i video per estrarre metadati come trascrizioni, oggetti rilevati e volti, quindi memorizza queste informazioni per query semantiche.

Lo scopo principale è trasformare un insieme esistente di video in conoscenza ricercabile — coprendo video interi e, dove applicabile, scene specifiche — eseguendosi tramite Docker per funzionare su qualsiasi computer o server con Docker installato.

Caratteristiche Principali

  • Servizio di indicizzazione video in background: Monitora nuovi file video e li mette in coda per analisi AI-powered, così la tua libreria resta aggiornata.
  • Analisi video multi-modello: Estrae metadati inclusi riconoscimento facciale, trascrizione, rilevamento oggetti & testo e analisi a livello di scena.
  • Ricerca semantica basata su vettori (ChromaDB): Supporta ricerca in linguaggio naturale sul contenuto video usando embeddings memorizzati in ChromaDB.
  • Esecuzione locale con Docker: Gira come servizi containerizzati usando Docker Compose per mantenere il setup modulare e deployable su diverse macchine.
  • Opzioni di modelli per elaborazione AI/NLP: Usa Whisper per la trascrizione e supporta la scelta tra Google Gemini o localmente via Ollama (per configurazione).

Come Usare Edit Mind

  1. Installa e avvia Docker Desktop (o assicurati che Docker sia disponibile sul tuo server).
  2. Clona il repository e avvia il flusso di setup fornito.
  3. Esponi la tua cartella media a Docker configurando la condivisione file di Docker Desktop (macOS/Windows). Su Linux, la condivisione file è tipicamente abilitata di default.
  4. Crea i file di ambiente: Scarica/copia .env.example e .env.system.example in .env e .env.system, poi configura le impostazioni richieste.
  5. Imposta il percorso della cartella video (HOST_MEDIA_PATH) e scegli la tua opzione di modello AI:
    • Ollama: imposta USE_OLLAMA_MODEL, più OLLAMA_HOST, OLLAMA_PORT e OLLAMA_MODEL (e avvia ollama serve / scarica il modello prima).
    • Gemini: imposta USE_GEMINI e fornisci GEMINI_API_KEY.
  6. Genera chiavi di sicurezza: Imposta ENCRYPTION_KEY e SESSION_SECRET usando i comandi mostrati nella guida di setup.
  7. Avvia lo stack Docker Compose (il repo fornisce sia un file compose standard che uno orientato a CUDA per GPU NVIDIA).

Casi d'Uso

  • Cerca per parole parlate: Interroga la tua libreria con frasi che ricordi dall'audio, basandoti sulla trascrizione estratta dai video.
  • Trova video con oggetti specifici o testo a schermo: Usa query in linguaggio naturale legate agli output di rilevamento oggetti & testo generati durante l'indicizzazione.
  • Individua scene con volti noti: Usa metadati derivati dal riconoscimento facciale per restringere i risultati a video o scene dove appaiono persone.
  • Cura e naviga grandi archivi personali: Mantiene automaticamente i metadati aggiornati man mano che vengono aggiunti nuovi file video, poi cerca senza tagging manuale.
  • Esegui in un ambiente locale privacy-focused: Indicizza e cerca interamente sulla tua macchina (o server) tramite Docker invece di richiedere un workflow hosted.

FAQ

  • Edit Mind è pronto per la produzione? Il repository specifica che è in sviluppo attivo e non ancora pronto per la produzione, con aspettative di funzionalità incomplete e bug occasionali.

  • Edit Mind richiede Docker? Sì. Le istruzioni di setup specificano Docker Compose per eseguire tutto in container.

  • Quali opzioni AI sono supportate per l'elaborazione? La documentazione menziona Whisper per la trascrizione e supporta sia Google Gemini che Ollama per i task NLP-related, selezionati via variabili d'ambiente.

  • Come collego il sistema ai miei file video? Configura Docker per accedere alla tua cartella media (condivisione file di Docker Desktop su macOS/Windows) e imposta HOST_MEDIA_PATH nel file .env per far corrispondere quel percorso cartella.

  • Dove risiedono i dati di ricerca semantica? Lo stack include ChromaDB per la ricerca semantica basata su vettori e PostgreSQL (via Prisma ORM) come database relazionale.

Alternative

  • Piattaforme cloud-hosted per la ricerca video: Centralizzano tipicamente l'elaborazione su infrastruttura hosted. Rispetto all'approccio local-first Docker di edit-mind, scambiano privacy/controllo per una configurazione più semplice.
  • Strumenti desktop per la gestione media con tagging manuale: Alcuni tool permettono di organizzare video tramite tag e metadati inseriti dall'utente. Differiscono perché non eseguono trascrizione AI-based/estrazione oggetti/voli per ricerca semantica.
  • Pipeline self-hosted di trascrizione + ricerca: Puoi creare un workflow che trascrive video e indicizza testo per la ricerca. Differisce da edit-mind focalizzandosi più strettamente su audio/testo anziché analisi multi-modale (volti/oggetti/scene) e query semantica integrata.
  • App generali di ricerca su database vettoriali: Potresti usare embeddings e un database vettoriale per implementare ricerca semantica, ma dovresti gestire tu ingestione video, estrazione multi-modale e linkage a livello scena—lavoro che edit-mind include nella sua pipeline.