UStackUStack
edit-mind icon

edit-mind

Edit Mind é uma plataforma local-first de inteligência de vídeo com transcrição, análise de faces/objetos/texto e embeddings para busca por linguagem natural.

edit-mind

O que é Edit Mind?

Edit Mind é uma plataforma local-first de inteligência de vídeo que indexa uma biblioteca de vídeos e permite buscar conteúdo de vídeo usando linguagem natural. Ela processa vídeos para extrair metadados como transcrição, objetos detectados e faces, armazenando essas informações para consultas semânticas.

O propósito principal é transformar um conjunto existente de vídeos em conhecimento pesquisável — cobrindo vídeos inteiros e, quando aplicável, cenas específicas — rodando via Docker para funcionar em qualquer computador ou servidor com Docker instalado.

Principais Recursos

  • Serviço de indexação de vídeo em segundo plano: Monitora novos arquivos de vídeo e os coloca em fila para análise com IA, mantendo sua biblioteca atualizada.
  • Análise de vídeo multi-modelo: Extrai metadados incluindo reconhecimento facial, transcrição, detecção de objetos & texto e análise em nível de cena.
  • Busca semântica baseada em vetores (ChromaDB): Suporta busca por linguagem natural sobre conteúdo de vídeo usando embeddings armazenados no ChromaDB.
  • Execução local com Docker: Executa como serviços containerizados usando Docker Compose para manter a configuração modular e implantável em diferentes máquinas.
  • Opções de modelo para processamento AI/NLP: Usa Whisper para transcrição e suporta escolha entre Google Gemini ou localmente via Ollama (por configuração).

Como Usar Edit Mind

  1. Instale e execute o Docker Desktop (ou garanta que o Docker esteja disponível no seu servidor).
  2. Clone o repositório e execute pelo fluxo de configuração fornecido.
  3. Exponha sua pasta de mídia ao Docker configurando o compartilhamento de arquivos do Docker Desktop (macOS/Windows). No Linux, o compartilhamento de arquivos geralmente está ativado por padrão.
  4. Crie arquivos de ambiente: Baixe/copie .env.example e .env.system.example para .env e .env.system, depois configure as definições necessárias.
  5. Defina o caminho da pasta de vídeo (HOST_MEDIA_PATH) e escolha sua opção de modelo de IA:
    • Ollama: defina USE_OLLAMA_MODEL, mais OLLAMA_HOST, OLLAMA_PORT e OLLAMA_MODEL (e execute ollama serve / baixe o modelo primeiro).
    • Gemini: defina USE_GEMINI e forneça GEMINI_API_KEY.
  6. Gere chaves de segurança: Defina ENCRYPTION_KEY e SESSION_SECRET usando os comandos mostrados no guia de configuração.
  7. Inicie o stack Docker Compose (o repositório fornece tanto um arquivo compose padrão quanto um otimizado para CUDA em GPUs NVIDIA).

Casos de Uso

  • Busca por palavras faladas: Consulte sua biblioteca com frases que você lembra do áudio, contando com a transcrição extraída dos vídeos.
  • Encontre vídeos com objetos específicos ou texto na tela: Use consultas em linguagem natural ligadas às saídas de detecção de objetos & texto geradas durante a indexação.
  • Localize cenas com faces conhecidas: Use metadados derivados de reconhecimento facial para refinar resultados em vídeos ou cenas onde pessoas aparecem.
  • Curate e navegue por grandes arquivos pessoais: Mantenha metadados atualizados automaticamente à medida que novos arquivos de vídeo são adicionados, depois busque sem marcação manual.
  • Execute em ambiente local focado em privacidade: Indexe e busque inteiramente na sua própria máquina (ou servidor) via Docker, em vez de exigir um fluxo hospedado.

FAQ

  • Edit Mind está pronto para produção? O repositório afirma que está em desenvolvimento ativo e ainda não está pronto para produção, com expectativa de recursos incompletos e bugs ocasionais.

  • Edit Mind requer Docker? Sim. As instruções de configuração especificam Docker Compose para executar tudo em contêineres.

  • Quais opções de IA são suportadas para processamento? A documentação menciona Whisper para transcrição e suporta Google Gemini ou Ollama para tarefas relacionadas a NLP, selecionadas via variáveis de ambiente.

  • Como conecto o sistema aos meus arquivos de vídeo? Configure o Docker para acessar sua pasta de mídia (compartilhamento de arquivos do Docker Desktop em macOS/Windows) e defina HOST_MEDIA_PATH no arquivo .env para corresponder ao caminho da pasta.

  • Onde ficam os dados de busca semântica? O stack inclui ChromaDB para busca semântica baseada em vetores e PostgreSQL (via Prisma ORM) como banco de dados relacional.

Alternativas

  • Plataformas de busca de vídeo hospedadas na nuvem: Elas geralmente centralizam o processamento em infraestrutura hospedada. Comparadas à abordagem local-first com Docker do Edit Mind, podem trocar privacidade/controle por configuração mais simples.
  • Ferramentas de gerenciamento de mídia desktop com marcação manual: Algumas ferramentas permitem organizar vídeos via tags e metadados inseridos pelo usuário. Elas diferem por não realizarem transcrição baseada em IA/extratação de objetos/faces para busca semântica.
  • Pipelines de transcrição + busca auto-hospedadas: Você pode criar um fluxo de trabalho que transcreve vídeo e indexa texto para busca. Isso difere do Edit Mind por focar mais estreitamente em áudio/texto em vez de análise multi-modal (faces/objetos/cenas) e consulta semântica integrada.
  • Aplicativos gerais de busca em banco de dados vetorial: Você poderia usar embeddings e um banco de dados vetorial para implementar busca semântica, mas precisaria lidar com ingestão de vídeo, extração multi-modal e vinculação em nível de cena sozinho — trabalho que o Edit Mind empacota em seu pipeline.