UStackUStack
edit-mind icon

edit-mind

edit-mind — local-first платформа ИИ для видео: индексация с расшифровкой, лицами/объектами/текстом и семантическими эмбеддингами, поиск по смыслу.

edit-mind

Что такое Edit Mind?

Edit Mind — local-first платформа ИИ для видео, которая индексирует библиотеку видео и позволяет искать контент с помощью естественного языка. Она обрабатывает видео для извлечения метаданных, таких как расшифровка, обнаруженные объекты и лица, а затем сохраняет эту информацию для семантического поиска.

Основная цель — превратить имеющийся набор видео в searchable knowledge, охватывая целые видео и, где применимо, конкретные сцены, — при этом работает через Docker, чтобы функционировать на любом компьютере или сервере с установленным Docker.

Ключевые возможности

  • Фоновый сервис индексации видео: Отслеживает новые видеофайлы и ставит их в очередь на анализ с помощью ИИ, чтобы библиотека оставалась актуальной.
  • Многомодельный анализ видео: Извлекает метаданные, включая распознавание лиц, расшифровку, обнаружение объектов и текста, а также анализ на уровне сцен.
  • Векторный семантический поиск (ChromaDB): Поддерживает поиск по естественному языку по контенту видео с использованием эмбеддингов, хранящихся в ChromaDB.
  • Локальный запуск с Docker: Работает как контейнеризированные сервисы через Docker Compose для модульного развертывания на разных машинах.
  • Варианты моделей для ИИ/NLP-обработки: Использует Whisper для расшифровки и поддерживает выбор между Google Gemini или локально через Ollama (по конфигурации).

Как использовать Edit Mind

  1. Установите и запустите Docker Desktop (или убедитесь, что Docker доступен на сервере).
  2. Клонируйте репозиторий и запустите предоставленный процесс настройки.
  3. Поделитесь папкой с медиафайлами с Docker, настроив общий доступ к файлам в Docker Desktop (macOS/Windows). На Linux общий доступ обычно включен по умолчанию.
  4. Создайте файлы окружения: Скачайте/скопируйте .env.example и .env.system.example в .env и .env.system, затем настройте необходимые параметры.
  5. Укажите путь к папке с видео (HOST_MEDIA_PATH) и выберите вариант ИИ-модели:
    • Ollama: установите USE_OLLAMA_MODEL, плюс OLLAMA_HOST, OLLAMA_PORT и OLLAMA_MODEL (и запустите ollama serve / скачайте модель заранее).
    • Gemini: установите USE_GEMINI и укажите GEMINI_API_KEY.
  6. Сгенерируйте ключи безопасности: Установите ENCRYPTION_KEY и SESSION_SECRET с помощью команд из руководства по настройке.
  7. Запустите стек Docker Compose (репозиторий предоставляет стандартный compose-файл и ориентированный на CUDA для NVIDIA GPU).

Сценарии использования

  • Поиск по произнесенным словам: Запрашивайте библиотеку фразами, которые вы помните из аудио, опираясь на расшифровку, извлеченную из видео.
  • Поиск видео с конкретными объектами или текстом на экране: Используйте запросы на естественном языке, связанные с результатами обнаружения объектов и текста при индексации.
  • Поиск сцен с известными лицами: Используйте метаданные от распознавания лиц, чтобы сузить результаты до видео или сцен с появлением людей.
  • Курация и навигация по большим личным архивам: Автоматически обновляйте метаданные при добавлении новых видеофайлов, затем ищите без ручной разметки.
  • Запуск в приватной локальной среде: Индексируйте и ищите полностью на своей машине (или сервере) через Docker, без необходимости в облачном workflow.

FAQ

  • Edit Mind готов к продакшену? Репозиторий указывает, что проект в активной разработке и пока не готов к продакшену, с ожидаемыми незавершенными функциями и редкими багами.

  • Требуется ли Docker для Edit Mind? Да. Инструкции по настройке требуют Docker Compose для запуска всего в контейнерах.

  • Какие варианты ИИ поддерживаются для обработки? Документация упоминает Whisper для расшифровки и поддерживает Google Gemini или Ollama для NLP-задач, выбор через переменные окружения.

  • Как подключить систему к видеофайлам? Настройте Docker для доступа к папке с медиа (общий доступ в Docker Desktop на macOS/Windows) и укажите HOST_MEDIA_PATH в .env в соответствии с путем к папке.

  • Где хранятся данные семантического поиска? Стек включает ChromaDB для векторного семантического поиска и PostgreSQL (через Prisma ORM) как реляционную БД.

Альтернативы

  • Облачные платформы поиска по видео: Они обычно централизуют обработку на хостинговой инфраструктуре. В отличие от local-first подхода Edit Mind на Docker, они могут жертвовать приватностью/контролем ради более простой настройки.
  • Десктопные инструменты управления медиа с ручной разметкой: Некоторые инструменты позволяют организовывать видео через теги и метаданные, вводимые пользователем. Они отличаются отсутствием ИИ-расшифровки/извлечения объектов/лиц для семантического поиска.
  • Самостоятельно развернутые пайплайны расшифровки + поиска: Можно собрать workflow, который расшифровывает видео и индексирует текст для поиска. Это отличается от Edit Mind более узким фокусом на аудио/тексте вместо мультимодального анализа (лица/объекты/сцены) и встроенного семантического запроса.
  • Общие приложения поиска по векторным БД: Можно использовать эмбеддинги и векторную БД для семантического поиска, но придётся самостоятельно обрабатывать импорт видео, мультимодальное извлечение и связывание на уровне сцен — задачи, которые Edit Mind интегрирует в свой пайплайн.

Альтернативы

Wikiwand icon

Wikiwand

Агрегатор вики на основе ИИ, созданный для улучшения пользовательского опыта на Wikipedia путем упрощения потребления знаний.

Struere icon

Struere

Struere — AI-native операционная система вместо таблиц: структурированные приложения с дашбордами, алертами и автоматизациями для задач и процессов.

garden-md icon

garden-md

garden-md превращает расшифровки встреч в структурированную связанную wiki-компанию: HTML-вью в браузере и markdown, с синхронизацией из поддерживаемых источников.

Falconer icon

Falconer

Falconer — самообновляемая платформа знаний для быстрых команд: пишите, делитесь и находите надежную внутреннюю документацию и контекст кода в одном месте.

ClayHog icon

ClayHog

ClayHog — AI Search Visibility и GEO-платформа: показывает, что ChatGPT, Gemini, Perplexity, Claude и Google AI Overviews говорят о вашем бренде.

Grok AI Assistant icon

Grok AI Assistant

Grok — это бесплатный ИИ-помощник, разработанный xAI, который ставит во главу угла правдивость и объективность, предлагая расширенные возможности, такие как доступ к информации в реальном времени и генерация изображений.