edit-mind
edit-mind — local-first платформа ИИ для видео: индексация с расшифровкой, лицами/объектами/текстом и семантическими эмбеддингами, поиск по смыслу.
Что такое Edit Mind?
Edit Mind — local-first платформа ИИ для видео, которая индексирует библиотеку видео и позволяет искать контент с помощью естественного языка. Она обрабатывает видео для извлечения метаданных, таких как расшифровка, обнаруженные объекты и лица, а затем сохраняет эту информацию для семантического поиска.
Основная цель — превратить имеющийся набор видео в searchable knowledge, охватывая целые видео и, где применимо, конкретные сцены, — при этом работает через Docker, чтобы функционировать на любом компьютере или сервере с установленным Docker.
Ключевые возможности
- Фоновый сервис индексации видео: Отслеживает новые видеофайлы и ставит их в очередь на анализ с помощью ИИ, чтобы библиотека оставалась актуальной.
- Многомодельный анализ видео: Извлекает метаданные, включая распознавание лиц, расшифровку, обнаружение объектов и текста, а также анализ на уровне сцен.
- Векторный семантический поиск (ChromaDB): Поддерживает поиск по естественному языку по контенту видео с использованием эмбеддингов, хранящихся в ChromaDB.
- Локальный запуск с Docker: Работает как контейнеризированные сервисы через Docker Compose для модульного развертывания на разных машинах.
- Варианты моделей для ИИ/NLP-обработки: Использует Whisper для расшифровки и поддерживает выбор между Google Gemini или локально через Ollama (по конфигурации).
Как использовать Edit Mind
- Установите и запустите Docker Desktop (или убедитесь, что Docker доступен на сервере).
- Клонируйте репозиторий и запустите предоставленный процесс настройки.
- Поделитесь папкой с медиафайлами с Docker, настроив общий доступ к файлам в Docker Desktop (macOS/Windows). На Linux общий доступ обычно включен по умолчанию.
- Создайте файлы окружения: Скачайте/скопируйте
.env.exampleи.env.system.exampleв.envи.env.system, затем настройте необходимые параметры. - Укажите путь к папке с видео (
HOST_MEDIA_PATH) и выберите вариант ИИ-модели:- Ollama: установите
USE_OLLAMA_MODEL, плюсOLLAMA_HOST,OLLAMA_PORTиOLLAMA_MODEL(и запуститеollama serve/ скачайте модель заранее). - Gemini: установите
USE_GEMINIи укажитеGEMINI_API_KEY.
- Ollama: установите
- Сгенерируйте ключи безопасности: Установите
ENCRYPTION_KEYиSESSION_SECRETс помощью команд из руководства по настройке. - Запустите стек Docker Compose (репозиторий предоставляет стандартный compose-файл и ориентированный на CUDA для NVIDIA GPU).
Сценарии использования
- Поиск по произнесенным словам: Запрашивайте библиотеку фразами, которые вы помните из аудио, опираясь на расшифровку, извлеченную из видео.
- Поиск видео с конкретными объектами или текстом на экране: Используйте запросы на естественном языке, связанные с результатами обнаружения объектов и текста при индексации.
- Поиск сцен с известными лицами: Используйте метаданные от распознавания лиц, чтобы сузить результаты до видео или сцен с появлением людей.
- Курация и навигация по большим личным архивам: Автоматически обновляйте метаданные при добавлении новых видеофайлов, затем ищите без ручной разметки.
- Запуск в приватной локальной среде: Индексируйте и ищите полностью на своей машине (или сервере) через Docker, без необходимости в облачном workflow.
FAQ
-
Edit Mind готов к продакшену? Репозиторий указывает, что проект в активной разработке и пока не готов к продакшену, с ожидаемыми незавершенными функциями и редкими багами.
-
Требуется ли Docker для Edit Mind? Да. Инструкции по настройке требуют Docker Compose для запуска всего в контейнерах.
-
Какие варианты ИИ поддерживаются для обработки? Документация упоминает Whisper для расшифровки и поддерживает Google Gemini или Ollama для NLP-задач, выбор через переменные окружения.
-
Как подключить систему к видеофайлам? Настройте Docker для доступа к папке с медиа (общий доступ в Docker Desktop на macOS/Windows) и укажите
HOST_MEDIA_PATHв.envв соответствии с путем к папке. -
Где хранятся данные семантического поиска? Стек включает ChromaDB для векторного семантического поиска и PostgreSQL (через Prisma ORM) как реляционную БД.
Альтернативы
- Облачные платформы поиска по видео: Они обычно централизуют обработку на хостинговой инфраструктуре. В отличие от local-first подхода Edit Mind на Docker, они могут жертвовать приватностью/контролем ради более простой настройки.
- Десктопные инструменты управления медиа с ручной разметкой: Некоторые инструменты позволяют организовывать видео через теги и метаданные, вводимые пользователем. Они отличаются отсутствием ИИ-расшифровки/извлечения объектов/лиц для семантического поиска.
- Самостоятельно развернутые пайплайны расшифровки + поиска: Можно собрать workflow, который расшифровывает видео и индексирует текст для поиска. Это отличается от Edit Mind более узким фокусом на аудио/тексте вместо мультимодального анализа (лица/объекты/сцены) и встроенного семантического запроса.
- Общие приложения поиска по векторным БД: Можно использовать эмбеддинги и векторную БД для семантического поиска, но придётся самостоятельно обрабатывать импорт видео, мультимодальное извлечение и связывание на уровне сцен — задачи, которые Edit Mind интегрирует в свой пайплайн.
Альтернативы
Wikiwand
Агрегатор вики на основе ИИ, созданный для улучшения пользовательского опыта на Wikipedia путем упрощения потребления знаний.
Struere
Struere — AI-native операционная система вместо таблиц: структурированные приложения с дашбордами, алертами и автоматизациями для задач и процессов.
garden-md
garden-md превращает расшифровки встреч в структурированную связанную wiki-компанию: HTML-вью в браузере и markdown, с синхронизацией из поддерживаемых источников.
Falconer
Falconer — самообновляемая платформа знаний для быстрых команд: пишите, делитесь и находите надежную внутреннюю документацию и контекст кода в одном месте.
ClayHog
ClayHog — AI Search Visibility и GEO-платформа: показывает, что ChatGPT, Gemini, Perplexity, Claude и Google AI Overviews говорят о вашем бренде.
Grok AI Assistant
Grok — это бесплатный ИИ-помощник, разработанный xAI, который ставит во главу угла правдивость и объективность, предлагая расширенные возможности, такие как доступ к информации в реальном времени и генерация изображений.