什么是 Edit Mind?
Edit Mind 是一个本地优先的 AI 视频智能平台,它索引视频库,并允许您使用自然语言搜索视频内容。它处理视频以提取元数据,如转录、检测到的物体和人脸,然后存储这些信息以支持语义查询。
核心目的是将现有视频集转化为可搜索知识——覆盖整个视频以及适用的特定场景——通过 Docker 运行,可在任何安装了 Docker 的电脑或服务器上工作。
主要功能
- 后台视频索引服务:监视新视频文件并将其排队进行 AI 驱动分析,确保您的库保持最新。
- 多模型视频分析:提取元数据,包括人脸识别、转录、物体与文本检测,以及场景级分析。
- 基于向量的语义搜索 (ChromaDB):支持使用存储在 ChromaDB 中的嵌入,对视频内容进行自然语言搜索。
- 使用 Docker 本地运行:作为容器化服务通过 Docker Compose 运行,便于模块化设置并部署到不同机器。
- AI/NLP 处理模型选项:使用 Whisper 进行转录,并支持通过配置选择 Google Gemini 或本地 Ollama。
如何使用 Edit Mind
- 安装并运行 Docker Desktop(或确保服务器上 Docker 可用)。
- 克隆仓库 并通过提供的设置流程运行。
- 将媒体文件夹暴露给 Docker,通过配置 Docker Desktop 文件共享(macOS/Windows)。Linux 上文件共享通常默认启用。
- 创建环境文件:下载/复制
.env.example和.env.system.example到.env和.env.system,然后配置所需设置。 - 设置视频文件夹路径(
HOST_MEDIA_PATH)并选择 AI 模型选项:- Ollama:设置
USE_OLLAMA_MODEL,加上OLLAMA_HOST、OLLAMA_PORT和OLLAMA_MODEL(先运行ollama serve/ 拉取模型)。 - Gemini:设置
USE_GEMINI并提供GEMINI_API_KEY。
- Ollama:设置
- 生成安全密钥:使用设置指南中显示的命令设置
ENCRYPTION_KEY和SESSION_SECRET。 - 启动 Docker Compose 堆栈(仓库提供标准 compose 文件和针对 NVIDIA GPU 的 CUDA 版本)。
使用场景
- 按口述词搜索:使用从视频提取的转录,以您记住的音频短语查询库。
- 查找包含特定物体或屏幕文本的视频:使用索引期间生成的物体与文本检测输出,进行自然语言查询。
- 定位包含已知人脸的场景:使用人脸识别元数据缩小结果至人物出现的视频或场景。
- 整理和导航大型个人档案:自动刷新元数据以适应新视频文件添加,然后无需手动标记即可搜索。
- 在注重隐私的本地环境中运行:通过 Docker 在您自己的机器(或服务器)上完全本地索引和搜索,而非托管工作流。
常见问题
-
Edit Mind 准备好用于生产环境了吗? 仓库声明它处于积极开发中,尚未生产就绪,可能存在不完整功能和偶发 bug。
-
Edit Mind 需要 Docker 吗? 是的。设置说明指定使用 Docker Compose 在容器中运行一切。
-
支持哪些 AI 选项进行处理? 文档提到使用 Whisper 进行转录,并支持通过环境变量选择 Google Gemini 或 Ollama 用于 NLP 相关任务。
-
如何将系统连接到我的视频文件? 配置 Docker 访问媒体文件夹(macOS/Windows 上 Docker Desktop 文件共享),并在
.env文件中设置HOST_MEDIA_PATH以匹配该文件夹路径。 -
语义搜索数据存储在哪里? 堆栈包括用于基于向量的语义搜索的 ChromaDB,以及作为关系型数据库的 PostgreSQL(通过 Prisma ORM)。
替代方案
- 云托管视频搜索平台:这些通常在托管基础设施上集中处理。与 Edit Mind 的本地优先 Docker 方式相比,它们可能以牺牲隐私/控制权换取更简单的设置。
- 带手动标签的桌面媒体管理工具:有些工具允许通过用户输入的标签和元数据组织视频。它们不同之处在于不进行基于 AI 的转录/物体/人脸提取,以支持语义搜索。
- 自托管转录 + 搜索流水线:你可以构建转录视频并索引文本以供搜索的工作流。这与 Edit Mind 不同,后者更专注于多模态分析(人脸/物体/场景)和集成语义查询,而非仅限音频/文本。
- 通用向量数据库搜索应用:你可以使用嵌入和向量数据库实现语义搜索,但需要自行处理视频摄取、多模态提取和场景级链接——这些是 Edit Mind 流水线中已打包的工作。
替代品
Wikiwand
由人工智能驱动的维基聚合器,旨在通过简化知识消费来增强用户在维基百科上的体验。
Struere
Struere 是 AI 原生运营系统,用结构化软件替代表格流程,支持仪表盘、告警与自动化,集中管理运营数据与流程。
garden-md
garden-md 将会议转录内容整理成结构化、可互链的企业维基:基于本地 Markdown,并可用 HTML 浏览视图同步转录来源。
Falconer
Falconer 是自更新知识平台,帮高速度团队在一个地方编写、分享并搜索可靠内部文档与代码上下文。
ClayHog
ClayHog 是 AI 搜索可见度与 GEO 平台,监测 ChatGPT、Gemini、Perplexity、Claude、Google AI Overviews 对品牌的可见度、情感与引用。
Grok AI Assistant
Grok 是 xAI 开发的一款免费人工智能助手,旨在优先考虑真实性和客观性,同时提供实时信息访问和图像生成等高级功能。