UStackUStack
edit-mind icon

edit-mind

edit-mind 本地优先AI视频智能平台:转录与人脸/物体/文本分析,建立语义嵌入索引,可用自然语言搜索视频内容。

edit-mind

什么是 Edit Mind?

Edit Mind 是一个本地优先的 AI 视频智能平台,它索引视频库,并允许您使用自然语言搜索视频内容。它处理视频以提取元数据,如转录、检测到的物体和人脸,然后存储这些信息以支持语义查询。

核心目的是将现有视频集转化为可搜索知识——覆盖整个视频以及适用的特定场景——通过 Docker 运行,可在任何安装了 Docker 的电脑或服务器上工作。

主要功能

  • 后台视频索引服务:监视新视频文件并将其排队进行 AI 驱动分析,确保您的库保持最新。
  • 多模型视频分析:提取元数据,包括人脸识别、转录、物体与文本检测,以及场景级分析。
  • 基于向量的语义搜索 (ChromaDB):支持使用存储在 ChromaDB 中的嵌入,对视频内容进行自然语言搜索。
  • 使用 Docker 本地运行:作为容器化服务通过 Docker Compose 运行,便于模块化设置并部署到不同机器。
  • AI/NLP 处理模型选项:使用 Whisper 进行转录,并支持通过配置选择 Google Gemini 或本地 Ollama。

如何使用 Edit Mind

  1. 安装并运行 Docker Desktop(或确保服务器上 Docker 可用)。
  2. 克隆仓库 并通过提供的设置流程运行。
  3. 将媒体文件夹暴露给 Docker,通过配置 Docker Desktop 文件共享(macOS/Windows)。Linux 上文件共享通常默认启用。
  4. 创建环境文件:下载/复制 .env.example.env.system.example.env.env.system,然后配置所需设置。
  5. 设置视频文件夹路径HOST_MEDIA_PATH)并选择 AI 模型选项:
    • Ollama:设置 USE_OLLAMA_MODEL,加上 OLLAMA_HOSTOLLAMA_PORTOLLAMA_MODEL(先运行 ollama serve / 拉取模型)。
    • Gemini:设置 USE_GEMINI 并提供 GEMINI_API_KEY
  6. 生成安全密钥:使用设置指南中显示的命令设置 ENCRYPTION_KEYSESSION_SECRET
  7. 启动 Docker Compose 堆栈(仓库提供标准 compose 文件和针对 NVIDIA GPU 的 CUDA 版本)。

使用场景

  • 按口述词搜索:使用从视频提取的转录,以您记住的音频短语查询库。
  • 查找包含特定物体或屏幕文本的视频:使用索引期间生成的物体与文本检测输出,进行自然语言查询。
  • 定位包含已知人脸的场景:使用人脸识别元数据缩小结果至人物出现的视频或场景。
  • 整理和导航大型个人档案:自动刷新元数据以适应新视频文件添加,然后无需手动标记即可搜索。
  • 在注重隐私的本地环境中运行:通过 Docker 在您自己的机器(或服务器)上完全本地索引和搜索,而非托管工作流。

常见问题

  • Edit Mind 准备好用于生产环境了吗? 仓库声明它处于积极开发中,尚未生产就绪,可能存在不完整功能和偶发 bug。

  • Edit Mind 需要 Docker 吗? 是的。设置说明指定使用 Docker Compose 在容器中运行一切。

  • 支持哪些 AI 选项进行处理? 文档提到使用 Whisper 进行转录,并支持通过环境变量选择 Google Gemini 或 Ollama 用于 NLP 相关任务。

  • 如何将系统连接到我的视频文件? 配置 Docker 访问媒体文件夹(macOS/Windows 上 Docker Desktop 文件共享),并在 .env 文件中设置 HOST_MEDIA_PATH 以匹配该文件夹路径。

  • 语义搜索数据存储在哪里? 堆栈包括用于基于向量的语义搜索的 ChromaDB,以及作为关系型数据库的 PostgreSQL(通过 Prisma ORM)。

替代方案

  • 云托管视频搜索平台:这些通常在托管基础设施上集中处理。与 Edit Mind 的本地优先 Docker 方式相比,它们可能以牺牲隐私/控制权换取更简单的设置。
  • 带手动标签的桌面媒体管理工具:有些工具允许通过用户输入的标签和元数据组织视频。它们不同之处在于不进行基于 AI 的转录/物体/人脸提取,以支持语义搜索。
  • 自托管转录 + 搜索流水线:你可以构建转录视频并索引文本以供搜索的工作流。这与 Edit Mind 不同,后者更专注于多模态分析(人脸/物体/场景)和集成语义查询,而非仅限音频/文本。
  • 通用向量数据库搜索应用:你可以使用嵌入和向量数据库实现语义搜索,但需要自行处理视频摄取、多模态提取和场景级链接——这些是 Edit Mind 流水线中已打包的工作。