UStackUStack
edit-mind icon

edit-mind

edit-mind는 로컬 우선 AI 비디오 인텔리전스 플랫폼으로 영상을 전사·얼굴/객체/텍스트 분석 후 임베딩해 자연어로 검색합니다.

edit-mind

Edit Mind란?

Edit Mind는 로컬 우선 AI 비디오 인텔리전스 플랫폼으로 비디오 라이브러리를 인덱싱하고 자연어로 비디오 콘텐츠를 검색할 수 있게 합니다. 비디오를 처리해 전사, 감지된 객체, 얼굴 등의 메타데이터를 추출한 후 이를 저장하여 의미적 쿼리를 지원합니다.

핵심 목적은 기존 비디오 세트를 검색 가능한 지식으로 변환하는 것입니다—전체 비디오와 적용 가능한 경우 특정 장면을 포함하며—Docker를 통해 실행되어 Docker가 설치된 모든 컴퓨터나 서버에서 작동합니다.

주요 기능

  • 백그라운드 비디오 인덱싱 서비스: 새로운 비디오 파일을 감시하고 AI 기반 분석 대기열에 추가해 라이브러리를 최신 상태로 유지합니다.
  • 멀티 모델 비디오 분석: 얼굴 인식, 전사, 객체 및 텍스트 감지, 장면 수준 분석을 포함한 메타데이터를 추출합니다.
  • 벡터 기반 의미 검색 (ChromaDB): ChromaDB에 저장된 임베딩을 사용해 비디오 콘텐츠에 대한 자연어 검색을 지원합니다.
  • Docker를 통한 로컬 실행: Docker Compose를 사용한 컨테이너화 서비스로 설정을 모듈화하고 다양한 머신에 배포할 수 있게 합니다.
  • AI/NLP 처리 모델 옵션: 전사를 위해 Whisper를 사용하며 Google Gemini 또는 Ollama(설정별 로컬)를 선택할 수 있습니다.

Edit Mind 사용 방법

  1. Docker Desktop 설치 및 실행 (또는 서버에 Docker가 사용 가능하도록 확인).
  2. 리포지토리 클론하고 제공된 설정 흐름을 실행.
  3. 미디어 폴더를 Docker에 노출: Docker Desktop 파일 공유 설정(macOS/Windows). Linux에서는 기본적으로 활성화됨.
  4. 환경 파일 생성: .env.example.env.system.example.env.env.system으로 다운로드/복사한 후 필수 설정 구성.
  5. 비디오 폴더 경로 설정 (HOST_MEDIA_PATH) 및 AI 모델 옵션 선택:
    • Ollama: USE_OLLAMA_MODEL 설정, OLLAMA_HOST, OLLAMA_PORT, OLLAMA_MODEL 추가 (먼저 ollama serve 실행 / 모델 pull).
    • Gemini: USE_GEMINI 설정 및 GEMINI_API_KEY 제공.
  6. 보안 키 생성: 설정 가이드에 나온 명령으로 ENCRYPTION_KEYSESSION_SECRET 설정.
  7. Docker Compose 스택 시작 (리포에 표준 compose 파일과 NVIDIA GPU용 CUDA 버전 제공).

사용 사례

  • 말한 단어로 검색: 비디오에서 추출된 전사를 기반으로 오디오에서 기억한 구문으로 라이브러리 쿼리.
  • 특정 객체 또는 화면 텍스트가 포함된 비디오 찾기: 인덱싱 중 생성된 객체 및 텍스트 감지 출력과 연결된 자연어 쿼리 사용.
  • 알려진 얼굴이 있는 장면 위치: 얼굴 인식 메타데이터를 사용해 사람 등장 비디오 또는 장면으로 결과 좁히기.
  • 대규모 개인 아카이브 큐레이션 및 탐색: 새 비디오 파일 추가 시 메타데이터 자동 새로고침 후 수동 태깅 없이 검색.
  • 프라이버시 중심 로컬 환경 실행: Docker를 통해 호스팅 워크플로 없이 자체 머신(또는 서버)에서 완전 인덱싱 및 검색.

자주 묻는 질문

  • Edit Mind는 프로덕션 준비가 됐나요? 리포지토리는 활성 개발 중이며 아직 프로덕션 준비가 안 됐다고 명시하며, 불완전한 기능과 가끔 버그를 예상합니다.

  • Edit Mind는 Docker가 필수인가요? 네. 설정 지침은 모든 것을 컨테이너로 실행하기 위해 Docker Compose를 지정합니다.

  • 처리를 위한 AI 옵션은 무엇인가요? 문서에서 전사를 위한 Whisper를 언급하며 NLP 관련 작업에 Google Gemini 또는 Ollama를 환경 변수로 선택 지원합니다.

  • 시스템을 비디오 파일에 연결하려면? Docker를 미디어 폴더에 접근하도록 설정(Docker Desktop 파일 공유 on macOS/Windows)하고 .env 파일에서 HOST_MEDIA_PATH를 해당 폴더 경로로 맞춤.

  • 의미 검색 데이터는 어디에 저장되나요? 스택에 벡터 기반 의미 검색을 위한 ChromaDB와 관계형 데이터베이스로 Prisma ORM을 통한 PostgreSQL 포함.

대안

  • 클라우드 호스팅 비디오 검색 플랫폼: 이러한 플랫폼은 일반적으로 호스팅 인프라에서 처리를 중앙화합니다. Edit Mind의 로컬 우선 Docker 방식에 비해 프라이버시/제어를 더 간단한 설정으로 교환할 수 있습니다.
  • 수동 태깅 데스크톱 미디어 관리 도구: 일부 도구는 사용자 입력 태그와 메타데이터로 비디오를 정리할 수 있게 합니다. AI 기반 전사/객체/얼굴 추출을 수행하지 않아 의미 검색에서 차이가 납니다.
  • 셀프 호스팅 전사 + 검색 파이프라인: 비디오를 전사한 후 텍스트를 인덱싱해 검색하는 워크플로를 구축할 수 있습니다. Edit Mind와 달리 오디오/텍스트에 좁게 초점을 맞추며, 멀티모달 분석(얼굴/객체/장면)과 통합 의미 쿼리를 하지 않습니다.
  • 일반 벡터 데이터베이스 검색 앱: 임베딩과 벡터 데이터베이스를 사용해 의미 검색을 구현할 수 있지만, 비디오 수집, 멀티모달 추출, 장면 수준 연결을 직접 처리해야 합니다—Edit Mind가 파이프라인에 패키징한 작업입니다.