Perceptron Mk1
Perceptron Mk1은 비디오 이해, 이미지 추론, 구현형 추론을 위한 폐쇄형 멀티모달 모델입니다. 로보틱스와 물리 세계 워크플로우에 적합하며, 시각 데이터에서 구조화된 출력을 제공합니다.
Perceptron Mk1이란?
Perceptron Mk1은 비디오 이해와 구현형 추론을 위해 설계된 Perceptron의 폐쇄형 모델입니다. 이미징과 비디오를 분석하고, 시간에 따라 추론하며, 타임코드, 클립, 포인트, 박스, 폴리곤, 트랙, 텍스트 같은 구조화된 출력을 생성하도록 설계되었습니다.
이 모델은 물리 AI와 로보틱스 워크플로우에 맞춰져 있으며, 개별 프레임이 아니라 연속적인 시각 스트림을 처리할 수 있습니다. 출처에 따르면 이미지, 비디오, 구현형 추론 과제에서 최첨단 성능과 비슷한 수준을 보이면서도 일부 유사한 최상위 제품보다 낮은 가격으로 제공됩니다.
주요 기능
- 비디오 전반의 시간 추론: Mk1은 시간에 걸친 사건을 살펴보고 언제 무엇이 일어났는지 구조화된 형태로 반환할 수 있어, 스포츠 분석이나 요리 영상 같은 순차적 작업에 유용합니다.
- 동적 비디오 그라운딩: 32K 토큰 컨텍스트 창 내에서 초당 최대 2FPS로 비디오를 분석할 수 있으며, 특정 순간에 대한 실행 가능한 타임코드를 반환할 수 있습니다.
- 멀티모달 인컨텍스트 매칭: 사용자는 참조 이미지나 비디오를 제공하고, 미세 조정이나 라벨링된 학습 데이터 없이 새 이미지와 비디오 전반에서 일치하는 인스턴스를 찾도록 모델에 요청할 수 있습니다.
- 미디어 간 비교: 두 개의 미디어를 주면 Mk1이 나란한 비교를 생성할 수 있어 검토 및 निरीक्षण 워크플로우를 지원합니다.
- 고급 이미지 추론: 포인팅, 카운팅, OCR, 계기 판독, 구조화된 문서 추출을 지원하며, 복잡한 레이아웃, 표, 필기, 다국어 콘텐츠도 포함됩니다.
- 구조화된 공간 출력: Mk1은 포인트, 박스, 폴리곤, 트랙, 클립 프리미티브를 일급 출력으로 내보낼 수 있어, 결과를 후속 로보틱스 또는 비전 시스템에 더 쉽게 전달할 수 있습니다.
Perceptron Mk1 사용 방법
일반적인 워크플로우는 이미지, 비디오 또는 여러 미디어 입력과 함께 작업을 지정하는 프롬프트를 제출하는 것으로 시작합니다. 사용자는 객체 위치 지정, 개수 세기, OCR, 이벤트 감지, 타임코드 추출, 비교, 구조화된 문서 변환을 요청할 수 있습니다.
로보틱스와 시각 파이프라인 용도로는 텔레오퍼레이션 영상을 라벨링하고, 작업 경계를 식별하고, 성공 또는 실패를 감지하고, 하위 시스템이 직접 사용할 수 있는 주석을 생성하는 데 사용할 수 있습니다.
사용 사례
- 비디오 검토 및 이벤트 추출: 긴 녹화 영상을 분석해 특정 동작이 언제 발생했는지 파악합니다. 예: 집기 시도, 재고 보충 이벤트, 기타 작업 마일스톤.
- 로보틱스 데이터 주석: 텔레오퍼레이션 영상을 지도 학습용 라벨, 행동 조건 주석, 품질 점수, 하위 작업 경계로 변환해 후속 모델 학습에 활용합니다.
- 시각 검색 및 자산 추적: 참조 이미지나 비디오를 사용해 새 이미지 세트나 비디오 스트림에서 일치하는 항목을 찾습니다.
- 산업 검사 및 판독 작업: 운영 환경에서 게이지, 시계, 대시보드, 레거시 제어 패널, 흐릿한 텍스트를 읽습니다.
- 문서 구조화: 레이아웃, 표, 계층 구조, 손글씨 주석을 유지한 채 복잡한 문서를 HTML, JSON 또는 Markdown으로 변환합니다.
FAQ
Mk1은 매칭이나 감지 작업을 위해 미세 조정이 필요한가요? 아니요. 출처에 따르면 단일 참조 이미지나 비디오만으로 인컨텍스트 매칭을 수행할 수 있으며, 미세 조정, 라벨링된 데이터셋, 학습 파이프라인이 필요하지 않습니다.
어떤 종류의 출력을 생성할 수 있나요? 작업에 따라 텍스트는 물론 포인트, 박스, 폴리곤, 트랙, 클립, 타임코드 같은 구조화된 공간 출력을 반환할 수 있습니다.
Mk1은 비디오 전용인가요? 아니요. 출처는 이 모델이 비디오와 구현형 추론뿐 아니라 이미지 추론에서도 강하다고 설명합니다.
긴 비디오도 처리할 수 있나요? 32K 토큰 컨텍스트 창 내에서 초당 최대 2FPS의 동적 프레임레이트 분석을 지원하므로 더 긴 형식의 비디오 분석을 지원하는 것으로 보이지만, 출처에는 하드 최대 비디오 길이는 명시되어 있지 않습니다.
대안
- 일반적인 최첨단 멀티모달 모델: 원문은 Mk1을 Google, OpenAI, Anthropic, Alibaba의 이미지 및 비디오 추론을 처리하는 모델들과 비교하지만, 출력 형식과 가격은 다를 수 있습니다.
- 오픈소스 비전-언어 모델: 팀이 오픈 가중치나 로컬 제어를 원할 때 더 적합할 수 있지만, 원문은 Mk1을 성능과 구조화된 출력에 초점을 둔 폐쇄형 옵션으로 제시합니다.
- 별도 구성 요소로 이루어진 로보틱스 인식 파이프라인: 일부 팀은 탐지, OCR, 추적, 주석에 각각 다른 모델을 사용할 수 있지만, Mk1은 이 단계를 하나의 모델 호출로 결합하는 것을 목표로 합니다.
- 전통적인 문서 OCR/추출 도구: 텍스트가 많은 문서에는 잘 맞을 수 있지만, Mk1은 더 복잡한 레이아웃, 필기, 멀티모달 추론을 같은 워크플로우에서 처리하는 것으로 설명됩니다.
대안
AakarDev AI
AakarDev AI는 원활한 벡터 데이터베이스 통합을 통해 AI 애플리케이션 개발을 간소화하는 강력한 플랫폼으로, 신속한 배포와 확장성을 가능하게 합니다.
Arduino VENTUNO Q
Arduino VENTUNO Q는 로보틱스용 엣지 AI 컴퓨터로, AI 추론 하드웨어와 마이크로컨트롤러 제어를 한 보드에 통합합니다. Arduino App Lab로 개발 워크플로 제공
BenchSpan
BenchSpan은 AI 에이전트 벤치마크를 병렬 실행하고 점수·실패를 실행 이력으로 정리하며, 커밋 태그로 재현 가능한 결과 비교를 돕습니다.
Edgee
Edgee는 LLM 제공사로 가기 전 프롬프트를 압축하는 엣지 네이티브 AI 게이트웨이로, 단일 OpenAI 호환 API로 200+ 모델 라우팅을 지원합니다.
Codex Plugins
Codex Plugins로 스킬, 앱 통합, MCP 서버를 재사용 워크플로로 묶어 Gmail·Google Drive·Slack 같은 도구 접근을 확장하세요.
Wallie
Wallie는 실시간 비전, 설정 가능한 성격 프로필, 채팅 상호작용, TTS, 아바타 출력을 결합한 오픈소스 AI 스트리머 프레임워크로, VTuber형 라이브 스트리밍에 적합합니다.