UStackUStack
Perceptron Mk1 icon

Perceptron Mk1

Perceptron Mk1은 비디오 이해, 이미지 추론, 구현형 추론을 위한 폐쇄형 멀티모달 모델입니다. 로보틱스와 물리 세계 워크플로우에 적합하며, 시각 데이터에서 구조화된 출력을 제공합니다.

Perceptron Mk1

Perceptron Mk1이란?

Perceptron Mk1은 비디오 이해와 구현형 추론을 위해 설계된 Perceptron의 폐쇄형 모델입니다. 이미징과 비디오를 분석하고, 시간에 따라 추론하며, 타임코드, 클립, 포인트, 박스, 폴리곤, 트랙, 텍스트 같은 구조화된 출력을 생성하도록 설계되었습니다.

이 모델은 물리 AI와 로보틱스 워크플로우에 맞춰져 있으며, 개별 프레임이 아니라 연속적인 시각 스트림을 처리할 수 있습니다. 출처에 따르면 이미지, 비디오, 구현형 추론 과제에서 최첨단 성능과 비슷한 수준을 보이면서도 일부 유사한 최상위 제품보다 낮은 가격으로 제공됩니다.

주요 기능

  • 비디오 전반의 시간 추론: Mk1은 시간에 걸친 사건을 살펴보고 언제 무엇이 일어났는지 구조화된 형태로 반환할 수 있어, 스포츠 분석이나 요리 영상 같은 순차적 작업에 유용합니다.
  • 동적 비디오 그라운딩: 32K 토큰 컨텍스트 창 내에서 초당 최대 2FPS로 비디오를 분석할 수 있으며, 특정 순간에 대한 실행 가능한 타임코드를 반환할 수 있습니다.
  • 멀티모달 인컨텍스트 매칭: 사용자는 참조 이미지나 비디오를 제공하고, 미세 조정이나 라벨링된 학습 데이터 없이 새 이미지와 비디오 전반에서 일치하는 인스턴스를 찾도록 모델에 요청할 수 있습니다.
  • 미디어 간 비교: 두 개의 미디어를 주면 Mk1이 나란한 비교를 생성할 수 있어 검토 및 निरीक्षण 워크플로우를 지원합니다.
  • 고급 이미지 추론: 포인팅, 카운팅, OCR, 계기 판독, 구조화된 문서 추출을 지원하며, 복잡한 레이아웃, 표, 필기, 다국어 콘텐츠도 포함됩니다.
  • 구조화된 공간 출력: Mk1은 포인트, 박스, 폴리곤, 트랙, 클립 프리미티브를 일급 출력으로 내보낼 수 있어, 결과를 후속 로보틱스 또는 비전 시스템에 더 쉽게 전달할 수 있습니다.

Perceptron Mk1 사용 방법

일반적인 워크플로우는 이미지, 비디오 또는 여러 미디어 입력과 함께 작업을 지정하는 프롬프트를 제출하는 것으로 시작합니다. 사용자는 객체 위치 지정, 개수 세기, OCR, 이벤트 감지, 타임코드 추출, 비교, 구조화된 문서 변환을 요청할 수 있습니다.

로보틱스와 시각 파이프라인 용도로는 텔레오퍼레이션 영상을 라벨링하고, 작업 경계를 식별하고, 성공 또는 실패를 감지하고, 하위 시스템이 직접 사용할 수 있는 주석을 생성하는 데 사용할 수 있습니다.

사용 사례

  • 비디오 검토 및 이벤트 추출: 긴 녹화 영상을 분석해 특정 동작이 언제 발생했는지 파악합니다. 예: 집기 시도, 재고 보충 이벤트, 기타 작업 마일스톤.
  • 로보틱스 데이터 주석: 텔레오퍼레이션 영상을 지도 학습용 라벨, 행동 조건 주석, 품질 점수, 하위 작업 경계로 변환해 후속 모델 학습에 활용합니다.
  • 시각 검색 및 자산 추적: 참조 이미지나 비디오를 사용해 새 이미지 세트나 비디오 스트림에서 일치하는 항목을 찾습니다.
  • 산업 검사 및 판독 작업: 운영 환경에서 게이지, 시계, 대시보드, 레거시 제어 패널, 흐릿한 텍스트를 읽습니다.
  • 문서 구조화: 레이아웃, 표, 계층 구조, 손글씨 주석을 유지한 채 복잡한 문서를 HTML, JSON 또는 Markdown으로 변환합니다.

FAQ

Mk1은 매칭이나 감지 작업을 위해 미세 조정이 필요한가요? 아니요. 출처에 따르면 단일 참조 이미지나 비디오만으로 인컨텍스트 매칭을 수행할 수 있으며, 미세 조정, 라벨링된 데이터셋, 학습 파이프라인이 필요하지 않습니다.

어떤 종류의 출력을 생성할 수 있나요? 작업에 따라 텍스트는 물론 포인트, 박스, 폴리곤, 트랙, 클립, 타임코드 같은 구조화된 공간 출력을 반환할 수 있습니다.

Mk1은 비디오 전용인가요? 아니요. 출처는 이 모델이 비디오와 구현형 추론뿐 아니라 이미지 추론에서도 강하다고 설명합니다.

긴 비디오도 처리할 수 있나요? 32K 토큰 컨텍스트 창 내에서 초당 최대 2FPS의 동적 프레임레이트 분석을 지원하므로 더 긴 형식의 비디오 분석을 지원하는 것으로 보이지만, 출처에는 하드 최대 비디오 길이는 명시되어 있지 않습니다.

대안

  • 일반적인 최첨단 멀티모달 모델: 원문은 Mk1을 Google, OpenAI, Anthropic, Alibaba의 이미지 및 비디오 추론을 처리하는 모델들과 비교하지만, 출력 형식과 가격은 다를 수 있습니다.
  • 오픈소스 비전-언어 모델: 팀이 오픈 가중치나 로컬 제어를 원할 때 더 적합할 수 있지만, 원문은 Mk1을 성능과 구조화된 출력에 초점을 둔 폐쇄형 옵션으로 제시합니다.
  • 별도 구성 요소로 이루어진 로보틱스 인식 파이프라인: 일부 팀은 탐지, OCR, 추적, 주석에 각각 다른 모델을 사용할 수 있지만, Mk1은 이 단계를 하나의 모델 호출로 결합하는 것을 목표로 합니다.
  • 전통적인 문서 OCR/추출 도구: 텍스트가 많은 문서에는 잘 맞을 수 있지만, Mk1은 더 복잡한 레이아웃, 필기, 멀티모달 추론을 같은 워크플로우에서 처리하는 것으로 설명됩니다.
Perceptron Mk1 | UStack