UStackUStack
Perceptron Mk1 icon

Perceptron Mk1

Perceptron Mk1 è un modello multimodale closed-source per video, image reasoning e embodied reasoning, pensato per robotica e flussi fisici con output strutturati da dati visivi.

Perceptron Mk1

Che cos'è Perceptron Mk1?

Perceptron Mk1 è un modello closed-source di Perceptron progettato per la comprensione video e l’embodied reasoning. È pensato per analizzare immagini e video, ragionare nel tempo e produrre output strutturati come timecode, clip, punti, box, poligoni, track e testo.

Il modello è posizionato per flussi di lavoro di physical AI e robotica, dove può elaborare stream visivi continui invece di frame isolati. Secondo la fonte, raggiunge prestazioni all’avanguardia in compiti di image, video ed embodied reasoning, pur avendo un prezzo inferiore rispetto ad alcune offerte frontier comparabili.

Funzionalità principali

  • Ragionamento temporale sui video: Mk1 può esaminare eventi nel tempo e restituire una scomposizione strutturata di cosa è successo e quando, utile per attività sequenziali come l’analisi sportiva o i filmati di cucina.
  • Grounding video dinamico: Analizza video fino a 2 FPS all’interno di una finestra di contesto da 32K token e può restituire timecode azionabili per momenti specifici.
  • Multimodal in-context matching: Gli utenti possono fornire un’immagine o un video di riferimento e chiedere al modello di trovare istanze corrispondenti in nuove immagini e video senza fine-tuning o dati di addestramento etichettati.
  • Confronto tra media: Date due risorse multimediali, Mk1 può produrre un confronto affiancato, supportando flussi di lavoro di revisione e ispezione.
  • Ragionamento avanzato sulle immagini: Il modello supporta pointing, counting, OCR, lettura di strumenti e estrazione strutturata di documenti, inclusi layout complessi, tabelle, scrittura a mano e contenuti multilingue.
  • Output spaziali strutturati: Mk1 può emettere primitivi point, box, polygon, track e clip come output di primo livello, rendendo più facile inviare i risultati a sistemi di robotica o visione downstream.

Come usare Perceptron Mk1

Un flusso di lavoro tipico inizia inviando un’immagine, un video o più input multimediali insieme a un prompt che specifica il task. Gli utenti possono chiedere localizzazione di oggetti, counting, OCR, rilevamento eventi, estrazione di timecode, confronto o conversione strutturata di documenti.

Per l’uso in robotica e nelle pipeline visive, il modello può essere impiegato per etichettare filmati di teleoperazione, identificare i confini dei task, rilevare successo o fallimento e generare annotazioni che i sistemi downstream possono consumare direttamente.

Casi d'uso

  • Revisione video ed estrazione di eventi: Analizza registrazioni lunghe per identificare quando si verifica una specifica azione, come tentativi di presa, eventi di rifornimento o altri traguardi operativi.
  • Annotazione di dati per robotica: Trasforma filmati di teleoperazione in etichette supervisionate, annotazioni condizionate dall’azione, punteggi di qualità o confini di sottoattività per addestrare modelli downstream.
  • Ricerca visiva e tracciamento di asset: Usa un’immagine o un video di riferimento per individuare elementi corrispondenti in nuovi set di immagini o stream video.
  • Ispezione industriale e attività di lettura: Legge indicatori, orologi, dashboard, pannelli di controllo legacy e testo disordinato in ambienti operativi.
  • Strutturazione di documenti: Converte documenti complessi in HTML, JSON o Markdown preservando layout, tabelle, gerarchia e annotazioni manoscritte.

FAQ

Mk1 richiede fine-tuning per attività di matching o detection? No. La fonte dice che può eseguire in-context matching da una singola immagine o video di riferimento senza fine-tuning, dataset etichettato o pipeline di training.

Che tipo di output può produrre? Può restituire testo e anche output spaziali strutturati come punti, box, poligoni, track, clip e timecode, a seconda del task.

Mk1 è solo per i video? No. La fonte lo descrive come forte nel ragionamento sulle immagini oltre che nel video e nell’embodied reasoning.

Può gestire video lunghi? Supporta l’analisi dinamica del frame rate fino a 2 FPS all’interno di una finestra di contesto da 32K token, il che indica il supporto per l’analisi di video più lunghi, anche se la fonte non indica una durata massima esplicita.

Alternative

  • Modelli multimodali frontier generali: La fonte confronta Mk1 con modelli di Google, OpenAI, Anthropic e Alibaba che gestiscono anch’essi image e video reasoning, anche se formati di output e prezzi possono differire.
  • Modelli open-source vision-language: Possono essere preferibili quando i team vogliono pesi aperti o controllo locale, ma la fonte presenta Mk1 come un’opzione closed-source focalizzata su prestazioni e output strutturati.
  • Pipeline di percezione per la robotica con componenti separati: Alcuni team possono usare modelli separati per detection, OCR, tracking e annotazione, mentre Mk1 mira a combinare questi passaggi in una sola chiamata al modello.
  • Strumenti tradizionali di OCR/estrazione documenti: Possono funzionare bene per documenti ricchi di testo, ma Mk1 è descritto come in grado di gestire layout più complessi, scrittura a mano e ragionamento multimodale nello stesso workflow.
Perceptron Mk1 | UStack