UStackUStack
Perceptron Mk1 icon

Perceptron Mk1

Perceptron Mk1 es un modelo multimodal de código cerrado para comprensión de video, razonamiento visual y flujos de trabajo de robótica con salidas estructuradas.

Perceptron Mk1

¿Qué es Perceptron Mk1?

Perceptron Mk1 es un modelo de código cerrado de Perceptron diseñado para comprensión de video y razonamiento encarnado. Está pensado para analizar imágenes y video, razonar a lo largo del tiempo y producir salidas estructuradas como timecodes, clips, puntos, cajas, polígonos, tracks y texto.

El modelo está orientado a flujos de trabajo de IA física y robótica, donde puede procesar flujos visuales continuos en lugar de fotogramas aislados. Según la fuente, iguala el rendimiento de vanguardia en tareas de imagen, video y razonamiento encarnado, a la vez que tiene un precio inferior al de algunas ofertas comparables de vanguardia.

Características clave

  • Razonamiento temporal sobre video: Mk1 puede examinar eventos a lo largo del tiempo y devolver desgloses estructurados de lo que ocurrió y cuándo, lo que resulta útil para tareas secuenciales como el análisis deportivo o grabaciones de cocina.
  • Grounding dinámico de video: Analiza video a hasta 2 FPS dentro de una ventana de contexto de 32K tokens y puede devolver timecodes accionables para momentos específicos.
  • Match in-context multimodal: Los usuarios pueden proporcionar una imagen o un video de referencia y pedir al modelo que encuentre instancias coincidentes en nuevas imágenes y videos sin fine-tuning ni datos de entrenamiento etiquetados.
  • Comparación entre medios: Dados dos elementos multimedia, Mk1 puede producir una comparación lado a lado, lo que admite flujos de trabajo de revisión e inspección.
  • Razonamiento avanzado de imágenes: El modelo admite señalamiento, conteo, OCR, lectura de instrumentos y extracción estructurada de documentos, incluidas disposiciones complejas, tablas, escritura a mano y contenido multilingüe.
  • Salidas espaciales estructuradas: Mk1 puede emitir primitivas de punto, caja, polígono, track y clip como salidas de primera clase, lo que facilita incorporar los resultados en sistemas posteriores de robótica o visión.

Cómo usar Perceptron Mk1

Un flujo de trabajo típico comienza enviando una imagen, un video o varias entradas multimedia junto con un prompt que especifica la tarea. Los usuarios pueden pedir localización de objetos, conteo, OCR, detección de eventos, extracción de timecodes, comparación o conversión estructurada de documentos.

Para uso en robótica y pipelines visuales, el modelo puede emplearse para etiquetar grabaciones de teleoperación, identificar límites de tareas, detectar éxito o fallo y generar anotaciones que los sistemas posteriores puedan consumir directamente.

Casos de uso

  • Revisión de video y extracción de eventos: Analiza grabaciones largas para identificar cuándo ocurre una acción específica, como intentos de agarre, eventos de reposición u otros hitos de una tarea.
  • Anotación de datos de robótica: Convierte grabaciones de teleoperación en etiquetas supervisadas, anotaciones condicionadas por acción, puntuaciones de calidad o límites de subtareas para entrenar modelos posteriores.
  • Búsqueda visual y seguimiento de activos: Usa una imagen o video de referencia para localizar elementos coincidentes en nuevos conjuntos de imágenes o flujos de video.
  • Inspección industrial y tareas de lectura: Lee medidores, relojes, paneles, tableros de control antiguos y texto desordenado en entornos operativos.
  • Estructuración de documentos: Convierte documentos complejos en HTML, JSON o Markdown preservando el diseño, las tablas, la jerarquía y las anotaciones manuscritas.

FAQ

¿Mk1 requiere fine-tuning para tareas de coincidencia o detección? No. La fuente dice que puede realizar matching in-context a partir de una sola imagen o video de referencia sin fine-tuning, un conjunto de datos etiquetado ni un pipeline de entrenamiento.

¿Qué tipos de salidas puede producir? Puede devolver texto, así como salidas espaciales estructuradas como puntos, cajas, polígonos, tracks, clips y timecodes, según la tarea.

¿Mk1 es solo para video? No. La fuente lo describe como fuerte tanto en razonamiento de imagen como en video y razonamiento encarnado.

¿Puede manejar video largo? Admite análisis dinámico de fotogramas de hasta 2 FPS dentro de una ventana de contexto de 32K tokens, lo que indica compatibilidad con análisis de video de formato largo, aunque la fuente no indica una duración máxima exacta del video.

Alternativas

  • Modelos multimodales frontier de uso general: La fuente compara Mk1 con modelos de Google, OpenAI, Anthropic y Alibaba que también manejan razonamiento sobre imágenes y video, aunque sus formatos de salida y precios pueden variar.
  • Modelos de visión-lenguaje de código abierto: Pueden ser preferibles cuando los equipos quieren pesos abiertos o control local, pero la fuente presenta Mk1 como una opción de código cerrado centrada en el rendimiento y las salidas estructuradas.
  • Pipelines de percepción para robótica con componentes separados: Algunos equipos pueden usar modelos separados para detección, OCR, seguimiento y anotación, mientras que Mk1 busca combinar estos pasos en una sola llamada al modelo.
  • Herramientas tradicionales de OCR/extracción de documentos: Pueden funcionar bien para documentos con mucho texto, pero Mk1 se describe como capaz de manejar diseños más complejos, escritura a mano y razonamiento multimodal en el mismo flujo de trabajo.
Perceptron Mk1 | UStack