Label Studio

什么是 Label Studio？

Label Studio 是一个开源数据标注平台，用于准备和管理训练数据并评估 AI 系统。它支持大型语言模型 (LLM) 的微调工作流、监督标注，以及评估用例，如并排比较和响应审核。

该平台设计用于多种数据类型——如图像、音频和语音、文本、时间序列和视频——采用适合每种模态的标注界面（例如分类、目标检测、分割、转录和跟踪）。

开源标注平台，用于准备训练数据并支持 AI 评估工作流，包括 LLM 微调和响应评估。
多模态标注界面，包括计算机视觉（分类、带框/多边形/圆形关键点的目标检测、语义分割）、音频/语音（分类、说话人分离、情感识别、转录）以及 NLP/文档任务（分类多达 10,000 类、命名实体提取、问答、情感分析）。
时间序列标注功能，如图表上的事件识别和基于活动相关区域的时间序列分割。
视频标注和辅助功能，包括视频分类、逐帧目标跟踪，以及通过关键帧插值边界框的辅助标注。
灵活可配置的标注 UI，使用可配置布局和模板，加上集成点，包括 webhooks、Python SDK 和 API，用于认证、项目/任务管理和模型预测管理。
ML 辅助标注和数据连接选项，包括 ML 后端集成以在标注中使用预测，以及通过 S3 和 GCP 直接连接云存储的标签数据。
通过 Data Manager 支持数据集管理，包括高级过滤器以及在平台内管理多个项目和用户的能力。

安装并启动 Label Studio：安装 Python 包 (pip install -U label-studio) 并使用 label-studio 启动，或使用提供的 Docker 命令运行最新镜像并挂载本地数据。
使用平台界面为数据集创建标注项目和任务。
选择匹配您数据类型的标注工作流（例如，图像分类或目标检测；音频转录；文本分类和命名实体提取；时间序列事件标注；视频跟踪）。
可选启用 ML 辅助标注，使用 ML 后端预测预标注项目以加速人工审核。
使用 Data Manager 过滤和管理数据集，然后导出并在训练或评估管道中使用标注结果。

否。该平台支持多种模态，包括图像、音频和语音、文本、时间序列以及视频。

Label Studio 支持图像分类、目标检测和语义分割，包括检测任务的多种标注形状。

是。它支持使用预测辅助标注过程，并提及 ML 后端集成作为工作流程的一部分。

是。它可连接云对象存储，直接使用 S3 和 GCP 标注数据。

该平台提供 Webhook、Python SDK 和 API，用于认证、项目创建、任务导入以及管理模型预测。

支持多模态标注的自托管标注平台：工作流程相似（项目、任务、标注 UI），但 API/SDK 暴露方式和模板可配置性可能不同。
专注于数据集管理和标注的 ML 工作流程平台：适用于主要需求为组织训练数据集的情况，尽管模态特定标注工具的广度可能有所不同。
通用的标注工具（例如，仅支持部分模态的工具）：可用于单模态项目，但时间序列、视频跟踪或高级评估工作流程可能需要额外工具。
基于人工审核 UI 加导出工具的自定义标注管道：适用于独特内部格式，灵活性高，但通常需要更多工程工作来匹配 Label Studio 的现成标注类型和管理功能。