OrchestraML icon

OrchestraML

OrchestraML 是一款多智能体机器学习工作流工具,可将自然语言目标引导到数据处理、建模、评估与部署,适合需要人类审批的 ML 自动化用户。

OrchestraML

什么是 OrchestraML?

OrchestraML 是一款 AI 辅助的机器学习工作流工具,可将用自然语言描述的 ML 目标转化为引导式流水线。它支持数据集搜索或上传、探索性数据分析、清洗、特征工程、使用 AutoML 进行模型选择、评估,以及部署或打包导出。

该产品围绕多智能体工作流设计,并在关键检查点设置人工审批。它会用通俗英文记录决策,生成包含指标和可解释性产物的报告,还可以输出可下载的模型包或实时 API 端点。

主要功能

  • 多智能体流水线编排:分别由不同智能体处理编排、数据集选择、EDA、清洗、特征工程、建模、评估和部署。
  • 人工检查点:流水线在 6 个关键关卡暂停,用户可在继续前审批或引导决策。
  • AutoML 模型搜索:使用 FLAML AutoML,并根据数据集大小和任务复杂度自适应分配时间预算来选模。
  • 审计轨迹与报告:记录 AI 决策及通俗英文推理,并生成包含指标、图表、SHAP 可解释性、偏差检查和部署选项的分栏报告。
  • 数据准备与诊断:包括自动剖析、空值与异常值处理、类别不平衡检测、特征选择,以及分布图、热力图、类别平衡图和箱线图等 EDA 图表。
  • 导出与部署选项:生成可直接运行的 ZIP 包,包含 model.pklscaler.pklpredict.pyrequirements.txt 和 README 等文件,或部署为实时 API。
  • 安全处理:上传时加密数据集,并在流水线完成后删除它们,仅保留训练好的模型。

如何使用 OrchestraML

先用自然语言描述你的 ML 目标,然后上传数据集,或者让智能体为你寻找数据集。系统随后会逐步运行流水线,显示日志,并在关键检查点请求批准。

工作流完成后,查看包含指标、SHAP 解释、偏差分析和 AI 决策日志的报告。之后,你可以下载模型包,或将生成的模型部署为 API。

使用场景

  • 需要构建第一个机器学习项目、但不想手动编写预处理、模型选择或部署代码的学生。
  • 手头有 CSV,希望获得清洗数据、训练模型并查看性能的引导式工作流的分析师。
  • 在共享模型前,需要 SHAP 图和单次预测解释等可解释性产物的用户。
  • 希望关键步骤需要审批、而不是完全无人值守自动化的团队。
  • 需要可打包的本地模型交付物(包括训练好的模型、预处理文件和预测脚本)的工作流。

常见问题

  • OrchestraML 需要 ML 专业知识吗?不需要。来源说明用户可以用自然语言描述目标,开始时无需 ML 专业知识。
  • 我可以上传自己的数据集吗?可以。该产品支持由智能体处理的数据集上传或数据集搜索。
  • 流水线会在无人监督下运行吗?不会。它包含 6 个人工检查点,流水线会在关键操作继续前暂停等待批准。
  • 输出包含什么?报告包含指标、SHAP 可解释性、偏差分析和部署选项,产品也可以导出可下载的打包文件。
  • 它支持实时部署吗?支持。来源说明用户可以下载模型包,也可以部署实时 API。

替代方案

  • 传统的基于 Notebook 的工作流:提供更多手动控制和灵活性,但需要用户逐步处理分析、清洗、训练和打包。
  • 托管式 AutoML 平台:侧重自动模型选择和训练,但可能不强调多智能体、带检查点的工作流,也不具备同等程度的决策审计细节。
  • 由多个工具构建的 MLOps 流水线:可以覆盖从数据准备到部署的全流程,但通常需要组装和维护多个组件,而不是使用一个引导式界面。
  • 使用 Python ML 库手动编写脚本:提供最高的定制性,但会把 EDA、特征工程、评估和部署设置的全部负担都交给用户。