什么是 Luma?
Luma 的 UNI-1.1 API 是一个面向团队的推理模型接口,适用于希望通过 API 工作流生成和修改图像,而非逐提示实验的团队。该模型在生成输出前解析意图,旨在提升首次通过率并减少迭代次数。
该 API 以生产导向的基础设施形式呈现,包含两个端点——一个用于推理,一个用于生成——应用可指定输出风格和构图,然后生成图像或编辑。它还支持 Build 的按使用计费,以及 Scaling 的预置吞吐量。
主要特性
- 双端点工作流(推理 + 生成): 一个推理端点和一个生成端点,将“思考”与输出渲染分离。
- 带引用的意图导向生成: 每次最多 九个引用 用于指导生成,支持可重现工作流。
- 像素前结构化场景逻辑: 智能构图、场景逻辑和空间推理等能力在图像渲染前以结构化方式处理。
- 编辑导向生成: 工作流设计支持按句子级编辑修改提示,同时默认保留现有结构。
- 多语言与一致渲染: 多语言渲染,以及跨场景、姿势和市场的角色/产品一致性作为核心能力。
- 开发者工具: 支持 Python 和 JavaScript/TS SDK(另提 Go SDKs & CLI),另有 API 浏览器和文档用于评估。
如何使用 Luma
- 查看 UNI-1.1 API 文档和 API 浏览器,了解推理/生成流程和输入模式。
- 调用推理端点,输入意图和(必要时)引用输入,生成引导性输出计划。
- 调用生成端点,使用推理步骤的结构化指导渲染最终图像。
- 从按使用计费的 Build 计划开始,以按需付费评估输出质量,然后转向预置吞吐量以获得保证延迟和容量。
使用场景
- 多页面或多活动品牌系统创意: 协调生成跨产品页面和营销活动的图像,包括处理“杂乱或链式提示”而无需构建自定义中间件。
- 偏好少量重试的生产管线: 采用渲染前推理方法,减少达到可接受首次通过所需的再生尝试次数。
- 大规模跨市场创意: 在不同市场生成输出,同时保持跨场景和姿势的角色与产品一致性。
- 带结构化指导的内容变体: 每次生成最多使用九个引用,保持多镜头构图和执行一致。
- 图像修改工作流: 应用句子级编辑同时保留现有结构,迭代图像概念而无需从头开始。
常见问题
-
UNI-1.1 使用多少端点? Luma 描述 两个端点:一个推理端点和一个生成端点。
-
每次生成可使用多少引用? 页面说明 每次最多九个引用。
-
支持哪些编程选项? 页面提及 Python 和 JavaScript/TS SDK,并引用 Go SDKs & CLI。
-
计费是按使用还是按容量? 列出 Build 的 按使用计费(按图像付费)和 Scaling 的 预置吞吐量(专用容量,保证吞吐量和延迟)。
-
有早期评估与生产扩展计划吗? 是的。页面区分 Build(无等待列表评估)和 Scaling(预置吞吐量、更高速率限制和生产支持)。
替代方案
- 其他直接文本到图像工作流的图像生成 API: 这些通常将“思考”和渲染合并为单一步骤;UNI-1.1 通过明确分离推理与生成,并支持参考导向工作流来区分。
- 通用多模态生成平台: 提供图像生成加工具链的平台可用于类似输出任务,但 UNI-1.1 定位于结构化推理和面向生产管线的 API 集成。
- 提示自动化框架和自定义管线: 一些团队不使用双端点推理/生成设计,而是自行构建编排和重试逻辑;UNI-1.1 强调减少提示链和编辑的中介件需求。
- 按需 GPU 图像渲染服务: 对于主要关注大规模渲染的团队,渲染优先服务可能合适,而 UNI-1.1 强调通过推理指导并改善首次输出结果,然后再进行像素生成。
替代品
exactly.ai
exactly.ai 是面向团队的 AI 形象生成与创意工作室,可用签名图像复制品牌视觉风格,生成保持在品牌内的多样作品,且流程更私密。
PXZ AI
一个集成图像、视频、语音、写作和聊天工具的全能AI平台,以增强创造力和协作。
Pic Copilot
使用AI时尚模特、AI产品图像和UGC视频,全面提升您的电子商务商店。无需专业摄影或设计技能。
UNI-1
UNI-1 是 Luma 的多模态推理模型,可生成像素,支持可引导、参考引导的图像生成,用于场景补全与变换等任务。
GPTIMG2 AI
GPTIMG2 AI(GPT Image 2)图像优先AI生成器,支持基于提示词的精修,帮助保留主体、布局与可读的画面文字,用于海报与产品图。
TapNow
TapNow 是面向企业与创作者的 AI 原生视觉创作引擎,生成电商广告到电影短片与实验艺术的专业级视觉。