Long Horizon 是什么?
Long Horizon 是一款代理式前端测试工具,可让编码代理规划、编写并运行 Web 应用的浏览器测试。其核心目的是帮助团队在真实浏览器中验证功能,并提供可审查的证据来揭示问题。
Long Horizon 不仅生成测试,还在真实浏览器会话中运行它们,并生成可共享的执行报告。这些报告包含执行日志和附件(如截图和网络详情),支持调试和可重现的测试运行。
主要功能
- 基于功能和仓库上下文的代理驱动测试规划
- 代理根据功能和仓库输入,起草测试内容(核心路径、边缘情况和失败场景)。
- 自动化的浏览器测试执行
- 测试在真实浏览器中运行,因此断言反映实际 UI 行为和网络交互。
- 带日志和附件的可共享执行报告
- 输出专为审查设计,包括执行日志和工件(如截图)。
- 可靠、可重现的运行
- 工作流强调可重复会话,以便重新审视和理解失败。
- 测试编写到项目测试文件中
- 代理在项目中编写测试(示例包括多个与结账相关的测试文件)。
- 失败测试的调试工作流
- 运行失败时,代理可识别问题并提出变更;开发者可审查日志并协助处理棘手场景。
- 手动检查的慢速模式 / 步骤模式
- 运行可采用帮助开发者观察失败或复杂流程行为的模式。
- UI 反馈指导代理变更
- 用户可在 UI 上直接留下反馈,包括元素级注释;代理会纳入截图和元素 HTML 等上下文。
如何使用 Long Horizon
- 从开发中的功能开始,向代理提供相关仓库上下文。
- 让代理为功能起草测试计划(包括快乐路径、边缘情况和错误场景)。
- 让代理在项目中编写测试,然后在真实浏览器中运行测试。
- 审查生成的执行报告,包括日志和附带的截图。
- 如果测试失败,使用调试工作流——审查失败输出,让代理提出修复,然后重新运行。
在提供的示例中,工作流包括为结账规划场景(例如“结账 — 快乐路径”、“购物车 — 空购物车被阻止结账”和“支付 — 拒绝并重试”),在浏览器会话中运行这些场景,并验证断言,如确认 ID 和 DOM 可见性。
使用场景
- 已登录用户的结账快乐路径回归测试
- 运行代理规划的场景,让已登录用户完成购买,并验证确认路由渲染预期标识符(例如 DOM 中的订单 ID 和邮箱)。
- 购物车为空时阻止结账
- 验证购物车为空时结账调用行动保持禁用,且不触发支付相关的网络调用。
- 处理卡拒绝和重试流程
- 模拟卡被拒绝,确认内联错误显示,并验证用户可更改支付方式并成功完成订单。
- 测试访客结账和仅邮箱支付流程
- 检查用户无账户推进结账的场景,并确保付款前进行预付款检查(如源代码中提到的欺诈检查)。
- 复杂流程中调试和修复失败
- 当浏览器测试因意外阻塞条件失败(例如库存限制结账)时,使用日志识别问题,更新模拟/存根(如库存可用性),然后重新运行。
常见问题
Long Horizon 是生成测试还是仅运行测试?
两者皆是。代理会起草测试计划、在项目中编写测试,然后在真实浏览器中执行这些测试。
Long Horizon 在测试运行后生成何种输出?
执行报告可共享,包含完整的执行日志和附件(如截图),并提及网络信息等额外细节。
开发者能否审查失败并逐步执行场景?
可以。工作流程包括开发者审查执行日志,并提供慢速模式和步进模式等选项用于手动检查。
代理调试如何工作?
测试失败时,代理可识别问题所在并建议修复;开发者也可协助,例如调整模拟数据(如库存)并重新运行同一测试。
团队成员如何在修复过程中为代理提供指导?
源描述了一种 UI 反馈界面,用户可在 UI 元素上留言。代理使用截图、留言和元素 HTML。
替代方案
- 传统前端端到端测试框架
- E2E 类别工具可运行浏览器测试,但通常需要更多手动测试规划和编写,而非代理驱动的规划、编写和执行。
- 带手动分诊的脚本化 QA 测试套件
- 团队可编写和运行脚本化测试,然后使用日志调试;区别在于 Long Horizon 强调代理辅助的工作流程,用于规划、编写和调试。
- 生成测试但无真实浏览器运行的代理工作流程工具
- 某些方法专注于生成测试代码或报告;Long Horizon 的定位特别强调真实浏览器执行及可审查的执行报告。
- 基于 CI 的浏览器测试流水线
- 持续集成设置可重复运行浏览器测试;Long Horizon 聚焦于代理测试创建和可共享执行报告,以支持功能交付和调试。
替代品
PromptLayer
PromptLayer 帮助团队对提示词和 AI 代理进行版本管理与测试:借助评估、追踪和回归集监控表现,并提供协作可视化编辑器。
Evidently AI
Evidently AI 是 AI 评估与 LLM 可观测平台,用于测试与监控生产级 AI 系统,支持 LLM 评估、RAG 评测、对抗合成测试与持续性能追踪。
Crikket
Crikket:开源bug报告平台,快速捕获和共享技术细节,加速问题解决。立即体验!
Roo Code
Roo Code在编辑器与云端agents中提供AI软件工程团队,支持角色化Modes与可配置控制,并与GitHub工作流连接用于编码、调试和测试。
Logic
Logic 是一款基于规格的智能体平台,可将书面智能体规范生成生产级 API,并内置测试、版本管理、模型路由与执行日志。
TestLaunch Pro
TestLaunch Pro 是付费应用测试市场:帮助开发者购买 Google Play 封闭测试的自愿测试者;测试者下载应用、提交反馈并经 PayPal 提现。