Long Horizon

Long Horizon 是一款能规划、编写并在真实浏览器中运行的前端测试工具，生成可共享执行报告（含日志与截图），便于自信交付。

Long Horizon

Long Horizon 是什么？

Long Horizon 是一款代理式前端测试工具，可让编码代理规划、编写并运行 Web 应用的浏览器测试。其核心目的是帮助团队在真实浏览器中验证功能，并提供可审查的证据来揭示问题。

Long Horizon 不仅生成测试，还在真实浏览器会话中运行它们，并生成可共享的执行报告。这些报告包含执行日志和附件（如截图和网络详情），支持调试和可重现的测试运行。

主要功能

基于功能和仓库上下文的代理驱动测试规划
- 代理根据功能和仓库输入，起草测试内容（核心路径、边缘情况和失败场景）。
自动化的浏览器测试执行
- 测试在真实浏览器中运行，因此断言反映实际 UI 行为和网络交互。
带日志和附件的可共享执行报告
- 输出专为审查设计，包括执行日志和工件（如截图）。
可靠、可重现的运行
- 工作流强调可重复会话，以便重新审视和理解失败。
测试编写到项目测试文件中
- 代理在项目中编写测试（示例包括多个与结账相关的测试文件）。
失败测试的调试工作流
- 运行失败时，代理可识别问题并提出变更；开发者可审查日志并协助处理棘手场景。
手动检查的慢速模式 / 步骤模式
- 运行可采用帮助开发者观察失败或复杂流程行为的模式。
UI 反馈指导代理变更
- 用户可在 UI 上直接留下反馈，包括元素级注释；代理会纳入截图和元素 HTML 等上下文。

如何使用 Long Horizon

从开发中的功能开始，向代理提供相关仓库上下文。
让代理为功能起草测试计划（包括快乐路径、边缘情况和错误场景）。
让代理在项目中编写测试，然后在真实浏览器中运行测试。
审查生成的执行报告，包括日志和附带的截图。
如果测试失败，使用调试工作流——审查失败输出，让代理提出修复，然后重新运行。

在提供的示例中，工作流包括为结账规划场景（例如“结账 — 快乐路径”、“购物车 — 空购物车被阻止结账”和“支付 — 拒绝并重试”），在浏览器会话中运行这些场景，并验证断言，如确认 ID 和 DOM 可见性。

使用场景

已登录用户的结账快乐路径回归测试
- 运行代理规划的场景，让已登录用户完成购买，并验证确认路由渲染预期标识符（例如 DOM 中的订单 ID 和邮箱）。
购物车为空时阻止结账
- 验证购物车为空时结账调用行动保持禁用，且不触发支付相关的网络调用。
处理卡拒绝和重试流程
- 模拟卡被拒绝，确认内联错误显示，并验证用户可更改支付方式并成功完成订单。
测试访客结账和仅邮箱支付流程
- 检查用户无账户推进结账的场景，并确保付款前进行预付款检查（如源代码中提到的欺诈检查）。
复杂流程中调试和修复失败
- 当浏览器测试因意外阻塞条件失败（例如库存限制结账）时，使用日志识别问题，更新模拟/存根（如库存可用性），然后重新运行。

常见问题

Long Horizon 是生成测试还是仅运行测试？

两者皆是。代理会起草测试计划、在项目中编写测试，然后在真实浏览器中执行这些测试。

Long Horizon 在测试运行后生成何种输出？

执行报告可共享，包含完整的执行日志和附件（如截图），并提及网络信息等额外细节。

开发者能否审查失败并逐步执行场景？

可以。工作流程包括开发者审查执行日志，并提供慢速模式和步进模式等选项用于手动检查。

代理调试如何工作？

测试失败时，代理可识别问题所在并建议修复；开发者也可协助，例如调整模拟数据（如库存）并重新运行同一测试。

团队成员如何在修复过程中为代理提供指导？

源描述了一种 UI 反馈界面，用户可在 UI 元素上留言。代理使用截图、留言和元素 HTML。

替代方案

传统前端端到端测试框架
- E2E 类别工具可运行浏览器测试，但通常需要更多手动测试规划和编写，而非代理驱动的规划、编写和执行。
带手动分诊的脚本化 QA 测试套件
- 团队可编写和运行脚本化测试，然后使用日志调试；区别在于 Long Horizon 强调代理辅助的工作流程，用于规划、编写和调试。
生成测试但无真实浏览器运行的代理工作流程工具
- 某些方法专注于生成测试代码或报告；Long Horizon 的定位特别强调真实浏览器执行及可审查的执行报告。
基于 CI 的浏览器测试流水线
- 持续集成设置可重复运行浏览器测试；Long Horizon 聚焦于代理测试创建和可共享执行报告，以支持功能交付和调试。

替代品

PromptLayer

PromptLayer 帮助团队对提示词和 AI 代理进行版本管理与测试：借助评估、追踪和回归集监控表现，并提供协作可视化编辑器。

Evidently AI

Evidently AI 是 AI 评估与 LLM 可观测平台，用于测试与监控生产级 AI 系统，支持 LLM 评估、RAG 评测、对抗合成测试与持续性能追踪。

Crikket

Crikket：开源bug报告平台，快速捕获和共享技术细节，加速问题解决。立即体验！

Roo Code

Roo Code在编辑器与云端agents中提供AI软件工程团队，支持角色化Modes与可配置控制，并与GitHub工作流连接用于编码、调试和测试。

Logic

Logic 是一款基于规格的智能体平台，可将书面智能体规范生成生产级 API，并内置测试、版本管理、模型路由与执行日志。

TestLaunch Pro

TestLaunch Pro 是付费应用测试市场：帮助开发者购买 Google Play 封闭测试的自愿测试者；测试者下载应用、提交反馈并经 PayPal 提现。