Long Horizon

Long Horizon이란?

Long Horizon은 코딩 에이전트가 웹 애플리케이션에 대한 브라우저 기반 테스트를 계획·작성·실행할 수 있게 하는 에이전트 기반 프론트엔드 테스트 도구입니다. 핵심 목적은 팀이 실제 브라우저에서 기능을 검증하고 검토 가능한 증거로 문제를 드러내는 것입니다.

테스트 생성만 하는 대신, Long Horizon은 실제 브라우저 세션에서 테스트를 실행하고 공유 가능한 실행 리포트를 생성합니다. 이 리포트에는 실행 로그와 스크린샷, 네트워크 세부 정보 등의 첨부 파일이 포함되어 디버깅과 재현 가능한 테스트 실행을 지원합니다.

주요 기능

기능 및 리포지토리 컨텍스트 기반 에이전트 주도 테스트 계획
- 에이전트가 기능 및 리포 입력을 기반으로 테스트 대상(핵심 경로, 엣지 케이스, 실패 시나리오)을 초안합니다.
자동화된 브라우저 기반 테스트 실행
- 실제 브라우저에서 테스트를 실행하므로 어설션은 실제 UI 동작과 네트워크 상호작용을 반영합니다.
로그와 첨부 파일이 포함된 공유 가능한 실행 리포트
- 실행 로그와 스크린샷 등의 아티팩트를 포함해 검토를 위해 설계되었습니다.
안정적이고 재현 가능한 실행
- 워크플로우는 실패를 재방문하고 이해할 수 있도록 반복 가능한 세션을 강조합니다.
프로젝트 테스트 파일에 작성되는 테스트 작성
- 에이전트가 프로젝트에 테스트를 작성합니다(예시에는 여러 체크아웃 관련 테스트 파일 포함).
실패 테스트를 위한 디버깅 워크플로우
- 실행이 실패하면 에이전트가 문제를 식별하고 변경을 제안합니다; 개발자는 로그를 검토하고 복잡한 시나리오를 지원할 수 있습니다.
수동 검사용 슬로우 모드 / 스텝 모드
- 실패나 복잡한 플로우 중 개발자가 동작을 관찰할 수 있도록 실행 모드를 제공합니다.
에이전트 변경을 안내하는 UI 피드백
- 사용자가 UI에서 요소 수준 댓글로 직접 피드백을 남길 수 있으며, 에이전트는 스크린샷과 요소 HTML 등의 컨텍스트를 반영합니다.

Long Horizon 사용 방법

개발 중인 기능에서 시작해 관련 리포지토리 컨텍스트를 에이전트에 제공합니다.
에이전트에게 기능에 대한 테스트 계획(해피 경로, 엣지 케이스, 오류 시나리오 포함)을 초안하도록 요청합니다.
에이전트가 프로젝트에 테스트를 작성한 후 실제 브라우저에서 테스트를 실행합니다.
생성된 실행 리포트(로그와 첨부 스크린샷 포함)를 검토합니다.
테스트가 실패하면 디버깅 워크플로우를 사용합니다—실패 출력을 검토하고 에이전트가 수정안을 제안하도록 한 후 재실행합니다.

제공된 예시에서 워크플로우는 체크아웃 시나리오 계획(예: “checkout — happy path,” “cart — empty checkout blocked,” “payment — decline and retry”)을 포함하며, 브라우저 세션에서 실행하고 확인 ID 및 DOM 가시성 등의 어설션을 검증합니다.

사용 사례

로그인 사용자 체크아웃 해피 경로 회귀 테스트
- 로그인 사용자가 구매를 완료하는 에이전트 계획 시나리오를 실행하고 확인 경로가 예상 ID(예: DOM 내 주문 ID 및 이메일)를 렌더링하는지 검증합니다.
장바구니가 비었을 때 체크아웃 방지
- 장바구니가 비었을 때 체크아웃 호출-to-action이 비활성화 상태를 유지하고 결제 관련 네트워크 호출이 트리거되지 않는지 검증합니다.
카드 거절 및 재시도 플로우 처리
- 거절된 카드를 시뮬레이션하고 인라인 오류가 표시되는지 확인하며, 사용자가 결제 수단을 변경해 주문을 성공적으로 완료할 수 있는지 검증합니다.
게스트 체크아웃 및 이메일 전용 결제 플로우 테스트
- 계정 없이 진행하는 체크아웃 시나리오를 확인하고 결제 전 사전 검사(소스에 언급된 사기 검사 등)가 결제 전에 발생하는지 확인합니다.
복잡한 플로우에서의 실패 디버깅 및 수정
- 브라우저 테스트가 예상치 못한 차단 조건(예: 재고 gating 체크아웃)으로 실패할 때 로그로 문제를 식별하고 mocks/stubs(예: 재고 가용성)를 업데이트한 후 재실행합니다.

자주 묻는 질문

Long Horizon은 테스트를 생성하나요, 아니면 실행만 하나요?

둘 다입니다. 에이전트가 테스트 계획을 작성하고, 프로젝트에 테스트를 authoring한 후 실제 브라우저에서 실행합니다.

테스트 실행 후 Long Horizon이 어떤 출력을 생성하나요?

실행 리포트는 공유 가능하며, 완전한 실행 로그와 스크린샷 등의 첨부 파일을 포함하고, 네트워크 정보 등의 추가 세부 사항이 언급됩니다.

개발자들이 실패를 검토하고 시나리오를 단계별로 확인할 수 있나요?

네. 워크플로에는 실행 로그 검토와 슬로우 모드, 스텝 모드 등의 옵션이 포함되어 수동 검토가 가능합니다.

에이전트 디버깅은 어떻게 작동하나요?

테스트가 실패하면 에이전트가 문제를 파악하고 수정 사항을 제안합니다. 개발자는 mocks(예: inventory)를 조정하고 동일한 테스트를 재실행하는 등의 방식으로 지원할 수 있습니다.

팀 멤버가 수정 중 에이전트에게 지침을 제공할 수 있나요?

UI 피드백 인터페이스에서 UI 요소에 댓글을 남길 수 있습니다. 에이전트는 스크린샷, 댓글, 요소 HTML을 사용합니다.

대안

기존 프론트엔드 엔드투엔드 테스트 프레임워크
- E2E 카테고리 도구는 브라우저 테스트를 실행할 수 있지만, 일반적으로 에이전트 주도의 계획, 작성, 실행 대신 더 많은 수동 테스트 계획과 authoring이 필요합니다.
수동 트리아지와 함께 스크립트화된 QA 테스트 스위트
- 팀은 스크립트 테스트를 작성·실행하고 로그로 디버깅할 수 있습니다. Long Horizon의 차이점은 계획, 작성, 디버깅을 위한 에이전트 지원 워크플로를 강조한다는 점입니다.
실제 브라우저 실행 없이 테스트를 생성하는 에이전트 워크플로 도구
- 일부 접근 방식은 테스트 코드나 리포트를 생성하는 데 초점; Long Horizon은 검토 가능한 실행 리포트와 함께 실제 브라우저 실행에 특화되어 있습니다.
CI 기반 브라우저 테스트 파이프라인
- 지속적 통합 설정은 브라우저 테스트를 반복 실행할 수 있습니다. Long Horizon은 기능 배포와 디버깅을 지원하는 에이전트 테스트 생성과 공유 가능한 실행 리포트에 중점을 둡니다.