중단·재개가 기본값이 되다: 내구성 실행이 에이전트 운영을 바꾸는 방식
에이전트가 몇 분이 아니라 몇 시간씩 도는 워크로드가 늘면서, 하니스가 'crash하면 처음부터'를 버리고 워크플로 엔진의 내구성 실행(durable execution)을 흡수하고 있다. 각 도구 호출·LLM 호출을 단계로 기록해 두고, 프로세스가 죽거나 배포로 재시작돼도 마지막 성공 지점부터 이어 가는 방식이다. Cloudflare Agents SDK와 Workflows, Temporal류가 이 패턴을 에이전트 루프에 직접 끌어왔다. 실무에서 바뀌는 건 두 가지다. 첫째, LLM 호출을 멱등하게 만들고 부수효과(결제·메일)를 한 번만 실행되도록 단계 경계를 잡아야 한다. 둘째, 재개 시점에 컨텍스트를 어디서 복원할지가 중단/재개의 진짜 난제다. 단계 로그만 있고 모델 컨텍스트 스냅샷이 없으면 재개해도 에이전트가 길을 잃는다. 관측성도 요청 단위 로그에서 단계별 타임라인으로 옮겨 가야 디버깅이 된다.
한국 개발자가 장기 실행 에이전트를 프로덕션에 올린다면, 루프를 짜기 전에 '도구 호출 멱등성'과 '재개 시 컨텍스트 복원 지점'을 먼저 설계해야 배포·장애가 작업을 통째로 날리지 않는다.
원문 출처
Cloudflare Blog