Community비교
문서 요약 SaaS, GPT-4o vs Claude Sonnet 한 달 실트래픽 A/B 결과
서
서동현
@bigdata_seo
PDF 올리면 핵심 뽑아주는 1인 SaaS를 굴리는데, 모델 못 정하고 미루다가 그냥 실사용 트래픽을 절반씩 갈라 한 달 돌렸습니다. 벤치 점수가 아니라 "한국어 표 섞인 PDF" 워크로드에서 실제로 뭐가 나은지가 궁금했어서요.
| 항목 | GPT-4o | Claude Sonnet 4.6 |
|---|---|---|
| 한국어 표(표 많은 PDF) | 셀 병합·행 누락 가끔 발생 | 빈도 확실히 낮음 |
| 응답 속도(체감) | 짧은 요청에서 더 빠름 | 약간 느림 |
| prompt caching | 같은 양식 반복 처리 시 인풋 비용 큰 폭 절감 | 동일하게 큰 효과 |
| structured output | 스키마 강제 안정 | 스키마 강제 안정 |
품질 평가는 양 늘면서 눈으로 못 버텨 LLM-judge로 넘겼는데, judge가 자기 계열(같은 벤더) 출력을 미세하게 후하게 주는 게 보였습니다. 그래서 평가 모델은 생성 모델과 다른 벤더로 분리했고요. 이게 정석인지는 모르겠지만 자기편 들기는 줄더군요.
저는 Sonnet 기본 + 짧고 단순한 요청만 더 싼 모델로 라우팅하는 쪽으로 굳혔습니다. 한 모델로 다 막으려던 걸 포기하고 난이도로 쪼갠 게 비용에선 제일 컸어요. 다만 이건 '표 많은 긴 한국어 PDF'라는 제 워크로드 한정 결론입니다. 일반화하지 마시고, 본인 트래픽 반 갈라서 직접 돌려보시는 게 트위터 벤치 백 개보다 낫습니다.