Community비교2025년 12월 15일

문서 요약 SaaS, GPT-4o vs Claude Sonnet 한 달 실트래픽 A/B 결과

서

서동현

@bigdata_seo

PDF 올리면 핵심 뽑아주는 1인 SaaS를 굴리는데, 모델 못 정하고 미루다가 그냥 실사용 트래픽을 절반씩 갈라 한 달 돌렸습니다. 벤치 점수가 아니라 "한국어 표 섞인 PDF" 워크로드에서 실제로 뭐가 나은지가 궁금했어서요.

항목	GPT-4o	Claude Sonnet 4.6
한국어 표(표 많은 PDF)	셀 병합·행 누락 가끔 발생	빈도 확실히 낮음
응답 속도(체감)	짧은 요청에서 더 빠름	약간 느림
prompt caching	같은 양식 반복 처리 시 인풋 비용 큰 폭 절감	동일하게 큰 효과
structured output	스키마 강제 안정	스키마 강제 안정

품질 평가는 양 늘면서 눈으로 못 버텨 LLM-judge로 넘겼는데, judge가 자기 계열(같은 벤더) 출력을 미세하게 후하게 주는 게 보였습니다. 그래서 평가 모델은 생성 모델과 다른 벤더로 분리했고요. 이게 정석인지는 모르겠지만 자기편 들기는 줄더군요.

저는 Sonnet 기본 + 짧고 단순한 요청만 더 싼 모델로 라우팅하는 쪽으로 굳혔습니다. 한 모델로 다 막으려던 걸 포기하고 난이도로 쪼갠 게 비용에선 제일 컸어요. 다만 이건 '표 많은 긴 한국어 PDF'라는 제 워크로드 한정 결론입니다. 일반화하지 마시고, 본인 트래픽 반 갈라서 직접 돌려보시는 게 트위터 벤치 백 개보다 낫습니다.

← 커뮤니티

문서 요약 SaaS, GPT-4o vs Claude Sonnet 한 달 실트래픽 A/B 결과

이 글에 대한 Q&A

댓글