Gemini 2.5 Pro vs Claude vs GPT-5, 한국어 법률문서(3~4만 토큰) 요약 어느 게 제일 나을까요

Question

법률 문서(평균 34만 토큰) 요약/추출 서비스를 준비 중입니다. 한국어 비중이 99%고, 정확도가 비용보다 중요합니다. 세 모델 다 한 번씩 붙여봤는데 체감만으로는 판단이 어렵네요. 혹시 비슷한 워크로드 돌려보신 분들 계시면 한국어 장문 처리에서 실제로 어떤 차이를 느끼셨는지 궁금합니다. 컨텍스트 윈도우, 환각, 인용 정확도 위주로요. 벤치마크 숫자 말고 실무 감각이 듣고 싶습니다.

Accepted Answer

셋 다 1M급이라 34만 토큰은 윈도우 자체가 문제될 일은 없고, 정확도 우선이면 결국 "근거 추적" 되는 쪽이 답입니다. 법률 도메인이면 Claude의 Citations(citations: {enabled: true}) 한 번 보세요. 요약 문장마다 원문 어느 span에서 나왔는지 구조적으로 돌려줘서, "이 문장 출처 어디?"를 사람이 재검수할 때 이게 진짜 큽니다. 근거를 그럴듯하게 지어내는 빈도도 제 데이터셋(계약서/판결문 섞인 거)에선 셋 중 제일 적었어요. 장문 앞뒤 모순 안 내고 끌고 가는 건 Opus 계열이랑 Gemini 2.5 Pro가 강한 편. GPT 계열은 한국어 고유명사·날짜에서 가끔 멀쩡한 얼굴로 지어내는 걸 봤습니다(예: 당사자 이름 미묘하게 바꿔놓거나 조항 번호 헷갈리거나). 케바케긴 한데, 아무 제약 없이 던지면 셋 다 윤색 들어가니 "원문에 없는 내용 추가 금지, 추정 금지"를 프롬프트에 박아두는 게 안전합니다. 실무 팁이라면, 정확도가 돈보다 중요하다 하셨으니 effort 올려두고(Claude면 outputconfig.effort: "high") 추출은 structured output으로 받아서 "원문에 존재하는 span인지" 검증 패스를 한 겹 더 두세요. 솔직히 모델 고르는 것보다 이 검증 파이프라인이 정확도에 더 크게 작용합니다.

Answer

벤치 숫자 볼 시간에 본인 문서 2030개로 A/B 돌리는 게 100배 빠릅니다. 사람이 직접 채점해서요. 리뷰어 한두 개 통과한 거 보고 "되네" 하면 안 되고 평가셋으로 재현되게 측정해야 합니다. 비교할 때 토큰 카운트 함정 하나만 조심하세요. 같은 한국어 텍스트라도 토크나이저가 달라서 입력 토큰 수랑 비용이 모델마다 다릅니다. tiktoken으로 어림잡지 마세요 — 그거 OpenAI 토크나이저라 Claude/Gemini에는 안 맞고, 한국어 같은 비영어에선 오차가 더 벌어집니다. Claude는 client.messages.counttokens()로 정확히 재서 비용 추정하시고요.

Gemini 2.5 Pro vs Claude vs GPT-5, 한국어 법률문서(3~4만 토큰) 요약 어느 게 제일 나을까요

답변 2개