벤치마크 오염을 잡는 새 표준, 캐넌리 문자열과 시점 분리 골든셋
공개 벤치마크가 학습 데이터에 새어 들어간 contamination이 평가 신뢰를 갉아먹으면서, 탐지·격리 관행이 정착되고 있다. 핵심은 두 가지다. 하나는 데이터셋에 사람이 절대 검색하지 않을 카나리(canary) GUID 문자열을 심어두고, 모델이 그 문자열을 외우고 있으면 해당 셋을 봤다고 판정하는 방식. 다른 하나는 모델 학습 컷오프 이후 시점에 만들어진 문제만 모아 평가하는 시점 분리 골든셋으로, LiveBench류가 월 단위로 문항을 교체해 암기 이점을 제거한다. 정량 신호로는 같은 문제의 정답/오답 보기 순서를 바꿨을 때 정확도가 급락하면 패턴 암기를 의심한다. 실무 함의는 분명하다. 공개 리더보드 점수는 그 자체로는 무의미에 가깝고, 내부 평가는 비공개 홀드아웃과 정기 회전이 없으면 시간이 갈수록 과대평가된다.
한국 개발자가 MMLU·HumanEval 같은 공개 점수만 보고 모델을 고르면 오염된 숫자에 속는다. 자체 골든셋은 비공개로 유지하고 분기마다 새 문항으로 회전시켜야 한다.
원문 출처
LiveBench