LLM-as-judge의 자기편향, 같은 모델 채점 시 평가가 무너지는 지점
심판 모델이 자기 계열이 쓴 답변에 점수를 더 주는 self-preference 편향이 더 정밀하게 측정되고 있다. GPT-5.x로 GPT 출력을, Claude로 Claude 출력을 채점하면 교차 채점 대비 승률이 수 퍼센트포인트 부풀려진다는 재현 결과가 쌓였다. 원인은 단순 브랜드 선호가 아니라 심판이 자기 분포에 가까운 문체·구조를 '더 익숙하니 더 좋다'고 인식하는 perplexity 상관에 있다. 위치 편향(먼저 제시된 답에 후함), 장황함 편향(길수록 후함)과 겹쳐 작동해서 단일 심판 점수는 절대값으로 신뢰하기 어렵다. 완화책으로는 서로 다른 계열 심판 2~3개의 패널 평균, A/B 순서 무작위화와 스왑 후 일치율 측정, 답변 길이 정규화가 표준이 되고 있다. 결국 LLM-as-judge는 랭킹 신호로는 쓸 만하지만 게이트 임계값을 거기에 직접 거는 건 위험하다.
한국 개발자가 자사 LLM 파이프라인을 같은 모델로 자가 평가하면 점수가 구조적으로 부풀려진다. 심판은 반드시 다른 계열로 두거나 패널로 묶고, 순서 스왑 일치율을 함께 봐야 한다.
원문 출처
arXiv