KURE-v2와 bge-m3, 한국어 RAG 임베딩의 실측 격차를 다시 본다
KURE-v2(고려대)와 bge-m3를 한국어 도메인 코퍼스에서 Recall@10으로 붙이면, 일반 위키·뉴스에선 bge-m3가 다국어 강건성으로 앞서지만 법률·의료처럼 한국어 고유 표현이 많은 도메인에선 KURE-v2가 5~9%p 앞서는 패턴이 반복된다. 핵심은 bge-m3의 dense·sparse·ColBERT 3중 출력을 하이브리드로 묶으면 단일 dense 대비 검색 누락이 줄지만, 한국어 형태소 경계가 깨진 토크나이저 위에서 sparse가 오히려 노이즈를 키운다는 점이다. 1024차원 bge-m3는 pgvector HNSW 인덱스 메모리를 적잖이 먹어, 도메인 적합도와 인프라 비용을 같이 저울질해야 한다.
한국 개발자에게는 '다국어 SOTA = 우리 도메인 최적'이 아니라는 신호다. 실서비스 코퍼스로 Recall@k를 직접 재서 KURE 계열과 bge-m3 중 도메인별로 갈라 쓰는 편이 합리적이다.
원문 출처
Hugging Face (nlpai-lab/KURE-v2)