News중급원문 2025년 12월 19일

KURE-v2와 bge-m3, 한국어 RAG 임베딩의 실측 격차를 다시 본다

KURE-v2(고려대)와 bge-m3를 한국어 도메인 코퍼스에서 Recall@10으로 붙이면, 일반 위키·뉴스에선 bge-m3가 다국어 강건성으로 앞서지만 법률·의료처럼 한국어 고유 표현이 많은 도메인에선 KURE-v2가 5~9%p 앞서는 패턴이 반복된다. 핵심은 bge-m3의 dense·sparse·ColBERT 3중 출력을 하이브리드로 묶으면 단일 dense 대비 검색 누락이 줄지만, 한국어 형태소 경계가 깨진 토크나이저 위에서 sparse가 오히려 노이즈를 키운다는 점이다. 1024차원 bge-m3는 pgvector HNSW 인덱스 메모리를 적잖이 먹어, 도메인 적합도와 인프라 비용을 같이 저울질해야 한다.

한국 개발자에게는 '다국어 SOTA = 우리 도메인 최적'이 아니라는 신호다. 실서비스 코퍼스로 Recall@k를 직접 재서 KURE 계열과 bge-m3 중 도메인별로 갈라 쓰는 편이 합리적이다.

원문 출처

Hugging Face (nlpai-lab/KURE-v2)

원문 보기 ↗

← Today

RAG 더 보기

RAG 관련 브리핑

NewsRAG실전·2026년 2월 11일

[분석] 리랭커를 넣었더니 Recall은 그대로고 지연만 늘었다

RAG 파이프라인에 크로스인코더 리랭커(bge-reranker-v2-m3 류)를 끼우는 게 기본기처럼 굳어졌지만, 측정해 보면 효과가 갈린다. 1차 검색이 Recall@50에서 이미 정답을 못 물어온 경우 리랭커는 없는 정답을 만들어내지 못한다. 즉 리랭커는 순위 재배열일 뿐 회수율 자체를 못 올린다. 그런데 크로스인코더는 쿼리·문서 쌍을 매번 동시 인코딩해 50개 후보를 리랭킹하면 dense 검색 대비 100~300ms가 더 붙는다. 실무 결론은 단순하다. 1차 검색 Recall@k를 먼저 끌어올린 뒤, 상위 후보가 충분히 정답을 포함할 때만 리랭커로 NDCG를 다듬는다. top-k를 무작정 키워 리랭커에 떠넘기면 비용만 는다.

실무에선 리랭커를 만능으로 보지 말고, 1차 검색 Recall과 리랭킹 후 NDCG를 분리 측정해야 한다. 회수 단계 병목을 리랭커로 가리면 지연 예산만 까먹는다.

BAAI FlagEmbedding원문 ↗

KURE-v2와 bge-m3, 한국어 RAG 임베딩의 실측 격차를 다시 본다

[분석] 리랭커를 넣었더니 Recall은 그대로고 지연만 늘었다

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글