RAG에서 chunk size는 어떻게 잡아야 하나요?
문서 종류에 따라 다르다는 말은 많이 봤는데, 일단 시작값으로 잡고 튜닝할 만한 기준이 있을까요? 사내 위키 + PDF 매뉴얼 섞인 코퍼스입니다.
답변 1개
- 채택된 답변
그냥 512 토큰 / 오버랩 64로 시작하세요. 거의 모든 코퍼스에서 무난한 출발점입니다. 거기서 retrieval 빠지는 케이스 보면서 조정하면 됨.
중요한 건 PDF 매뉴얼이면 토큰 수로 자르지 말고 헤딩/섹션 경계로 먼저 자르고 그 안에서 512 넘으면 분할하는 식으로 가야 해요. 토큰 고정 청킹은 표 중간이나 코드 블록 한가운데를 뚝 끊어버려서, 검색은 됐는데 정작 답에 필요한 행이 옆 청크로 넘어가 있는 경우가 진짜 많습니다. 저도 사내 위키 RAG 처음 할 때 이걸로 한참 헤맸어요.
오버랩도 너무 크게(20% 이상) 주면 같은 내용 청크가 top-k를 다 잡아먹어서 다양성이 죽으니 적당히. 케바케지만 10~15%면 충분하더라고요.