소형 모델은 대형 모델 양자화 레시피가 안 통한다: SLMQuant 벤치마크
SLMQuant: Benchmarking Small Language Model Quantization for Practical Deployment
온디바이스·엣지 배포가 늘면서 소형 언어모델(SLM)의 양자화가 핵심 과제가 됐는데, arXiv에 공개된 SLMQuant 논문은 흔한 가정 하나를 정면으로 반박한다. LLM에서 검증된 양자화 기법을 SLM에 그대로 옮기면 결과가 최적이 아니라는 것이다. 저자들은 SLM과 LLM이 양자화 민감도에서 근본적으로 다르다는 점을 보이고, SLM 압축 기법을 체계적으로 평가하는 첫 벤치마크를 제시했다. SLM은 고유한 구조적 특성과 학습 동역학 때문에 LLM 최적화 전략을 직접 이식하면 정확도 손실이 크다. 모바일 NPU 성능이 빠르게 오르며 4비트·8비트 양자화로 실시간 멀티모달 추론을 노리는 한국 개발자에게, 이 연구는 "대형 모델용 4비트 레시피를 작은 모델에 복붙하지 말라"는 실무 경고이자, SLM 전용 압축 설계 원칙의 출발점을 제공한다.
온디바이스 SLM 배포 시 LLM 양자화 기법을 그대로 쓰면 품질이 무너질 수 있다는 점을 실증해, 모바일·엣지 추론 설계의 가정을 바로잡는다.
원문 출처
arXiv