vLLM, FP8 양자화로 추론 처리량 2배·VRAM 절반 달성한 프로덕션 서빙 표준
vLLM in 2026: FP8 Quantization and Production-Scale Serving
오픈소스 추론 엔진 vLLM이 2026년 프로덕션 LLM 서빙의 기본값으로 자리 잡았다. 핵심 최적화는 FP8 양자화로, 약 1.5~2배 처리량 향상과 약 50% VRAM 절감을 제공해 더 큰 모델을 단일 GPU에 올릴 수 있게 한다. `--kv-cache-dtype fp8` 옵션으로 KV 캐시를 FP8로 저장하면 메모리를 추가로 아낄 수 있다. 멀티 GPU 텐서 병렬과 결합하면 H100급 환경에서 비용 대비 처리량을 크게 끌어올린다. Q2 2026 로드맵은 GB200·B200·H200 클러스터에서 분산(disaggregated) 서빙과 와이드 전문가 병렬(expert parallelism)을 '광속'까지 밀어붙이고, 기본 커널을 자동 선택해 성능을 지속 모니터링하는 데 초점을 둔다. 자체 모델 호스팅을 검토하는 한국 팀에는 GPU 비용을 결정짓는 1순위 레버다.
FP8과 KV 캐시 최적화는 자체 LLM 서빙의 GPU 비용을 절반 가까이 좌우하므로, 인프라 의사결정의 핵심 변수다.
원문 출처
vLLM Blog