[설명] 폐쇄형 API를 자체 호스팅으로 바꾸기: vLLM 추론 서빙의 핵심
What is vLLM? The High-Throughput LLM Serving Engine
vLLM은 PagedAttention과 연속 배칭(continuous batching)을 처음으로 대중화한 오픈소스 LLM 서빙 엔진으로, 프로덕션 추론의 사실상 기본 선택지가 됐다. 핵심 아이디어는 KV 캐시 메모리를 OS의 페이징처럼 블록 단위로 관리해 메모리 낭비를 줄이고, 여러 요청을 토큰 단위로 끼워 넣어 GPU를 쉴 틈 없이 돌리는 것이다. 덕분에 전통적 방식 대비 처리량이 크게 올라간다. Apache 2.0 라이선스에 OpenAI 호환 API 서버를 기본 제공해, 클라이언트 코드를 거의 바꾸지 않고 폐쇄형 API를 자체 인프라로 교체할 수 있다. Llama, Mixtral, DeepSeek-V3 같은 HuggingFace 모델과 NVIDIA·AMD·Intel·TPU 등 폭넓은 하드웨어를 지원한다. 비용 절감, 데이터가 외부로 나가지 않는 프라이버시, 응답 지연 통제가 필요할 때 자체 호스팅의 출발점으로 검토할 가치가 있다.
API 비용·데이터 주권·지연 통제가 중요한 한국 팀이 오픈 가중치 모델을 직접 운영하려 할 때 가장 먼저 만나는 기반 기술이다.