오픈웨이트 LLM 셀프호스팅 선택 가이드 2026: DeepSeek · Qwen · Llama · GLM 중 무엇을, 언제, 어떤 GPU로
VRAM·라이선스·한국어 성능 세 축으로 끊는 실무 의사결정. 8GB부터 멀티 GPU까지 환경별 추천과 vLLM 운영 팁
1. 결론부터: 환경별로 무엇을 고르면 되는가
결론부터 말하면, 선택은 세 가지 축으로 거의 끝납니다 — (1) 손에 쥔 VRAM, (2) 라이선스 제약, (3) 한국어/도메인 성능. 2026년 6월 현재 실무에서 손이 가장 많이 가는 조합은 아래와 같습니다.
| 가진 GPU(대략) | 1순위 후보 | 비고 |
|---|---|---|
| 8GB 안팎 (RTX 3060/4060) | Qwen3-8B, DeepSeek-R1-Distill-Qwen-7B | Apache 2.0, 한국어 OK, Q4 양자화 필수 |
| 12GB (RTX 3060 12G/4070) | Qwen3-14B, R1-Distill-Qwen-14B | 추론/코딩 체감 향상 |
| 24GB (RTX 4090/3090) | Qwen3-32B, R1-Distill-Qwen-32B | Q4_K_M로 단일 카드에 적재 가능 |
| 멀티 24GB·A100/H100 80G | Llama 4 Scout, GLM-4.5-Air, R1-Distill-Llama-70B | 100B급 MoE/70B dense 진입 |
| 데이터센터 (멀티 80G+) | DeepSeek-V3(671B/37B), GLM-4.6, Llama 4 Maverick | 프런티어급, 인프라 본격 투자 구간 |
[!NOTE] 표의 GPU는 "Q4_K_M 양자화 + 8K 컨텍스트" 기준 대략값입니다. 컨텍스트를 길게 잡거나 동시 요청(배치)을 받으면 KV 캐시 때문에 VRAM이 더 필요합니다. 이어지는 섹션에서 계산법을 정리합니다.
나머지 글은 "왜 이 표가 이렇게 나오는지"를 모델별 정체성·라이선스·VRAM 계산·운영 팁 순서로 풉니다. 수치·버전은 모두 공식 모델 카드/릴리스 기준으로 적었고, 확인되지 않은 차기 버전은 의도적으로 넣지 않았습니다. 벤더들이 분기마다 새 버전을 내놓으므로, 실제 도입 직전에는 해당 모델의 Hugging Face 모델 카드를 한 번 더 확인하시길 권합니다.
2. 왜 셀프호스팅인가 — API가 아닌 self-host를 고르는 진짜 이유
오픈웨이트(open-weight) 모델은 가중치(weights)가 공개되어 내 인프라에서 직접 돌릴 수 있는 모델입니다. "오픈소스"와 종종 혼용되지만 둘은 다릅니다 — 코드와 학습 데이터까지 모두 공개된 OSI 기준 오픈소스가 아니라, 대개 추론용 가중치 + 자체 라이선스 형태입니다. 이 구분이 뒤에 나올 라이선스 함정의 출발점입니다.
self-host를 택하는 합리적 이유는 마케팅 문구가 아니라 다음 셋입니다.
- 데이터 주권: 프롬프트와 응답이 외부 API로 나가지 않습니다. 의료·금융·법무·사내 코드처럼 데이터가 회사 밖으로 못 나가는 도메인에서는 self-host가 사실상 유일한 선택지입니다. 국내 규제(개인정보, 망분리) 환경에서 특히 무겁게 작동하는 요인입니다.
- 비용 구조의 전환: API는 호출당 과금(가변비), self-host는 GPU 확보 후 거의 고정비입니다. 트래픽이 적으면 API가 압도적으로 싸지만, 대량·상시 추론이라면 손익분기를 넘어 self-host가 유리해지는 지점이 옵니다.
- 버전 고정과 가용성: API 모델은 공급사 사정으로 사라지거나(deprecation) 동작이 바뀝니다. self-host는 검증한 가중치를 그대로 박제할 수 있어, 재현성이 중요한 평가·연구·규제 대응에 강합니다.
반대로 self-host를 권하지 않는 경우도 분명합니다(전문성은 when-NOT을 말할 수 있어야 합니다). 트래픽이 간헐적이고 적으면 GPU가 대부분 놀고, 운영(드라이버·CUDA·OOM·모니터링) 부담만 떠안습니다. 프런티어급 품질이 절대 기준이고 데이터 반출 제약이 없다면, 상용 API가 비용·품질 모두에서 앞섭니다. self-host는 "공짜"가 아니라 "비용을 GPU와 운영 인력으로 옮기는" 선택입니다.
3. 네 계열의 정체성 — DeepSeek · Qwen · Llama · GLM은 각자 무엇을 노리나
네 계열은 출신·설계 철학·라이선스가 전부 다릅니다. "무엇이 제일 좋냐"가 아니라 "무엇이 내 제약에 맞냐"가 질문입니다.
DeepSeek (深度求索, 중국)
대형 MoE(Mixture-of-Experts) 노선의 대표주자입니다. DeepSeek-V3는 671B 총 파라미터 중 토큰당 37B만 활성되는 구조로, 거대한 용량을 가지면서도 추론 시 연산은 활성 파라미터만큼만 듭니다. 추론 특화 모델 DeepSeek-R1(역시 671B/37B 계열)에서 증류(distill)한 R1-Distill 소형 모델(1.5B~70B)이 따로 공개되어, 개인 GPU 사용자에게는 이쪽이 실질적 진입로입니다. 코드 라이선스는 MIT, 가중치는 모델 라이선스로 상업적 사용을 허용합니다.
Qwen (通义千问, Alibaba)
**가장 넓은 라인업과 가장 관대한 라이선스(Apache 2.0)**가 강점입니다. Qwen3는 dense 6종(0.6B/1.7B/4B/8B/14B/32B) + MoE 2종(30B-A3B, 235B-A22B)으로, 노트북부터 데이터센터까지 한 계열로 커버됩니다. 다국어 학습 비중이 높아 한국어 체감이 안정적이고, Apache 2.0이라 라이선스 검토 부담이 가장 작습니다. "일단 막막하면 Qwen부터"가 통하는 이유입니다.
Llama (Meta, 미국)
생태계·툴체인·레퍼런스가 가장 두껍습니다. Llama 4는 MoE로 전환해 Scout(17B 활성/약 109B 총, 16 experts), Maverick(17B 활성/약 400B 총, 128 experts) 두 모델이 공개됐고, 네이티브 멀티모달과 초장문 컨텍스트가 특징입니다. 단, 라이선스가 **Apache/MIT가 아닌 자체 "Llama 4 Community License"**라 조건이 붙습니다(아래 라이선스 섹션 참조). 자료·예제가 가장 많아 학습 곡선이 완만합니다.
GLM (Zhipu AI / Z.ai, 중국)
코딩·에이전트 성능에 초점을 둔 MoE 계열입니다. GLM-4.5(355B/32B 활성)와 경량판 GLM-4.5-Air(106B/12B), 이후 컨텍스트를 200K로 넓힌 GLM-4.6(355B/32B)가 MIT 라이선스로 공개됐습니다. MIT라 상업 활용 자유도가 높고, 코딩 워크플로(에이전트·툴 사용)에서 평이 좋습니다. 100B급 Air가 멀티 24GB~A100급에서 현실적인 타깃입니다.
4. 라이선스부터 보라 — 코드보다 먼저 막히는 곳
성능표를 보기 전에 라이선스를 먼저 봐야 합니다. 나중에 "상업적으로 못 쓰는 모델로 제품을 만들었다"는 사고가 가장 비쌉니다. 핵심만 정리합니다.
| 라이선스 | 적용 계열(예) | 상업 사용 | 핵심 제약 |
|---|---|---|---|
| Apache 2.0 | Qwen3 전 모델, R1-Distill의 Qwen 기반(1.5B/7B/14B/32B) | 자유 | 사실상 제약 없음, 특허 조항 포함, 규모 무관 |
| MIT | DeepSeek-V3 코드, GLM-4.5/4.6 | 자유 | 사실상 제약 없음 |
| DeepSeek Model License | DeepSeek-V3/R1 가중치 | 허용 | 별도 모델 약관 — 사용 제한(use-based) 조항 확인 권장 |
| Llama 4 Community License | Llama 4 Scout/Maverick, R1-Distill의 Llama 기반(8B/70B) | 조건부 허용 | MAU 7억 초과 시 Meta 별도 라이선스 요청, "Built with Llama" 표기 의무 |
[!WARNING] Llama 4 라이선스 함정 두 가지. (1) 직전 달 기준 월간 활성 사용자(MAU)가 7억을 넘으면 Meta에 별도 라이선스를 요청해야 합니다(대부분의 스타트업·사내 도구에는 비현실적 임계치지만, 대형 플랫폼이라면 반드시 검토). (2) Llama로 만든 제품을 배포·제공하면 웹사이트·UI·문서 등에 "Built with Llama"를 눈에 띄게 표기해야 하고, 라이선스 사본을 동봉해야 합니다. 더 미묘한 함정은 DeepSeek-R1-Distill입니다 — 같은 "R1 distill"이라도 Qwen 기반(1.5B/7B/14B/32B)은 Apache 2.0, Llama 기반(8B/70B)은 Llama 라이선스를 상속합니다. 모델 이름에
-Qwen-이 들어가면 자유,-Llama-가 들어가면 Llama 조건이 붙는다고 기억하세요.
실무 원칙: 라이선스에 자신이 없으면 Apache 2.0(Qwen3) 또는 MIT(GLM, DeepSeek 코드)부터 검토하는 것이 가장 안전합니다. 라이선스 원문은 반드시 1차 출처(모델 카드의 LICENSE, 공식 라이선스 페이지)를 직접 확인하고, 제품화 단계에서는 법무 검토를 거치세요. 본 글의 분류는 가이드일 뿐 법률 자문이 아닙니다.
5. VRAM 계산법 — "이 모델이 내 GPU에 들어가나"를 30초에 추정
self-host에서 가장 먼저 막히는 건 성능이 아니라 **VRAM에 모델이 안 들어가는 것(OOM)**입니다. 정밀 계산기를 돌리기 전에, 머릿속으로 추정하는 규칙부터 익히면 후보를 빠르게 거를 수 있습니다.
규칙(rule of thumb):
- FP16(원본): 파라미터 1B당 약 2GB
- INT4/Q4 양자화: 파라미터 1B당 약 0.5GB (FP16 대비 약 75% 절감)
- 여기에 **KV 캐시·활성값·프레임워크 오버헤드로 +15~20%**를 더해서 잡습니다. 컨텍스트가 길고 동시 요청이 많을수록 이 몫이 커집니다.
Q4_K_M(8K 컨텍스트) 기준 실측 근사:
| 모델 크기 | 대략 VRAM | 현실 타깃 GPU |
|---|---|---|
| 7~8B | 약 6~7GB | RTX 3060/4060 (8GB) |
| 13~14B | 약 10~12GB | RTX 3060 12G / 4070 |
| 32B | 약 21~23GB | RTX 4090/3090 (24GB) 단일 |
| 70B | 약 35~46GB | A100/H100 80GB 단일, 또는 24GB×2 |
[!IMPORTANT] MoE 모델(DeepSeek-V3, Qwen3-235B-A22B, GLM-4.5, Llama 4 등)은 "활성 파라미터"로 속도를 가늠하고, "총 파라미터"로 메모리를 가늠해야 합니다. 예: DeepSeek-V3는 토큰당 37B만 계산하므로 속도는 37B급이지만, 가중치 671B 전체를 메모리에 올려야 하므로 양자화해도 단일 소비자 GPU로는 불가능합니다. MoE는 "빠른데 무겁다"가 핵심 — 활성 파라미터에 속아 메모리를 과소 추정하는 게 가장 흔한 실수입니다.
한국어 토큰 함정도 메모리에 영향을 줍니다. 한국어는 모델·토크나이저에 따라 같은 의미를 영어보다 1.5~2배 많은 토큰으로 쪼갭니다. 즉 같은 분량의 한국어 입력은 컨텍스트와 KV 캐시를 그만큼 더 먹습니다. 긴 한글 문서를 다루는 RAG 파이프라인이라면, 컨텍스트 길이를 영어 기준으로 잡았다가 VRAM이 터지는 일이 생깁니다.
6. 전체 비교표 — 모델 · 크기 · 라이선스 · 권장 GPU · 강점
지금까지의 내용을 한 표로 모읍니다. **모든 수치는 공식 모델 카드/릴리스 기준(2026년 6월 확인)**이며, VRAM은 Q4 양자화 기준 근사입니다.
| 모델 | 구조 / 파라미터 | 컨텍스트 | 라이선스 | 권장 GPU (Q4) | 강점 |
|---|---|---|---|---|---|
| Qwen3-8B | dense 8B | 128K | Apache 2.0 | 8GB~ | 입문 최적, 한국어 안정, 라이선스 자유 |
| Qwen3-14B | dense 14B | 128K | Apache 2.0 | 12GB~ | 가성비 중급, 범용 |
| Qwen3-32B | dense 32B | 128K | Apache 2.0 | 24GB 단일 | 24GB 단일 카드 최대치, 균형 |
| Qwen3-30B-A3B | MoE 30B/3B | 128K | Apache 2.0 | 24GB급 | 빠른 추론(3B 활성), 효율 |
| Qwen3-235B-A22B | MoE 235B/22B | 128K | Apache 2.0 | 멀티 80G | 대형, 라이선스 자유 |
| DeepSeek-R1-Distill-Qwen-7B/14B/32B | dense distill | — | Apache 2.0 | 8~24GB | 추론 강화, 라이선스 자유(Qwen 기반) |
| DeepSeek-R1-Distill-Llama-70B | dense distill | — | Llama 라이선스 | A100 80G / 24GB×2 | 70B 추론 성능, MAU 7억 조건 |
| DeepSeek-V3 | MoE 671B/37B | 128K | MIT(코드)+모델약관 | 멀티 80G+ | 프런티어급, 빠른 활성연산 |
| Llama 4 Scout | MoE 17B/109B, 16E | 초장문(공식 최대 10M) | Llama 4 Community | 서버급 1장(양자화) | 멀티모달, 생태계 두께 |
| Llama 4 Maverick | MoE 17B/400B, 128E | 1M | Llama 4 Community | 멀티 80G | 멀티모달 프런티어 |
| GLM-4.5-Air | MoE 106B/12B | 128K | MIT | 멀티 24GB~A100 | 코딩/에이전트, MIT 자유 |
| GLM-4.5 / GLM-4.6 | MoE 355B/32B | 128K / 200K | MIT | 멀티 80G | 코딩 강세, 긴 컨텍스트(4.6) |
읽는 법: 라이선스 자유도 최우선이면 Qwen(Apache 2.0)·GLM(MIT), 생태계·멀티모달이면 Llama 4(라이선스 조건 확인), 활성연산 효율 극대화·프런티어 품질이면 DeepSeek-V3(인프라 본격 투자 시). 개인/단일 GPU 사용자는 사실상 Qwen3 dense + R1-Distill-Qwen 조합이 가장 무난합니다.
7. 직접 돌려보니 — 서빙·양자화 운영 팁
표만으로는 안 보이는, 실제로 띄워 보면 부딪히는 지점들입니다.
서빙: 데스크톱은 Ollama/llama.cpp, 프로덕션은 vLLM/SGLang
로컬에서 한 명이 쓰는 챗봇이면 **Ollama / LM Studio / llama.cpp(GGUF)**가 가장 빠른 길입니다. 반면 동시 요청을 받는 API 서버라면 vLLM·SGLang의 연속 배칭(continuous batching)과 PagedAttention이 처리량을 크게 끌어올립니다. DeepSeek-V3 모델 카드도 SGLang·vLLM·LMDeploy·TensorRT-LLM을 권장 백엔드로 명시합니다.
vLLM으로 Qwen3-8B를 띄우는 최소 예시:
# vLLM OpenAI 호환 서버 (단일 GPU)
pip install vllm
vllm serve Qwen/Qwen3-8B \
--max-model-len 32768 \
--gpu-memory-utilization 0.90 \
--port 8000
# 호출 (OpenAI 호환 엔드포인트)
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-8B",
"messages": [{"role": "user", "content": "한 문장으로 자기소개해줘"}]
}'
VRAM이 빠듯하면 --gpu-memory-utilization을 낮추고 --max-model-len(컨텍스트)을 줄이는 것이 OOM 회피의 1차 레버입니다. 멀티 GPU면 --tensor-parallel-size로 카드 수를 지정합니다.
양자화: 기본값은 Q4_K_M, 품질 민감하면 Q5_K_M/Q6
- Q4_K_M: VRAM/속도/품질 균형의 사실상 기본값. 대부분의 챗·요약·일반 작업에서 체감 손실이 거의 없습니다.
- Q5_K_M / Q6_K: 품질이 더 중요하고 VRAM 여유가 있으면 한 단계 올립니다.
- 양자화 손상 주의: 같은 4비트라도 양자화 방식·캘리브레이션에 따라 특정 작업(정확한 수치·코드·구조화 출력)이 더 크게 무너질 수 있습니다. 반드시 내 실제 작업 샘플로 양자화본을 검증하고, "벤치마크가 높으니 괜찮겠지"로 넘기지 마세요. 정밀 작업이 핵심이면 원본(BF16/FP16)이나 FP8을 쓰는 게 맞습니다.
한국 실무 비용 감각
24GB급 중고 RTX 3090/4090을 직접 구매하면 카드값은 보통 100만 원대(원화, 시세 변동·라벨 생략)이고, 전기료·소음·발열을 떠안습니다. 클라우드라면 서울 리전에 A100/H100 가용성과 시간당 단가를 먼저 확인하세요 — 리전·시점에 따라 가용 물량과 가격이 크게 흔들립니다. 간헐적 사용이면 클라우드 시간당 과금, 상시 추론이면 자체 GPU 구매가 손익에서 갈립니다.
8. 선택 의사결정 흐름 — 5분 안에 후보 좁히기
마지막으로, 위 내용을 결정 순서로 압축합니다. 위에서 아래로 한 번만 훑으면 후보가 1~2개로 줄어듭니다.
- 상업적으로 쓰는가? + 대형 서비스인가? → 그렇다면 라이선스부터. 라이선스 부담을 피하려면 Qwen3(Apache 2.0) 또는 GLM(MIT). Llama 4를 쓸 거면 MAU 7억 조건과 "Built with Llama" 표기를 사전 점검.
- 가진 VRAM은? → 8GB면 Qwen3-8B, 12GB면 Qwen3-14B, 24GB 단일이면 Qwen3-32B / R1-Distill-Qwen-32B, 멀티 80G+면 GLM-4.5·DeepSeek-V3·Llama 4까지 열림.
- 주 용도는? → 한국어 일반·RAG → Qwen3. 코딩·에이전트 → GLM 계열. 추론(수학·논리) 강화 → DeepSeek-R1-Distill. 멀티모달·초장문 → Llama 4 Scout.
- 트래픽 패턴은? → 간헐적·소량이면 self-host보다 API가 더 싸고 편할 수 있음(when-NOT). 상시·대량이면 self-host로 손익 전환.
- 검증 → 후보 1~2개를 실제 작업 샘플로 양자화본까지 돌려보고 한국어·정확도·지연을 직접 측정. "벤치 점수"가 아니라 "내 데이터에서의 체감"으로 확정.
[!NOTE] 이 글의 모델·버전·수치는 2026년 6월 기준 공식 자료로 확인한 것만 담았습니다. 오픈웨이트 진영은 분기 단위로 새 버전이 쏟아지므로, 도입 직전에는 해당 모델의 Hugging Face 모델 카드와 LICENSE 원문을 반드시 다시 확인하세요. AIPida는 새 릴리스가 나올 때마다 이 가이드를 갱신합니다.
9. 자주 묻는 질문 (FAQ)
Q. 24GB GPU(RTX 4090) 한 장으로 가장 큰 모델은 무엇인가요? Q4_K_M 양자화 기준 **32B급 dense 모델(Qwen3-32B, DeepSeek-R1-Distill-Qwen-32B)**이 단일 24GB 카드의 현실적 상한입니다. 컨텍스트를 짧게 잡고 동시 요청을 1개로 제한하면 들어갑니다.
Q. 상업 서비스에 가장 안전한 라이선스의 모델은? Qwen3 전 모델(Apache 2.0)과 GLM-4.5/4.6(MIT)이 제약이 가장 적습니다. Llama 4는 가능하지만 MAU 7억 조건과 "Built with Llama" 표기 의무가 붙습니다. 도입 전 LICENSE 원문 확인은 필수입니다.
Q. DeepSeek-V3는 왜 개인 GPU로 못 돌리나요? 토큰당 활성 파라미터는 37B지만 가중치 671B 전체를 메모리에 올려야 하기 때문입니다. MoE는 "빠르지만 무겁다"가 핵심이라, 개인은 671B 본체 대신 R1-Distill 소형 모델을 쓰는 게 정답입니다.
Q. 한국어 성능은 어느 계열이 낫나요? 다국어 비중이 큰 Qwen 계열이 한국어 체감이 안정적이라는 평이 많습니다. 다만 "평판"이 아니라 내 도메인 데이터로 직접 비교하는 게 정확합니다. 한국어는 영어보다 토큰을 1.5~2배 더 쓰므로, 같은 컨텍스트 길이라도 실제 담기는 한글 분량은 더 적다는 점도 고려하세요.
Q. 양자화하면 품질이 많이 떨어지나요? Q4_K_M는 일반 챗·요약에서 체감 손실이 거의 없습니다. 다만 정확한 수치·코드·구조화 출력처럼 정밀도가 중요한 작업은 양자화로 더 크게 무너질 수 있어, 반드시 실제 작업 샘플로 검증해야 합니다.
Q. 프로덕션 서빙은 무엇으로 하나요? 동시 요청을 받는 API라면 vLLM 또는 SGLang(연속 배칭·PagedAttention)이 표준입니다. 개인용 단일 사용자면 Ollama·LM Studio·llama.cpp가 더 간편합니다.
Q. R1-Distill 모델 이름이 헷갈립니다. 라이선스는 어떻게 구분하죠?
이름에 -Qwen-이 들어가면 Apache 2.0(자유), -Llama-가 들어가면 **Llama 라이선스(MAU 7억 조건)**를 상속합니다. 같은 "R1 distill"이어도 베이스 모델에 따라 라이선스가 갈립니다.
Q. API와 self-host, 비용 분기점은? 간헐적·소량 트래픽이면 API가 거의 항상 쌉니다. 상시·대량 추론으로 GPU 가동률이 높아질수록 self-host의 고정비가 유리해집니다. 자체 작업의 일 토큰량을 API 단가와 GPU 운영비로 각각 환산해 비교하세요.