News고급

vLLM, FP8 양자화로 추론 처리량 2배·VRAM 절반 달성한 프로덕션 서빙 표준

vLLM in 2026: FP8 Quantization and Production-Scale Serving

오픈소스 추론 엔진 vLLM이 2026년 프로덕션 LLM 서빙의 기본값으로 자리 잡았다. 핵심 최적화는 FP8 양자화로, 약 1.5~2배 처리량 향상과 약 50% VRAM 절감을 제공해 더 큰 모델을 단일 GPU에 올릴 수 있게 한다. `--kv-cache-dtype fp8` 옵션으로 KV 캐시를 FP8로 저장하면 메모리를 추가로 아낄 수 있다. 멀티 GPU 텐서 병렬과 결합하면 H100급 환경에서 비용 대비 처리량을 크게 끌어올린다. Q2 2026 로드맵은 GB200·B200·H200 클러스터에서 분산(disaggregated) 서빙과 와이드 전문가 병렬(expert parallelism)을 '광속'까지 밀어붙이고, 기본 커널을 자동 선택해 성능을 지속 모니터링하는 데 초점을 둔다. 자체 모델 호스팅을 검토하는 한국 팀에는 GPU 비용을 결정짓는 1순위 레버다.

FP8과 KV 캐시 최적화는 자체 LLM 서빙의 GPU 비용을 절반 가까이 좌우하므로, 인프라 의사결정의 핵심 변수다.

원문 출처

vLLM Blog

원문 보기 ↗

← Today

AI 툴 더 보기

AI 툴 관련 브리핑

NewsAI 툴실전·4주 전

Cursor 3.5, 격리 VM에서 도는 자율 코딩 클라우드 에이전트 공개

AI 네이티브 에디터 Cursor가 3.5에서 클라우드 에이전트를 핵심 기능으로 내놨다. 격리된 클라우드 VM 안에서 터미널·브라우저·데스크톱 접근 권한을 갖고 작업을 수행해, 로컬 머신을 점유하지 않고도 자율 실행이 가능하다. 앞선 3.0은 백그라운드/클라우드 에이전트를 처음 도입했고, 3.3은 병렬 서브에이전트(Build in Parallel)와 파일 트리 규모의 다중 파일 리팩터링이 가능한 Composer 2.5를 더했다. 과거 Composer로 불리던 에이전트 모드는 복잡한 작업(REST API 구축, 의존성 마이그레이션, 테스트 작성)을 설명하면 계획→파일 생성·수정→터미널 명령 실행→완료까지 반복한다. 여러 팀의 실측에서 표준 구현 작업 기준 30~50% 속도 향상이 보고됐다. 크로스 파일 추론이 강화돼 큰 코드베이스 맥락을 유지하며 변경 전파를 이해한다.

에이전트가 로컬을 벗어나 격리 클라우드에서 도는 방향은 보안·재현성·병렬성 측면에서 팀 단위 도입의 현실적 분기점이 된다.

Codersera

NewsAI 툴중급·2024년 10월 18일

MCP 차기 명세, 스테이트리스 코어로 엔터프라이즈 운영 표준화

Model Context Protocol(MCP) 차기 명세가 릴리스 후보(RC) 단계에 진입했다. 핵심은 일반 HTTP 인프라에서 수평 확장되는 '스테이트리스 코어'다. 세션 생성·재개·마이그레이션을 표준화해 서버 재시작이나 스케일아웃이 클라이언트에 투명하게 처리된다. 여기에 장기 실행 작업을 위한 Tasks 확장, 서버 렌더링 UI를 다루는 MCP Apps, OAuth·OpenID Connect와 정렬된 인가 강화, 공식 폐기(deprecation) 정책이 더해졌다. MCP는 이제 '얼마나 채택됐나'가 아니라 거버넌스·아이덴티티·감사·확장성 같은 엔터프라이즈 기준으로 평가받는 단계로 넘어갔다. Claude, Cursor 등 주요 도구가 MCP를 표준 통합 계층으로 채택한 만큼, 한국 개발자도 사내 도구·데이터를 에이전트에 연결할 때 스테이트리스 설계와 인가 모델을 미리 고려해야 한다.

MCP가 사실상 에이전트-도구 연결의 산업 표준으로 굳어지면서, 스테이트리스·인가 설계가 자체 MCP 서버 구축의 새 기준선이 된다.

Model Context Protocol Blog원문 ↗

NewsAI 툴초급·2주 전

컨텍스트를 격리해 노이즈를 다스리는 서브에이전트 패턴 입문

서브에이전트는 메인 에이전트가 집중된 하위 작업을 처리하기 위해 띄우는 별도 에이전트 인스턴스다. 각자 맞춤 시스템 프롬프트, 전용 도구 집합, 그리고 독립된 컨텍스트 윈도우를 가진다. 덕분에 노이즈가 많은 작업의 컨텍스트를 격리하고, 여러 분석을 병렬로 돌리며, 특화된 지침을 적용할 수 있다. Claude Code에서는 에이전트와 서브에이전트의 파일 형식이 동일하다. 둘 다 YAML 프론트매터를 가진 마크다운 파일이며, 프로젝트 단위는 `.claude/agents/`, 사용자 단위는 `~/.claude/agents/`에 둔다. 코드베이스 관례에 의존하는 워크플로는 프로젝트 단위가, 이식 가능한 습관은 사용자 단위가 적합하다. 판단 기준은 간단하다. 작업이 시끄럽고 경계가 분명하며 요약하기 쉬우면 서브에이전트를 쓰고, 작고 긴밀히 결합돼 공유 멘탈 모델에 의존한다면 메인 대화에 머물러라(요약을 거치면 맥락이 약해지기 때문).

서브에이전트는 코드 없이 마크다운만으로 멀티에이전트 분업을 구성하게 해, 한국 개발자가 가장 빠르게 시도할 수 있는 에이전트 패턴이다.

Claude Code Docs원문 ↗

NewsAI 툴실전·2026년 2월 1일

Claude Code, 백그라운드 세션·Agent View·자율 루프로 '관리형 에이전트' 전환

Anthropic이 Claude Code에 다중 세션을 한눈에 관리하는 Agent View, 작업을 이어가는 백그라운드 세션, 그리고 결과 중심 자율 실행 기능을 도입했다. /goal은 최소 개입으로 목표를 달성하도록 작업을 자율 실행하고, /loop는 단위 테스트와 리팩터링을 반복해 결과가 100% 통과(Green)할 때까지 매 단계 확인 없이 돌린다. 긴 세션에서도 의도가 유지되도록 시스템 프롬프트 컴팩션이 추가됐고, 한 기기에서 시작한 세션을 다른 기기에서 이어받는 원격 제어도 제공된다. 핵심은 Claude Code가 '스마트 자동완성'을 넘어 여러 작업을 동시에 돌리는 관리형 에이전트 플랫폼으로 이동했다는 점이다. 자율성이 커진 만큼 권한 가드레일과 검증(테스트 게이트) 설계가 안전한 활용의 전제가 된다.

에이전트가 백그라운드에서 자율적으로 도는 시대로 넘어가면서, 사람의 역할이 '코드 작성'에서 '검증·가드레일 설계'로 옮겨간다.

InfoQ원문 ↗

vLLM, FP8 양자화로 추론 처리량 2배·VRAM 절반 달성한 프로덕션 서빙 표준

Cursor 3.5, 격리 VM에서 도는 자율 코딩 클라우드 에이전트 공개

MCP 차기 명세, 스테이트리스 코어로 엔터프라이즈 운영 표준화

컨텍스트를 격리해 노이즈를 다스리는 서브에이전트 패턴 입문

Claude Code, 백그라운드 세션·Agent View·자율 루프로 '관리형 에이전트' 전환

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글