News고급

[설명] 폐쇄형 API를 자체 호스팅으로 바꾸기: vLLM 추론 서빙의 핵심

What is vLLM? The High-Throughput LLM Serving Engine

vLLM은 PagedAttention과 연속 배칭(continuous batching)을 처음으로 대중화한 오픈소스 LLM 서빙 엔진으로, 프로덕션 추론의 사실상 기본 선택지가 됐다. 핵심 아이디어는 KV 캐시 메모리를 OS의 페이징처럼 블록 단위로 관리해 메모리 낭비를 줄이고, 여러 요청을 토큰 단위로 끼워 넣어 GPU를 쉴 틈 없이 돌리는 것이다. 덕분에 전통적 방식 대비 처리량이 크게 올라간다. Apache 2.0 라이선스에 OpenAI 호환 API 서버를 기본 제공해, 클라이언트 코드를 거의 바꾸지 않고 폐쇄형 API를 자체 인프라로 교체할 수 있다. Llama, Mixtral, DeepSeek-V3 같은 HuggingFace 모델과 NVIDIA·AMD·Intel·TPU 등 폭넓은 하드웨어를 지원한다. 비용 절감, 데이터가 외부로 나가지 않는 프라이버시, 응답 지연 통제가 필요할 때 자체 호스팅의 출발점으로 검토할 가치가 있다.

API 비용·데이터 주권·지연 통제가 중요한 한국 팀이 오픈 가중치 모델을 직접 운영하려 할 때 가장 먼저 만나는 기반 기술이다.

← Today

AI 프로덕트·스타트업 더 보기

AI 프로덕트·스타트업 관련 브리핑

NewsAI 프로덕트·스타트업초급·6일 전

Bezos의 Prometheus, 기업가치 410억 달러에 시리즈B 120억 달러 조달

Jeff Bezos와 Vik Bajaj가 공동 설립한 Prometheus가 6월 11일 시리즈B 120억 달러 조달과 410억 달러 기업가치를 공개했다. 투자자에는 JPMorgan Chase, Goldman Sachs, BlackRock과 Bezos 본인이 포함됐다. 2025년 말 출범 시 62억 달러를 먼저 조달해 누적 180억 달러를 넘겼고, 단숨에 세계 최고가치 비상장 AI 스타트업 중 하나가 됐다. 챗봇·텍스트 생성에 몰린 경쟁사들과 달리 Prometheus는 제트 엔진부터 신약 화합물까지 복잡한 물리 시스템의 설계와 제조를 자동화하는 '인공 일반 엔지니어(artificial general engineer)' 소프트웨어를 목표로 한다. Bezos는 '비밀주의가 아니다'라며 엔지니어링·제조 영역을 정조준한다고 밝혔다.

LLM 챗봇 자본이 포화에 다가가는 가운데, 자본이 'physical AI'(설계·제조·재료·로보틱스)로 무게중심을 옮기고 있음을 보여주는 대형 신호다. 자연어가 아니라 시뮬레이션·CAD·물성 데이터를 1차 모달리티로 삼는 모델은 학습 데이터와 검증 루프가 근본적으로 다르다. 제조 강국인 한국 입장에서 도메인 데이터(공정·재료·품질)를 쥔 쪽이 다음 AI 해자를 가질 수 있다는 전략적 함의가 크다.

TechCrunch / Axios원문 ↗

NewsAI 프로덕트·스타트업초급·1주 전

OpenAI, GPT-5.5 Instant을 ChatGPT 기본 모델로 채택하고 모델 선택기 개편

OpenAI가 6월 9일 ChatGPT Go·Free에 개인화 개선을 배포하며 GPT-5.5 Instant을 새 기본 모델로 전환했다. 응답이 더 명확·간결해지고 공유 컨텍스트 활용이 강화됐다. 모델 선택기도 단순화돼 Instant / Medium / High / Pro 전용 티어로 정리되며 웹·iOS·안드로이드의 Plus·Pro 사용자에게 롤아웃됐다. 본체 GPT-5.5는 4월 23일 출시된 OpenAI의 '가장 강력한 에이전틱 코딩 모델'로, 1M 컨텍스트(입력 ~922K + 출력 128K), reasoning effort 레벨 none/low/medium(기본)/high/xhigh를 지원한다. 벤치마크 도약이 크다 — 1M 장문맥 추론이 GPT-5.4의 36.6%에서 74.0%로, Terminal-Bench 2.0은 82.7%를 기록했다. 가격은 표준 입력 $5·출력 $30/MTok로 GPT-5.4($2.50/$15) 대비 약 2배, GPT-5.5 Pro는 $30/$180이다. 6주 만에 가격을 두 배로 올린 셈이라 비용 민감 워크로드에서는 effort 레벨 하향과 모델 분기 전략이 필요하다.

OpenAI의 'effort 레벨'(none~xhigh)은 Anthropic의 effort/adaptive thinking과 같은 방향으로 수렴한 추론-비용 노브다. 두 진영 모두 '얼마나 생각할지'를 호출자가 티어로 제어하는 구조로 표준화되고 있다. 6주 만의 2배 가격 인상은 프론티어 추론 모델의 비용 곡선이 가팔라지고 있음을 보여주며, 한국 팀은 단순 작업은 저-effort/저가 모델, 어려운 에이전틱 작업만 고가 모델로 라우팅하는 분기를 코드에 내장해야 한다.

TechCrunch / OpenAI원문 ↗

NewsAI 프로덕트·스타트업초급·2026년 4월 16일

AI 브라우저 전쟁 본격화, ChatGPT Atlas와 Perplexity Comet에 Amazon 첫 소송

웹의 1차 인터페이스가 검색창에서 'AI 에이전트 브라우저'로 옮겨가는 흐름이 2026년 상반기 가장 뜨거운 제품 전장이 됐다. OpenAI의 Chromium 기반 ChatGPT Atlas는 2025년 10월 macOS로 출시됐고, 2026년 3월 OpenAI는 Atlas를 ChatGPT·Codex와 합쳐 단일 데스크톱 슈퍼앱으로 통합하겠다고 발표하면서 Windows 단독 출시 시점은 불투명해졌다. Atlas의 에이전트 모드는 Plus($20)·Pro($200) 유료 구간에서 열린다. Perplexity Comet은 정반대 전략을 택했다. 2025년 7월 리서치 중심으로 출발해 한때 월 $200 독점이었으나 10월 전면 무료로 전환했고, 이후 iOS까지 포함해 전 플랫폼에 무료로 풀었다. Comet은 여러 사이트를 가로질러 멀티스텝 작업을 자율 수행한다. 결정적 사건은 2026년 1월 Amazon이 Comet의 자동 쇼핑 기능을 문제 삼아 제기한 소송 — 에이전트 브라우저 기술에 대한 첫 법적 분쟁으로, '봇이 사용자 대신 사이트를 조작'하는 행위의 합법성 경계를 가른다.

에이전트 브라우저는 '사용자 자동화 vs 사이트 약관'이라는 법적 회색지대를 정면으로 건드린다. Amazon 소송 결과는 자동 결제·예약·스크래핑을 끼운 모든 에이전트 제품의 설계 제약이 될 수 있어, 한국에서 에이전트 기능을 붙이는 빌더는 대상 사이트 ToS와 봇 차단을 처음부터 리스크로 다뤄야 한다. 또한 무료(Comet)와 슈퍼앱 번들(Atlas)이라는 정반대 과금 전략의 충돌은, 단품 SaaS의 가치가 빠르게 번들에 흡수되는 시대를 예고한다.

Digital Applied원문 ↗

NewsAI 프로덕트·스타트업입문·2026년 4월 6일

2026 1분기 벤처 투자 사상 최대 3000억 달러 돌파, OpenAI 1220억 달러 조달

2026년 1분기 글로벌 스타트업 투자가 약 3,000억 달러로 분기 사상 최대를 기록했고, 그중 1,880억 달러 이상이 AI 기업에 몰렸다. 핵심은 자본의 집중이다. 전 세계 VC의 약 3분의 2가 OpenAI·Anthropic·xAI·Waymo 단 네 곳으로 흘러갔다. OpenAI는 단일 라운드로 1,220억 달러를 모았는데, 1차 1,100억 달러는 Amazon($50B)·Nvidia($30B)·SoftBank($30B)가 주도했고, 처음으로 은행 채널을 통해 개인 투자자에게도 문을 열어 30억 달러 이상을 끌어모았다. Anthropic은 5월 시리즈 H로 650억 달러를 조달하며 포스트머니 9,650억 달러 — 세계에서 가장 비싼 비상장 AI 기업이 됐다(OpenAI 추정치 8,520억 달러 추월). 인수 측면에서도 OpenAI는 Hiro Finance 인수로 2026년에만 7건째 M&A를 기록, 작년 한 해(8건)에 육박했다. 한편 Shield AI($1.5B 시리즈 G·밸류 $12.7B), 스텔스에서 나온 Recursive Superintelligence($650M+ 시리즈 A·밸류 $4.65B, NVIDIA·AMD Ventures 참여) 등 인프라·로보틱스·초지능 베팅도 두드러졌다.

자본이 소수 파운데이션 모델 기업에 극단적으로 쏠리면서, 한국 빌더에게 '모델을 직접 만든다'는 선택지는 사실상 닫혔다. 승부처는 모델 위의 애플리케이션·도메인 특화 레이어이며, 토큰 비용이 곧 원가인 구조에서 cost-guard와 티어드 모델 전략(단순=저가·복잡=고가)이 생존 변수가 된다. OpenAI의 개인 투자자 개방은 AI 거품 논쟁을 리테일까지 확산시킨 신호로, 자금 환경이 꺾일 때 누가 먼저 흔들릴지 주시할 필요가 있다.

Crunchbase News원문 ↗

[설명] 폐쇄형 API를 자체 호스팅으로 바꾸기: vLLM 추론 서빙의 핵심

Bezos의 Prometheus, 기업가치 410억 달러에 시리즈B 120억 달러 조달

OpenAI, GPT-5.5 Instant을 ChatGPT 기본 모델로 채택하고 모델 선택기 개편

AI 브라우저 전쟁 본격화, ChatGPT Atlas와 Perplexity Comet에 Amazon 첫 소송

2026 1분기 벤처 투자 사상 최대 3000억 달러 돌파, OpenAI 1220억 달러 조달

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글