Category
서브에이전트는 메인 에이전트가 집중된 하위 작업을 처리하기 위해 띄우는 별도 에이전트 인스턴스다. 각자 맞춤 시스템 프롬프트, 전용 도구 집합, 그리고 독립된 컨텍스트 윈도우를 가진다. 덕분에 노이즈가 많은 작업의 컨텍스트를 격리하고, 여러 분석을 병렬로 돌리며, 특화된 지침을 적용할 수 있다. Claude Code에서는 에이전트와 서브에이전트의 파일 형식이 동일하다. 둘 다 YAML 프론트매터를 가진 마크다운 파일이며, 프로젝트 단위는 `.claude/agents/`, 사용자 단위는 `~/.claude/agents/`에 둔다. 코드베이스 관례에 의존하는 워크플로는 프로젝트 단위가, 이식 가능한 습관은 사용자 단위가 적합하다. 판단 기준은 간단하다. 작업이 시끄럽고 경계가 분명하며 요약하기 쉬우면 서브에이전트를 쓰고, 작고 긴밀히 결합돼 공유 멘탈 모델에 의존한다면 메인 대화에 머물러라(요약을 거치면 맥락이 약해지기 때문).
Anthropic이 Claude Code에 다중 세션을 한눈에 관리하는 Agent View, 작업을 이어가는 백그라운드 세션, 그리고 결과 중심 자율 실행 기능을 도입했다. /goal은 최소 개입으로 목표를 달성하도록 작업을 자율 실행하고, /loop는 단위 테스트와 리팩터링을 반복해 결과가 100% 통과(Green)할 때까지 매 단계 확인 없이 돌린다. 긴 세션에서도 의도가 유지되도록 시스템 프롬프트 컴팩션이 추가됐고, 한 기기에서 시작한 세션을 다른 기기에서 이어받는 원격 제어도 제공된다. 핵심은 Claude Code가 '스마트 자동완성'을 넘어 여러 작업을 동시에 돌리는 관리형 에이전트 플랫폼으로 이동했다는 점이다. 자율성이 커진 만큼 권한 가드레일과 검증(테스트 게이트) 설계가 안전한 활용의 전제가 된다.
오픈소스 추론 엔진 vLLM이 2026년 프로덕션 LLM 서빙의 기본값으로 자리 잡았다. 핵심 최적화는 FP8 양자화로, 약 1.5~2배 처리량 향상과 약 50% VRAM 절감을 제공해 더 큰 모델을 단일 GPU에 올릴 수 있게 한다. `--kv-cache-dtype fp8` 옵션으로 KV 캐시를 FP8로 저장하면 메모리를 추가로 아낄 수 있다. 멀티 GPU 텐서 병렬과 결합하면 H100급 환경에서 비용 대비 처리량을 크게 끌어올린다. Q2 2026 로드맵은 GB200·B200·H200 클러스터에서 분산(disaggregated) 서빙과 와이드 전문가 병렬(expert parallelism)을 '광속'까지 밀어붙이고, 기본 커널을 자동 선택해 성능을 지속 모니터링하는 데 초점을 둔다. 자체 모델 호스팅을 검토하는 한국 팀에는 GPU 비용을 결정짓는 1순위 레버다.
AI 네이티브 에디터 Cursor가 3.5에서 클라우드 에이전트를 핵심 기능으로 내놨다. 격리된 클라우드 VM 안에서 터미널·브라우저·데스크톱 접근 권한을 갖고 작업을 수행해, 로컬 머신을 점유하지 않고도 자율 실행이 가능하다. 앞선 3.0은 백그라운드/클라우드 에이전트를 처음 도입했고, 3.3은 병렬 서브에이전트(Build in Parallel)와 파일 트리 규모의 다중 파일 리팩터링이 가능한 Composer 2.5를 더했다. 과거 Composer로 불리던 에이전트 모드는 복잡한 작업(REST API 구축, 의존성 마이그레이션, 테스트 작성)을 설명하면 계획→파일 생성·수정→터미널 명령 실행→완료까지 반복한다. 여러 팀의 실측에서 표준 구현 작업 기준 30~50% 속도 향상이 보고됐다. 크로스 파일 추론이 강화돼 큰 코드베이스 맥락을 유지하며 변경 전파를 이해한다.
Model Context Protocol(MCP) 차기 명세가 릴리스 후보(RC) 단계에 진입했다. 핵심은 일반 HTTP 인프라에서 수평 확장되는 '스테이트리스 코어'다. 세션 생성·재개·마이그레이션을 표준화해 서버 재시작이나 스케일아웃이 클라이언트에 투명하게 처리된다. 여기에 장기 실행 작업을 위한 Tasks 확장, 서버 렌더링 UI를 다루는 MCP Apps, OAuth·OpenID Connect와 정렬된 인가 강화, 공식 폐기(deprecation) 정책이 더해졌다. MCP는 이제 '얼마나 채택됐나'가 아니라 거버넌스·아이덴티티·감사·확장성 같은 엔터프라이즈 기준으로 평가받는 단계로 넘어갔다. Claude, Cursor 등 주요 도구가 MCP를 표준 통합 계층으로 채택한 만큼, 한국 개발자도 사내 도구·데이터를 에이전트에 연결할 때 스테이트리스 설계와 인가 모델을 미리 고려해야 한다.
컨텍스트 엔지니어링은 에이전트가 보는 토큰을 '최소한의 고신호(high-signal) 집합'으로 큐레이션하는 작업으로, 프롬프트 엔지니어링과 RAG를 모두 포함하는 상위 개념이다. 컨텍스트 아키텍처는 시스템 컨텍스트, 세션 컨텍스트, 메모리, 산출물(artifact), 온디맨드 검색의 다섯 계층으로 구성된다. 실무 원칙은 분명하다. 관련 청크를 긴 컨텍스트 한가운데 끼워 넣으면 '중간에서 길을 잃는(lost in the middle)' 현상이 생기므로, 50개를 높은 재현율로 검색한 뒤 재순위화(re-ranking)로 상위 5개만 추리는 편이 통째로 던지는 것보다 낫다. 코드 RAG라면 검색된 함수가 호출하는 다른 함수의 시그니처·정의와 인자 타입까지 자동으로 끌어와야 추론 정확도가 오른다. 도구도 마찬가지다. 5개면 되는데 40개를 주면 오히려 추론이 저하되므로, 계획(읽기)·실행(쓰기)·검증 단계별로 도구를 동적으로 제공한다. 토큰 수가 아니라 채움 비율(fill %)로 예산을 잡고 60%를 넘기 전에 선제적으로 압축하라.