News중급

컨텍스트 엔지니어링: 에이전트 시대의 새 핵심 역량 (상록 가이드)

Context Engineering for AI Agents (Evergreen Guide)

컨텍스트 엔지니어링은 에이전트가 보는 토큰을 '최소한의 고신호(high-signal) 집합'으로 큐레이션하는 작업으로, 프롬프트 엔지니어링과 RAG를 모두 포함하는 상위 개념이다. 컨텍스트 아키텍처는 시스템 컨텍스트, 세션 컨텍스트, 메모리, 산출물(artifact), 온디맨드 검색의 다섯 계층으로 구성된다. 실무 원칙은 분명하다. 관련 청크를 긴 컨텍스트 한가운데 끼워 넣으면 '중간에서 길을 잃는(lost in the middle)' 현상이 생기므로, 50개를 높은 재현율로 검색한 뒤 재순위화(re-ranking)로 상위 5개만 추리는 편이 통째로 던지는 것보다 낫다. 코드 RAG라면 검색된 함수가 호출하는 다른 함수의 시그니처·정의와 인자 타입까지 자동으로 끌어와야 추론 정확도가 오른다. 도구도 마찬가지다. 5개면 되는데 40개를 주면 오히려 추론이 저하되므로, 계획(읽기)·실행(쓰기)·검증 단계별로 도구를 동적으로 제공한다. 토큰 수가 아니라 채움 비율(fill %)로 예산을 잡고 60%를 넘기 전에 선제적으로 압축하라.

에이전트 품질을 좌우하는 건 모델 선택이 아니라 무엇을 컨텍스트에 넣고 빼느냐이며, 이는 모든 LLM 앱에 보편적으로 적용된다.

원문 출처

Sourcegraph

원문 보기 ↗

← Today

AI 툴 더 보기

AI 툴 관련 브리핑

NewsAI 툴고급·2025년 11월 29일

vLLM, FP8 양자화로 추론 처리량 2배·VRAM 절반 달성한 프로덕션 서빙 표준

오픈소스 추론 엔진 vLLM이 2026년 프로덕션 LLM 서빙의 기본값으로 자리 잡았다. 핵심 최적화는 FP8 양자화로, 약 1.5~2배 처리량 향상과 약 50% VRAM 절감을 제공해 더 큰 모델을 단일 GPU에 올릴 수 있게 한다. `--kv-cache-dtype fp8` 옵션으로 KV 캐시를 FP8로 저장하면 메모리를 추가로 아낄 수 있다. 멀티 GPU 텐서 병렬과 결합하면 H100급 환경에서 비용 대비 처리량을 크게 끌어올린다. Q2 2026 로드맵은 GB200·B200·H200 클러스터에서 분산(disaggregated) 서빙과 와이드 전문가 병렬(expert parallelism)을 '광속'까지 밀어붙이고, 기본 커널을 자동 선택해 성능을 지속 모니터링하는 데 초점을 둔다. 자체 모델 호스팅을 검토하는 한국 팀에는 GPU 비용을 결정짓는 1순위 레버다.

FP8과 KV 캐시 최적화는 자체 LLM 서빙의 GPU 비용을 절반 가까이 좌우하므로, 인프라 의사결정의 핵심 변수다.

vLLM Blog원문 ↗

NewsAI 툴실전·4주 전

Cursor 3.5, 격리 VM에서 도는 자율 코딩 클라우드 에이전트 공개

AI 네이티브 에디터 Cursor가 3.5에서 클라우드 에이전트를 핵심 기능으로 내놨다. 격리된 클라우드 VM 안에서 터미널·브라우저·데스크톱 접근 권한을 갖고 작업을 수행해, 로컬 머신을 점유하지 않고도 자율 실행이 가능하다. 앞선 3.0은 백그라운드/클라우드 에이전트를 처음 도입했고, 3.3은 병렬 서브에이전트(Build in Parallel)와 파일 트리 규모의 다중 파일 리팩터링이 가능한 Composer 2.5를 더했다. 과거 Composer로 불리던 에이전트 모드는 복잡한 작업(REST API 구축, 의존성 마이그레이션, 테스트 작성)을 설명하면 계획→파일 생성·수정→터미널 명령 실행→완료까지 반복한다. 여러 팀의 실측에서 표준 구현 작업 기준 30~50% 속도 향상이 보고됐다. 크로스 파일 추론이 강화돼 큰 코드베이스 맥락을 유지하며 변경 전파를 이해한다.

에이전트가 로컬을 벗어나 격리 클라우드에서 도는 방향은 보안·재현성·병렬성 측면에서 팀 단위 도입의 현실적 분기점이 된다.

Codersera

NewsAI 툴중급·2024년 10월 18일

MCP 차기 명세, 스테이트리스 코어로 엔터프라이즈 운영 표준화

Model Context Protocol(MCP) 차기 명세가 릴리스 후보(RC) 단계에 진입했다. 핵심은 일반 HTTP 인프라에서 수평 확장되는 '스테이트리스 코어'다. 세션 생성·재개·마이그레이션을 표준화해 서버 재시작이나 스케일아웃이 클라이언트에 투명하게 처리된다. 여기에 장기 실행 작업을 위한 Tasks 확장, 서버 렌더링 UI를 다루는 MCP Apps, OAuth·OpenID Connect와 정렬된 인가 강화, 공식 폐기(deprecation) 정책이 더해졌다. MCP는 이제 '얼마나 채택됐나'가 아니라 거버넌스·아이덴티티·감사·확장성 같은 엔터프라이즈 기준으로 평가받는 단계로 넘어갔다. Claude, Cursor 등 주요 도구가 MCP를 표준 통합 계층으로 채택한 만큼, 한국 개발자도 사내 도구·데이터를 에이전트에 연결할 때 스테이트리스 설계와 인가 모델을 미리 고려해야 한다.

MCP가 사실상 에이전트-도구 연결의 산업 표준으로 굳어지면서, 스테이트리스·인가 설계가 자체 MCP 서버 구축의 새 기준선이 된다.

Model Context Protocol Blog원문 ↗

NewsAI 툴초급·2주 전

컨텍스트를 격리해 노이즈를 다스리는 서브에이전트 패턴 입문

서브에이전트는 메인 에이전트가 집중된 하위 작업을 처리하기 위해 띄우는 별도 에이전트 인스턴스다. 각자 맞춤 시스템 프롬프트, 전용 도구 집합, 그리고 독립된 컨텍스트 윈도우를 가진다. 덕분에 노이즈가 많은 작업의 컨텍스트를 격리하고, 여러 분석을 병렬로 돌리며, 특화된 지침을 적용할 수 있다. Claude Code에서는 에이전트와 서브에이전트의 파일 형식이 동일하다. 둘 다 YAML 프론트매터를 가진 마크다운 파일이며, 프로젝트 단위는 `.claude/agents/`, 사용자 단위는 `~/.claude/agents/`에 둔다. 코드베이스 관례에 의존하는 워크플로는 프로젝트 단위가, 이식 가능한 습관은 사용자 단위가 적합하다. 판단 기준은 간단하다. 작업이 시끄럽고 경계가 분명하며 요약하기 쉬우면 서브에이전트를 쓰고, 작고 긴밀히 결합돼 공유 멘탈 모델에 의존한다면 메인 대화에 머물러라(요약을 거치면 맥락이 약해지기 때문).

서브에이전트는 코드 없이 마크다운만으로 멀티에이전트 분업을 구성하게 해, 한국 개발자가 가장 빠르게 시도할 수 있는 에이전트 패턴이다.

Claude Code Docs원문 ↗

컨텍스트 엔지니어링: 에이전트 시대의 새 핵심 역량 (상록 가이드)

vLLM, FP8 양자화로 추론 처리량 2배·VRAM 절반 달성한 프로덕션 서빙 표준

Cursor 3.5, 격리 VM에서 도는 자율 코딩 클라우드 에이전트 공개

MCP 차기 명세, 스테이트리스 코어로 엔터프라이즈 운영 표준화

컨텍스트를 격리해 노이즈를 다스리는 서브에이전트 패턴 입문

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글