Perplexity
Perplexity는 'answer engine'을 표방하는 AI 검색 서비스로, 질문을 던지면 실시간 웹을 검색해 출처가 인용된 종합 답변을 돌려준다. 기존 검색이 링크 목록을 주는 것과 달리 합성된 답변과 근거 링크를 함께 제공해, 리서치·사실 확인 워크플로를 압축한다.
핵심 기능은 출처 인용 답변, 후속 질문을 통한 대화형 탐색, 여러 프런티어 모델 선택, 파일·문서 분석, 그리고 심층 리서치·에이전트형 작업이다. 상위 플랜에서는 여러 모델에 동시 질의해 결과를 종합하는 기능(Model Council)과 더 깊은 리서치를 제공하며, 개발자용 Sonar API도 별도로 있다.
대상은 빠르고 검증 가능한 리서치가 필요한 지식 노동자·연구자·애널리스트, 그리고 검색·인용 기능을 앱에 붙이려는 개발자다. 가격은 Free($0), Pro $20/월(무제한 Pro 검색·모델 전환), Max $200/월(심층 기능·Model Council), 학생 Education Pro $10, Enterprise Pro $40/시트, Enterprise Max $325/시트.
강점은 출처 투명성과 실시간성, 모델 선택 자유도, 리서치 속도다. 한계는 합성 답변 특성상 출처 오해석·환각 가능성이 남아 인용 원문 확인이 필요하고, 가장 강력한 Max 기능은 고가이며, 일반 대화·창작 측면에선 범용 챗봇 대비 강점이 제한적이라는 점이다.
서브에이전트는 메인 에이전트가 집중된 하위 작업을 처리하기 위해 띄우는 별도 에이전트 인스턴스다. 각자 맞춤 시스템 프롬프트, 전용 도구 집합, 그리고 독립된 컨텍스트 윈도우를 가진다. 덕분에 노이즈가 많은 작업의 컨텍스트를 격리하고, 여러 분석을 병렬로 돌리며, 특화된 지침을 적용할 수 있다. Claude Code에서는 에이전트와 서브에이전트의 파일 형식이 동일하다. 둘 다 YAML 프론트매터를 가진 마크다운 파일이며, 프로젝트 단위는 `.claude/agents/`, 사용자 단위는 `~/.claude/agents/`에 둔다. 코드베이스 관례에 의존하는 워크플로는 프로젝트 단위가, 이식 가능한 습관은 사용자 단위가 적합하다. 판단 기준은 간단하다. 작업이 시끄럽고 경계가 분명하며 요약하기 쉬우면 서브에이전트를 쓰고, 작고 긴밀히 결합돼 공유 멘탈 모델에 의존한다면 메인 대화에 머물러라(요약을 거치면 맥락이 약해지기 때문).
서브에이전트는 코드 없이 마크다운만으로 멀티에이전트 분업을 구성하게 해, 한국 개발자가 가장 빠르게 시도할 수 있는 에이전트 패턴이다.
Anthropic이 Claude Code에 다중 세션을 한눈에 관리하는 Agent View, 작업을 이어가는 백그라운드 세션, 그리고 결과 중심 자율 실행 기능을 도입했다. /goal은 최소 개입으로 목표를 달성하도록 작업을 자율 실행하고, /loop는 단위 테스트와 리팩터링을 반복해 결과가 100% 통과(Green)할 때까지 매 단계 확인 없이 돌린다. 긴 세션에서도 의도가 유지되도록 시스템 프롬프트 컴팩션이 추가됐고, 한 기기에서 시작한 세션을 다른 기기에서 이어받는 원격 제어도 제공된다. 핵심은 Claude Code가 '스마트 자동완성'을 넘어 여러 작업을 동시에 돌리는 관리형 에이전트 플랫폼으로 이동했다는 점이다. 자율성이 커진 만큼 권한 가드레일과 검증(테스트 게이트) 설계가 안전한 활용의 전제가 된다.
에이전트가 백그라운드에서 자율적으로 도는 시대로 넘어가면서, 사람의 역할이 '코드 작성'에서 '검증·가드레일 설계'로 옮겨간다.
오픈소스 추론 엔진 vLLM이 2026년 프로덕션 LLM 서빙의 기본값으로 자리 잡았다. 핵심 최적화는 FP8 양자화로, 약 1.5~2배 처리량 향상과 약 50% VRAM 절감을 제공해 더 큰 모델을 단일 GPU에 올릴 수 있게 한다. `--kv-cache-dtype fp8` 옵션으로 KV 캐시를 FP8로 저장하면 메모리를 추가로 아낄 수 있다. 멀티 GPU 텐서 병렬과 결합하면 H100급 환경에서 비용 대비 처리량을 크게 끌어올린다. Q2 2026 로드맵은 GB200·B200·H200 클러스터에서 분산(disaggregated) 서빙과 와이드 전문가 병렬(expert parallelism)을 '광속'까지 밀어붙이고, 기본 커널을 자동 선택해 성능을 지속 모니터링하는 데 초점을 둔다. 자체 모델 호스팅을 검토하는 한국 팀에는 GPU 비용을 결정짓는 1순위 레버다.
FP8과 KV 캐시 최적화는 자체 LLM 서빙의 GPU 비용을 절반 가까이 좌우하므로, 인프라 의사결정의 핵심 변수다.
AI 네이티브 에디터 Cursor가 3.5에서 클라우드 에이전트를 핵심 기능으로 내놨다. 격리된 클라우드 VM 안에서 터미널·브라우저·데스크톱 접근 권한을 갖고 작업을 수행해, 로컬 머신을 점유하지 않고도 자율 실행이 가능하다. 앞선 3.0은 백그라운드/클라우드 에이전트를 처음 도입했고, 3.3은 병렬 서브에이전트(Build in Parallel)와 파일 트리 규모의 다중 파일 리팩터링이 가능한 Composer 2.5를 더했다. 과거 Composer로 불리던 에이전트 모드는 복잡한 작업(REST API 구축, 의존성 마이그레이션, 테스트 작성)을 설명하면 계획→파일 생성·수정→터미널 명령 실행→완료까지 반복한다. 여러 팀의 실측에서 표준 구현 작업 기준 30~50% 속도 향상이 보고됐다. 크로스 파일 추론이 강화돼 큰 코드베이스 맥락을 유지하며 변경 전파를 이해한다.
에이전트가 로컬을 벗어나 격리 클라우드에서 도는 방향은 보안·재현성·병렬성 측면에서 팀 단위 도입의 현실적 분기점이 된다.