Category
exit code 137 한 줄 보고 시작된 사흘짜리 삽질. OOMKilled랑 database is locked 잡으러 Postgres까지 간 기록
2026년 상반기 기업의 AI 에이전트 도입이 '데모'에서 '프로덕션'으로 넘어가는 변곡점을 지났다. 수치가 이를 뒷받침한다. Q1 2026에 출시·업데이트된 엔터프라이즈 앱의 80%가 최소 하나의 AI 에이전트를 내장했고(2024년 33% → 급등), 실제 프로덕션에 에이전트를 1개 이상 가동 중인 기업은 31%다. 산업별 편차가 크다 — 금융·보험이 47%로 선두, 헬스케어·정부는 각각 18%·14%로 후행. ROI는 글로벌 중앙값 171%, 미국 기업은 192%이며, 도메인 특화 에이전트는 수평형 대비 평균 5배 높은 효율을 보였다. 회수기간은 SDR(영업개발) 에이전트가 3.4개월로 가장 빠르고 재무·운영은 8.9개월. 사례로는 Klarna 에이전트가 853명분 업무를 처리하며 6,000만 달러를 절감했고, JPMorgan은 매일 450개 이상 AI 유스케이스를 프로덕션에서 돌린다. Merck는 4월 Google Cloud와 최대 10억 달러 규모의 제약 분야 최대 에이전틱 딜을 체결했다.
에이전트 자동화를 프로덕션에 올릴 때 발목을 잡는 건 모델 성능보다 평가와 모니터링인 경우가 많다. 멀티스텝 추론에서는 중간 단계 하나가 틀려도 최종 출력 검사는 통과해버려, 워크플로 전체가 오염돼도 기존 출력 기반 테스트가 놓친다. 그래서 권장되는 실무 원칙은 세 가지다. 첫째, 배포 전 적대적(adversarial)으로 테스트한다. 둘째, 실제 프로덕션 실패 사례로부터 eval을 만든다. 셋째, 그 eval이 정말로 중요한 실패를 잡아내는지 측정한다. 페르소나 기반으로 적대적 시나리오를 돌리면 아직 로그에 안 나타났지만 고객군에 존재하는 실패 모드를 미리 잡을 수 있어 가장 값싼 보험이 된다. 운영에서는 출력의 5~10%를 루브릭으로 표본 검수하고, 사람이 에이전트 출력을 뒤집은(override) 케이스를 원인별로 군집화하는 에스컬레이션 분석이 신호가 가장 강한 피드백 채널이다.
Model Context Protocol의 2025-11-25 리비전은 자동화 워크플로 설계 방식을 바꾼다. 핵심은 Tasks 프리미티브로, 어떤 요청이든 즉시 task 핸들을 돌려받고 나중에 상태를 폴링해 결과를 가져오는 call-now/fetch-later 패턴을 지원한다. task는 working, input_required, completed, failed, cancelled 상태를 거치므로 장시간 멀티스텝 작업을 조율하기 쉬워진다. 또 하나는 일릴리시테이션 강화다. 서버가 작업 중간에 멈춰 사용자 입력을 요청할 수 있고, URL 모드(SEP-1036)는 OAuth·결제·API 키 같은 민감 플로를 클라이언트 안이 아니라 브라우저에서 완료하도록 URL을 건넨다. 다만 Tasks는 실험적 코어 기능으로 출시됐고, 실제 운영에서 재설계 필요성이 드러나 이후 2026-07-28 릴리스 후보에서는 스펙 본체가 아닌 Extension으로 옮겨졌다는 점은 알아둘 필요가 있다.
노코드라 "테스트"면 안 나가는 줄 알았는데 Gmail 노드까지 그냥 쏘더라. 발송 노드 막아둔 덕에 겨우 살았음
셋 다 1년 굴려보니 가격표보다 팀에 코드 만질 사람 있냐가 갈림길이더라고요.
에이전트를 단순 for 루프로 돌리면 중간에 프로세스가 죽거나 API가 끊겼을 때 처음부터 다시 시작해야 한다. 장시간·상태 유지 에이전트를 안정적으로 운영하려면 내구 실행(durable execution) 개념이 필요하다. 핵심은 체크포인트다. 각 단계의 상태를 저장해 두면 장애가 나도 정확히 멈춘 지점부터 자동으로 이어서 재개할 수 있다. 여기에 사람 승인을 끼우는 human-in-the-loop, 영속 메모리, 스트리밍, 실패 시 자동 재시도와 복구가 더해지면 프로덕션급 에이전트의 기본기가 갖춰진다. 이런 패턴을 일급 기능으로 제공하는 대표 프레임워크가 LangGraph로, 그래프 기반 오케스트레이션에서 각 노드가 에이전트 단계를 맡고 엣지가 흐름을 정의한다. 타임트래블 디버깅과 상태 편집을 지원하는 스튜디오, 크론 스케줄링·체크포인트·재시도를 다루는 API도 제공한다. 더 강한 실행 보증이 필요하면 Temporal 같은 워크플로 엔진과 결합하는 선택지도 있다.
화면을 보고 마우스·키보드를 직접 조작해 사람처럼 GUI를 다루는 컴퓨터 유즈 에이전트가 2026년에는 실험을 넘어 하나의 제품 카테고리가 됐다. 출발점은 Anthropic이 2024년 10월 22일 public beta로 공개한 Claude의 Computer Use로, 스크린샷을 시각적으로 분석해 좌표 기반 클릭과 키 입력으로 멀티스텝 작업을 수행한다. OS에 의존하지 않는 portable한 스크린샷+마우스+키보드 툴이라 VM·컨테이너·원격 데스크톱에서 두루 동작한다. 접근법은 셋으로 갈린다. Claude는 OS 비의존 시각 제어, OpenAI Operator 계열은 별도 데스크톱 세션에서 백그라운드로 에이전트를 돌리는 방향, Google Gemini의 Computer Use는 Project Mariner에서 자라 DOM 인식과 웹 네이티브 액션으로 브라우저 워크플로에 최적화한다. 공통점은 화면을 보고 맥락을 이해하며 인터페이스가 바뀌어도 적응한다는 점이다.
코딩 못 하는데 매주 4시간짜리 정산 노가다 없앰. 메타 단기 토큰이 자꾸 죽어서 좀 헤맸지만 결국 됨ㅋㅋ
오픈소스 워크플로 자동화 도구 n8n이 네이티브 Model Context Protocol 지원을 더했다. 새로 추가된 MCP Server Trigger와 MCP Client Tool 두 노드가 핵심이다. MCP Server Trigger로 임의의 n8n 워크플로를 하나의 도구로 노출하면 Claude나 GPT 계열 모델이 그 워크플로를 자율적으로 호출할 수 있고, MCP Client Tool로는 n8n 안에서 외부 MCP 서버의 도구를 끌어다 쓸 수 있다. AI Agent 노드는 목표를 추론해 어떤 도구를 쓸지 스스로 고르고, 케이스마다 if/else를 일일이 짜지 않아도 분기 결과를 처리한다. 단순·고빈도 쿼리는 경량 모델로, 모호한 입력의 복잡 추론은 더 강한 모델로 보내는 티어드 라우팅도 구성할 수 있다. 계약서 생성이나 결제 같은 고위험 지점에서는 사람이 확인할 때까지 워크플로를 멈추는 수동 승인 게이트(human-in-the-loop)를 둔다.
Claude Agent SDK는 Claude Code를 움직이는 에이전트 루프·툴·컨텍스트 관리를 그대로 자신의 프로세스 안에서 돌릴 수 있게 해주는 라이브러리로, Python과 TypeScript를 지원한다. 과거 Messages API로 직접 손코딩하던 에이전트 루프(파일 읽기, 명령 실행, 웹 검색, 코드 편집 등)를 자동화해, 개발자는 도구를 정의하고 목표만 주면 된다. 핵심 가치는 배포 유연성이다. 자신의 코드에서 호출하거나, 웹훅으로 트리거하거나, 서버리스 플랫폼에 올려 무인 자동화로 돌릴 수 있다. 실제 활용 사례로 LlamaIndex가 LlamaParse와 Agent SDK를 묶어 대출 처리 담당자의 소득 대사(reconciliation) 업무를 자동화한 예가 있다. 단순·고빈도 작업은 가벼운 모델로, 모호한 입력의 복잡 추론은 더 강한 모델로 보내는 티어드 라우팅, 그리고 고위험 단계에 사람 승인을 끼우는 human-in-the-loop 설계와도 자연스럽게 결합된다.