컴퓨터·브라우저 에이전트 2026: 픽셀 vs DOM, 세 진영의 설계 차이
Computer Use Agents 2026: Claude vs OpenAI vs Gemini
2026년 컴퓨터·브라우저 에이전트가 실제 워크로드에 쓸 만해졌고, 세 진영이 서로 다른 아키텍처를 택했다. Anthropic의 Claude는 화면 스크린샷을 받아 마우스·키보드 입력을 돌려주는 범용 computer use 도구를 노출하되, 실제 실행 환경은 고객 책임이다 — 즉 화면을 시각적으로 분석해 클릭·입력을 수행하는 픽셀 기반에 가깝다. OpenAI는 Codex Background Computer Use로 엔지니어의 메인 작업 환경과 병렬로 별도 데스크톱 세션에서 에이전트를 돌린다. Google의 Gemini Computer Use는 Project Mariner 계보로, 원시 픽셀 파싱보다 DOM 인식을 우선한다. 오픈소스 쪽에서는 Browser Use가 Playwright를 감싸 Claude·GPT·Gemini·로컬 모델을 백엔드로 붙이는 가장 인기 있는 프레임워크다. 다만 안티봇 탐지·동적 레이아웃·인증 플로우는 여전히 난제로 남아 있다.
웹 자동화·RPA를 대체할 에이전트를 고를 때 '픽셀 기반 vs DOM 기반'이라는 설계 축이 안정성·유지보수성을 가르므로, 용도에 맞는 선택 기준을 준다.
원문 출처
digitalapplied