구글 Gemini 3.1 Pro 정식 공개, SWE-bench 80.6%에 4단계 thinking로 비용 조절
Gemini 3.1 Pro (gemini-3.1-pro-preview)
구글 딥마인드가 2026년 2월 19일 Gemini 3.1 Pro를 프리뷰로 공개했다. 직전 Gemini 3 Pro 대비 추론 성능을 2배 이상 끌어올렸고, 출시와 동시에 3 Pro 프리뷰를 종료(deprecate)시키며 플래그십을 교체했다. 벤치마크가 강력하다. SWE-bench Verified 80.6%(Claude Opus 4.6의 80.8%와 사실상 동급), GPQA Diamond 94.3%, 그리고 ARC-AGI-2에서 77.1%로 전작 31.1%의 두 배를 넘겼다. 컨텍스트는 100만 토큰 입력·6.5만 토큰 출력을 유지한다. 실무자가 주목할 부분은 thinking level이다. Low/Medium/High에 더해 Max까지 4단계를 노출해, 요청마다 추론 깊이와 비용·지연을 직접 트레이드오프할 수 있다(자동완성은 Low, 코드리뷰는 Medium, 복잡한 디버깅은 High 식). 가격은 입력 100만 토큰당 $2, 출력 $12로 전작과 동일하게 동결했다. 금융·스프레드시트 등 에이전트 도메인에서의 동작 개선도 명시됐다.
Gemini 3.1 Pro는 'thinking level'을 API 1급 파라미터로 노출해, 같은 모델로 자동완성부터 심층 디버깅까지 비용 곡선을 코드에서 직접 그릴 수 있게 했다. 한국 개발자 입장에선 가격 동결+100만 토큰 컨텍스트 조합이 RAG·대규모 코드베이스 작업에서 Claude/GPT 대비 단가 우위를 만든다. Opus 4.6과 SWE-bench가 0.2%p 차이인 만큼, 이제 선택 기준은 점수표가 아니라 thinking level 같은 운영 제어와 토큰 단가로 넘어갔다.
원문 출처
Google DeepMind / Artificial Analysis