OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시
GPT Image 2: OpenAI's reasoning-powered image generation model
OpenAI가 2026년 4월 21일 gpt-image-2(ChatGPT Images 2.0)를 공개했다. 가장 큰 변화는 O-시리즈의 추론 능력을 이미지 생성에 통합한 점으로, 모델이 곧장 픽셀을 뱉는 대신 이미지의 구조와 레이아웃을 먼저 계획·추론한 뒤 생성한다. 그동안 디퓨전 계열의 고질병이던 이미지 내 텍스트 렌더링이 약 99% 정확도로 끌어올려졌고, 라틴 문자뿐 아니라 한국어·일본어·아랍어·힌디·벵골어 등 십수 개 문자 체계를 안정적으로 그린다. 최대 4K 해상도를 지원해 포스터·목업·UI 시안 같은 실무 산출물에 바로 투입할 수 있는 수준이다. ChatGPT와 Codex 사용자에게는 4월 22일부터 제공됐고, 개발자용 API는 5월 초 열렸다. API 가격은 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러로 책정됐다. 무료 사용자는 1월부터 이미지·영상 생성에서 제외돼 Plus/Pro 전용 흐름으로 정리됐다.
이미지 모델에 '먼저 생각하고 그린다'는 추론 단계가 들어간 것은 텍스트 LLM이 걸어온 chain-of-thought 진화를 이미지가 그대로 밟는 신호다. 한국어 텍스트 렌더링이 사실상 해결됐다는 점은 국내 마케팅·커머스·앱 시안 제작에서 사람 손 디자인을 대체할 임계점을 넘었다는 의미이며, 빌더라면 API 토큰 기반 과금 구조를 고려해 배치 생성 비용을 미리 설계해야 한다.
원문 출처
getimg.ai / OpenAI