Anthropic, 한 모델 두 제품 안전 분기 설계의 최강 플래그십 Claude Fable 5 공개
Claude Fable 5 and Claude Mythos 5
Anthropic이 6월 9일 가장 강력한 공개 모델 Claude Fable 5를 출시했다. 동시에 같은 가중치를 공유하는 Mythos 5를 검증된 사이버 방어 인력에게만 제한 공개했다. 핵심은 '한 모델을 두 제품으로' 나눈 설계다. 능력으로 가른 게 아니라 안전 분류기(safety classifier) 한 겹으로 갈랐다. Fable 5는 분류기를 얹어 일반 공개, Mythos 5는 같은 모델에서 사이버 가드레일만 벗겨 핵심 인프라 운영자에게만 잠가뒀다. 벤치마크 전반에서 SOTA이며 일부 항목은 Opus 4.8보다 10%p 이상 높다. 컨텍스트 1M, 최대 출력 128K, 입력 $10·출력 $50/MTok(Opus의 2배). API에서 사고가 바뀐다. 분류기가 정당한 인접 작업(보안 툴링, 생명과학)에서도 오탐 거부를 내므로 stop_reason: 'refusal'이 HTTP 200으로 반환된다. content를 읽기 전에 stop_reason을 먼저 분기해야 한다. 또 thinking이 항상 켜져 있어 thinking 파라미터를 명시하면 거부(disabled는 400), raw 사고연쇄는 절대 반환되지 않고 요약만 제공된다.
능력이 아니라 '안전 분류기 한 겹'으로 동일 모델을 두 상품으로 가른 건 프론티어 모델 배포 전략의 전환점이다. 한국 개발자 입장에서 실무 충격은 refusal을 정상 응답 경로로 처리해야 한다는 점이다. content[0]을 무조건 읽는 기존 코드는 거부 시 인덱스 에러로 깨지므로, fable-5를 쓴다면 서버사이드 fallbacks 옵션을 기본 탑재해 거부를 Opus 4.8로 자동 우회시키는 패턴이 사실상 표준이 된다.
원문 출처
Anthropic