Cohere Command A+, 첫 완전 Apache 2.0 엔터프라이즈 모델로 H100 2장 구동
Cohere Command A+ (open-weight enterprise MoE)
Cohere가 2026년 5월 20일 Command A+를 공개했다. 총 218B·활성 25B의 sparse MoE 모델로, 회사 역사상 처음으로 가중치를 완전 Apache 2.0 라이선스로 풀었다. 핵심은 두 가지 엔지니어링 성과다. 첫째, W4A4 무손실 양자화(lossless quantization)로 NVIDIA H100 단 2장에서 풀 모델을 돌릴 수 있게 했다 — 자체호스팅 진입장벽을 크게 낮춘 지점이다. 둘째, 네이티브 인용 생성(native citation)을 모델 차원에서 지원해, RAG 파이프라인에서 별도 후처리 없이 근거 출처를 토큰 레벨로 붙인다. 추론·멀티모달 이해·다국어(48개 언어, 비유럽어 효율 개선 포함)·검색·툴 사용을 단일 모델에 통합한 '에이전트 워크로드용' 포지셔닝이다. 배포는 Cohere API, Microsoft Foundry의 Managed Compute, 그리고 Hugging Face 무료 데모 스페이스로 열렸다. 메시지는 명확하다 — 주권(sovereign) AI, 즉 규제·에어갭·공공 인프라처럼 데이터가 외부로 나갈 수 없는 환경을 정조준했다.
오픈웨이트 + 완전 Apache 2.0 + 인용 네이티브의 조합은 한국의 금융·공공·의료처럼 망분리/감사 요건이 빡빡한 도메인에서 특히 강하다. 'H100 2장이면 돈다'는 건 온프레미스 자체호스팅의 현실적 비용을 처음으로 단일 노드 수준으로 끌어내린 선언이다. RAG에서 인용을 모델이 직접 생성하면 환각 검증·컴플라이언스 로깅 코드를 상당 부분 걷어낼 수 있어, 규제 산업 빌더에겐 DeepSeek/Llama 대안 카드가 하나 더 생겼다.
원문 출처
Cohere / VentureBeat