Runway
Runway는 영상 생성·편집 AI 플랫폼으로, 텍스트·이미지로 영상을 만드는 생성 모델과 전문 편집 도구를 함께 제공한다. 영화·광고·콘텐츠 제작 워크플로를 겨냥하며, 단순 클립 생성을 넘어 퍼포먼스 캡처·영상 편집·워크플로 자동화까지 묶은 '크리에이티브 스위트'를 지향한다.
핵심 기능은 플래그십 영상 모델(2026년 기준 Gen-4 계열, 상위 Gen-4.5는 텍스트→영상 벤치마크 상위권), Act-Two(연기 퍼포먼스 캡처), Aleph(영상 편집), Workflows(파이프라인 구성), 그리고 이미지 생성·립싱크 등 보조 도구다. 작업은 크레딧 단위로 소모되고 모델·길이·해상도에 따라 차감량이 다르다.
대상은 모션 디자이너·영상 편집자·광고/영화 프리프로덕션 팀, VFX·콘텐츠 제작자다. 가격은 연간 기준 Standard $12/월(625 크레딧), Pro $28/월(2,250 크레딧), Unlimited $76/월(2,250 크레딧 + relaxed 무제한 Explore 모드), 그리고 상위/엔터프라이즈 티어가 있다. 유료 플랜은 Gen-4.5/Gen-4와 편집 도구를 포함한다.
강점은 최신 영상 모델 품질과 생성+편집을 한 곳에 둔 제작 친화 워크플로, 퍼포먼스 캡처 같은 차별 기능이다. 한계는 크레딧이 고품질·긴 영상에 빠르게 소진돼 실사용 비용이 높고, 정밀한 장면·일관성 제어는 여전히 수작업 보정이 필요하며, 경쟁 모델 대비 비용 효율 논쟁이 있다는 점이다.
구글의 이미지 라인업 별칭 '나노 바나나'가 2026년 상반기에 두 단계 도약했다. 2월에 Nano Banana 2(Gemini 3.1 Flash Image)가 'Pro 품질을 Flash 속도로'라는 슬로건과 함께 Gemini 앱에 풀렸고, 6월에는 Gemini 3 Pro 기반의 Nano Banana Pro(Gemini 3 Pro Image)가 정식 출시(GA)됐다. Pro의 핵심 차별점은 텍스트 렌더링이다. Stable Diffusion 시절부터 이미지 속 글자는 거의 항상 알아볼 수 없는 장식성 기호로 깨지는 게 업계의 고질적 실패 모드였는데, Nano Banana Pro는 긴 문장과 다국어 레이아웃까지 읽히는 글자로 안정 출력하는 첫 모델로 평가된다. 네이티브 1K 출력에 2K·4K 업스케일이 내장됐고, 4K 이미지 1장당 0.24달러로 과금된다. 원조 Gemini 2.5 Flash Image(2025년 8월 출시, 2주 만에 5억 장 생성·신규 2,300만 명 유입의 바이럴)는 10월 2일 일부 플랫폼에서 은퇴 예정이라 Pro/3.1 계열로의 이전이 권장된다.
이미지 속 텍스트가 '깨지지 않게' 나온다는 것은 포스터·배너·상세페이지·다국어 목업 같은 실전 산출물에서 디자이너 후작업을 사실상 없애준다는 뜻으로, 한국 커머스·콘텐츠 제작자에게 직접적인 비용 절감 포인트다. 다만 2.5 Flash Image가 1년도 안 돼 은퇴 수순에 든 것처럼 구글 이미지 모델의 교체 주기가 매우 짧으므로, 프로덕션에 박을 땐 모델 ID를 추상화 계층 뒤에 두고 마이그레이션을 전제로 설계해야 한다.
Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.
OpenAI 의존을 줄이려는 Microsoft의 수직계열화가 텍스트를 넘어 음성·전사·이미지 생성미디어 전 영역으로 확장됐다는 점이 핵심이다. '증류하지 않는다'는 선언은 출처가 깨끗한 학습 데이터를 차별점으로 내세우는 엔터프라이즈 신뢰 전략이다. 한국 개발자에게는 Copilot·Azure 스택에 묶인 음성/전사/이미지 워크로드의 모델 선택지가 늘어나는 동시에, 단일 벤더 종속이 더 깊어지는 양면성을 점검해야 한다.
Midjourney는 2026년 들어 V7을 기본 모델로 정착시킨 뒤 4월 30일 V8.1을 내놓았고, V8 알파는 네이티브 2K 렌더링으로 롤아웃 중이다. V7은 음성 프롬프팅, 향상된 포토리얼리즘, 캐릭터 일관성을 위한 Omni Reference, 손·신체·오브젝트 정합성 개선, 그리고 영상 생성 능력을 도입했다. 영상은 이미지-투-비디오 방식으로 정지 이미지를 5초 클립으로 만든 뒤 최대 21초까지 확장할 수 있다. V8.1은 더 빠른 생성, HD 2K 이미지 출력, 프롬프트 준수도 향상, Raw 모드 옵션을 더했다. 요금제는 Basic 월 10달러, Standard 30달러, Pro 60달러, Mega 120달러의 4단계 구조다. 여전히 공개 API보다는 자체 인터페이스 중심으로 운영돼, 자동화 파이프라인에 끼우려면 비공식 경로 의존도가 높다는 점은 유의해야 한다.
Midjourney는 미적 완성도와 아트 디렉션 감각에서 여전히 독보적이지만, 공식 API 부재는 자동화 워크플로를 짜는 개발자에게 구조적 약점이다. 일관된 캐릭터로 시리즈물·웹툰·브랜드 비주얼을 뽑아야 하는 콘텐츠 팀이라면 Omni Reference가 결정적 가치지만, 대량 배치·서버사이드 생성이 필요한 제품에는 gpt-image-2나 FLUX API가 더 현실적인 선택이다.
Sora 2는 물리적으로 더 정확한 모션, 컷이 바뀌어도 유지되는 월드 상태(world-state persistence), 그리고 대사·효과음·앰비언트를 영상과 동기화해 함께 생성하는 능력으로 영상 생성의 사실성을 한 단계 끌어올렸다. 1080p Full HD가 표준 출력이 됐고, 동기화된 오디오를 포함한 10~25초 클립을 만든다. 'Character Cameos'로 자신이 생성한 캐릭터·반려동물 등을 새 영상에 불러오는 기능과, IP·실사 인물 콘텐츠를 차단하는 책임형 AI 가드레일도 도입됐다. 다만 운영 동향이 중요하다. 2026년 1월 10일부터 무료 사용자의 생성이 막혀 Plus/Pro 전용이 됐고, 4월 26일 자로 컨슈머용 Sora 앱·웹 경험이 중단됐다. 개발자용 Sora 2 API는 현재까지 작동하지만 2026년 9월 24일 최종 일몰이 예고돼 있어 남은 기간이 제한적이다.
Sora 2는 '음성까지 한 번에 나오는 영상 생성'의 사실상 레퍼런스를 세웠지만, 컨슈머 앱 폐기와 API 일몰 일정은 빌더에게 더 큰 교훈을 준다. 화제성 높은 프런티어 모델이라도 벤더의 제품 전략에 따라 갑자기 사라질 수 있으므로, 영상 파이프라인을 단일 API에 고정하지 말고 Veo·Runway 등으로 대체 가능한 어댑터 구조로 짜야 한다. 일몰 일정이 박힌 API 위에 상용 기능을 올리는 것은 명확한 기술 부채다.