Category
구글의 이미지 라인업 별칭 '나노 바나나'가 2026년 상반기에 두 단계 도약했다. 2월에 Nano Banana 2(Gemini 3.1 Flash Image)가 'Pro 품질을 Flash 속도로'라는 슬로건과 함께 Gemini 앱에 풀렸고, 6월에는 Gemini 3 Pro 기반의 Nano Banana Pro(Gemini 3 Pro Image)가 정식 출시(GA)됐다. Pro의 핵심 차별점은 텍스트 렌더링이다. Stable Diffusion 시절부터 이미지 속 글자는 거의 항상 알아볼 수 없는 장식성 기호로 깨지는 게 업계의 고질적 실패 모드였는데, Nano Banana Pro는 긴 문장과 다국어 레이아웃까지 읽히는 글자로 안정 출력하는 첫 모델로 평가된다. 네이티브 1K 출력에 2K·4K 업스케일이 내장됐고, 4K 이미지 1장당 0.24달러로 과금된다. 원조 Gemini 2.5 Flash Image(2025년 8월 출시, 2주 만에 5억 장 생성·신규 2,300만 명 유입의 바이럴)는 10월 2일 일부 플랫폼에서 은퇴 예정이라 Pro/3.1 계열로의 이전이 권장된다.
Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.
STT 전에 speech enhance 한 단 끼우니 정확도는 올라감. 근데 동시 발화는 enhance로 안 메워짐, 화자 분리 문제라
Midjourney는 2026년 들어 V7을 기본 모델로 정착시킨 뒤 4월 30일 V8.1을 내놓았고, V8 알파는 네이티브 2K 렌더링으로 롤아웃 중이다. V7은 음성 프롬프팅, 향상된 포토리얼리즘, 캐릭터 일관성을 위한 Omni Reference, 손·신체·오브젝트 정합성 개선, 그리고 영상 생성 능력을 도입했다. 영상은 이미지-투-비디오 방식으로 정지 이미지를 5초 클립으로 만든 뒤 최대 21초까지 확장할 수 있다. V8.1은 더 빠른 생성, HD 2K 이미지 출력, 프롬프트 준수도 향상, Raw 모드 옵션을 더했다. 요금제는 Basic 월 10달러, Standard 30달러, Pro 60달러, Mega 120달러의 4단계 구조다. 여전히 공개 API보다는 자체 인터페이스 중심으로 운영돼, 자동화 파이프라인에 끼우려면 비공식 경로 의존도가 높다는 점은 유의해야 한다.
Sora 2는 물리적으로 더 정확한 모션, 컷이 바뀌어도 유지되는 월드 상태(world-state persistence), 그리고 대사·효과음·앰비언트를 영상과 동기화해 함께 생성하는 능력으로 영상 생성의 사실성을 한 단계 끌어올렸다. 1080p Full HD가 표준 출력이 됐고, 동기화된 오디오를 포함한 10~25초 클립을 만든다. 'Character Cameos'로 자신이 생성한 캐릭터·반려동물 등을 새 영상에 불러오는 기능과, IP·실사 인물 콘텐츠를 차단하는 책임형 AI 가드레일도 도입됐다. 다만 운영 동향이 중요하다. 2026년 1월 10일부터 무료 사용자의 생성이 막혀 Plus/Pro 전용이 됐고, 4월 26일 자로 컨슈머용 Sora 앱·웹 경험이 중단됐다. 개발자용 Sora 2 API는 현재까지 작동하지만 2026년 9월 24일 최종 일몰이 예고돼 있어 남은 기간이 제한적이다.
OpenAI가 2026년 4월 21일 gpt-image-2(ChatGPT Images 2.0)를 공개했다. 가장 큰 변화는 O-시리즈의 추론 능력을 이미지 생성에 통합한 점으로, 모델이 곧장 픽셀을 뱉는 대신 이미지의 구조와 레이아웃을 먼저 계획·추론한 뒤 생성한다. 그동안 디퓨전 계열의 고질병이던 이미지 내 텍스트 렌더링이 약 99% 정확도로 끌어올려졌고, 라틴 문자뿐 아니라 한국어·일본어·아랍어·힌디·벵골어 등 십수 개 문자 체계를 안정적으로 그린다. 최대 4K 해상도를 지원해 포스터·목업·UI 시안 같은 실무 산출물에 바로 투입할 수 있는 수준이다. ChatGPT와 Codex 사용자에게는 4월 22일부터 제공됐고, 개발자용 API는 5월 초 열렸다. API 가격은 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러로 책정됐다. 무료 사용자는 1월부터 이미지·영상 생성에서 제외돼 Plus/Pro 전용 흐름으로 정리됐다.
구글의 Veo 3 계열은 2026년 상반기에 Veo 3.1로 정비되며 세 개 티어(베이스·Ultra 등)로 나뉘었고, 모든 티어가 네이티브 오디오 생성을 지원한다. 영상에 효과음·앰비언트·대사를 모델이 직접 생성해 입히며, 화면 동작에 묶인 효과음과 입모양 동기화(lip-sync) 대사까지 처리한다. 베이스 모델은 1080p·24fps에서 최대 8초 클립을, Veo 3 Ultra는 4K 출력과 60초 이상 장면 생성을 지원하는 것으로 정리됐다. 4월 2일에는 Google Vids에 Veo 3.1(영상)과 Lyria 3(음악)를 결합한 대규모 기능 업데이트가 공식 발표돼, AI 음악·아바타를 포함한 사내 영상 제작이 한층 자동화됐다. Vertex AI에는 Veo 3.1 Lite와 새 업스케일링 기능이 추가돼 비용·해상도 선택지가 넓어졌다.
Suno가 2026년 3월 25일 v5.5를 출시하며 AI 음악 생성에 세 가지 핵심 기능을 더했다. 첫째 Voices는 커뮤니티 최다 요청 기능으로, 사용자가 자신의 노래하는 목소리를 캡처해 AI 생성 곡에서 그 음성으로 부르게 한다. 둘째 Custom Models는 본인이 권리를 가진 원곡 최소 6곡을 업로드하면 Suno가 그 스타일 패턴으로 v5.5를 파인튜닝해 주는 기능으로, Pro·Premier 사용자는 최대 3개의 커스텀 모델을 만들 수 있다. 셋째 My Taste는 개인 취향 기반으로 음악 생성을 개인화한다. Suno는 v5.5를 '가장 표현력 있고 가장 인간적인 버전'으로 소개하며, 이 역량들이 2026년 하반기 음악 업계와 함께 출시할 차세대 모델의 토대라고 밝혔다.
ComfyUI는 노드 기반 GUI로 알려졌지만, 그 본질은 HTTP·WebSocket 서버를 갖춘 이미지·영상 생성 백엔드라는 점이다. UI에서 만든 워크플로를 JSON으로 내보내 API로 큐잉하면, 어떤 애플리케이션이든 생성 엔진으로 ComfyUI를 호출할 수 있다. WebSocket은 실행 이벤트, 샘플러 진행률, 프리뷰 이미지, 큐 상태를 스트리밍해 작업 진행과 완료를 실시간으로 받는다. 프로덕션에서 핵심 패턴은 두 가지다. 첫째, VRAM 경쟁(thrashing)을 피하려 워크플로마다 전용 웜 워커를 두어 격리한다. 둘째, 모든 의존성과 커스텀 노드를 버전·커밋 해시로 고정해 의도하지 않은 업데이트로 결과물이 바뀌는 사고를 막는다. 텍스트→이미지→영상→업스케일을 하나의 파이프라인으로 체이닝하고 배치 자동화까지 묶을 수 있어, 생성 기능을 서비스에 내재화하려는 한국 개발팀에게 검증된 셀프호스팅 경로가 된다.
ElevenLabs가 2026년 3월 14일 Eleven v3를 정식 출시(GA)했다(2월 알파 후 GA). 가장 큰 변화는 Audio Tags로, 대괄호로 감싼 지시어를 모델이 해석해 음성의 표현을 직접 연출한다. [excited], [whispers], [sighs] 같은 감정·발화 톤부터 [gunshot], [clapping], [explosion] 같은 사운드 이벤트까지 텍스트 안에서 디렉팅할 수 있어, 사실상 'AI 성우를 연출'하는 워크플로가 가능해졌다. 그동안 ElevenLabs의 최대 약점으로 지적되던 감정 표현 범위가 이 업데이트로 따라잡혔다는 평가다. 복잡한 텍스트 처리 오류가 68% 줄었고 70개 이상 언어를 지원한다. 다만 v3는 고충실도 코덱과 큰 모델을 쓰는 만큼 실시간 처리는 불가하며, 실시간·대화형 용도에는 여전히 Flash v2.5를 권장한다. 6월 말까지 80% 할인 프로모션이 진행됐다.
Google DeepMind의 Veo 3.1은 텍스트 프롬프트 한 번으로 영상과 사운드를 동시에 만들어낸다. 주변음, 효과음, 대사가 단일 모델 패스로 생성되고 립싱크까지 맞아 후처리 없이도 오디오·비주얼이 동기화된다는 점이 핵심이다. 2025년 10월 Veo 3.1이 공개된 뒤 2026년 1월에는 4K 해상도 출력이 더해졌고, 9:16 세로 영상도 네이티브로 지원한다. Google은 Veo를 Imagen 4와 묶어 AI 영상 제작 플랫폼 Flow로도 제공한다. 한국 개발자 입장에서는 영상+음성을 별도 파이프라인으로 합성하던 작업이 하나의 API 호출로 단순화된다는 의미다. 짧은 광고, 숏폼, 제품 데모처럼 사운드 동기화가 중요한 콘텐츠에서 제작 단가와 시간을 크게 줄일 수 있다.
Black Forest Labs가 2025년 11월 FLUX.2 시리즈를 공개하며 Pro·Flex·Dev, 그리고 Apache 2.0 라이선스의 klein 모델로 라인업을 구성했고, 2026년 1월에는 소비자용 하드웨어에서 인터랙티브하게 돌아가는 경량 FLUX.2 [klein]을 추가했다. FLUX.2는 이미지 레퍼런스·포토리얼리즘·타이포그래피·프롬프트 이해에서 개선을 내세우며, 수십 장의 유사 변형을 만드는 다중 레퍼런스(multi-reference) 기능과 최대 4메가픽셀 편집을 지원한다. 아키텍처는 Mistral-3 24B 비전-언어 모델에 rectified flow transformer를 결합한 구조로, 2026 벤치마크에서 포토리얼리즘과 다중 레퍼런스 일관성 선두로 평가받는다. klein은 서브-초 단위 생성·편집과 text-to-image·image-to-image 통합 아키텍처를 제공하며, 로컬 GPU부터 클라우드 API까지 배포 선택지가 넓다. NVIDIA RTX 최적화, Cloudflare Workers AI에 FLUX.2 [dev] 탑재 등 인프라 파트너십도 확장됐다.
Google이 Gemini의 네이티브 이미지 생성 라인업 'Nano Banana'를 확장했다. 2026년 2월 26일 공개된 Nano Banana 2는 Gemini 챗봇, 검색 AI 모드, Lens에 통합됐다. 라인업은 셋으로 나뉜다. 고속·대량 처리용 Nano Banana 2(Gemini 3.1 Flash Image), 전문 에셋 제작용 Nano Banana Pro(Gemini 3 Pro Image), 저지연용 기존 Nano Banana(Gemini 2.5 Flash Image)다. 강점은 피사체 일관성과 정밀한 지시 준수로, 같은 캐릭터를 여러 장면에 유지하거나 부분만 수정하는 편집형 작업에 적합하다. 5월 Google I/O에서는 Nano Banana 기반 이미지 플랫폼 Google Pics도 발표됐다. 개발자는 용도에 따라 속도(Flash)와 품질(Pro)을 골라 호출하면 되며, 마케팅 이미지·썸네일 대량 생성부터 정밀 에셋 제작까지 한 패밀리에서 처리할 수 있다.
프롬프트 한 줄로 끝난다는 거 썸네일에나 있는 얘기 아님? 나만 5~10번씩 다시 굴리나ㅋㅋ
시안은 공짜 Pollinations로 막 뽑고, 본작업만 nano-banana 과금으로. 한글 텍스트는 둘 다 못 믿어서 따로 얹는 중.
데모 마켓 샘플 24장, 출처 불명 크롤 긁을 고민할 게 아니라 그냥 생성하면 권리관계가 통째로 없어짐
AI 생성물의 출처·진위 표시가 권고에서 규제로 넘어가고 있다. 업계는 두 겹 표준으로 수렴했다. 하나는 C2PA 콘텐츠 자격증명(Content Credentials)으로, 어떤 기기·모델이 만들었는지와 적용된 편집 이력을 서명된 JSON-LD 매니페스트에 기록한다. C2PA 2.1은 2025년 비준돼 ISO/IEC 22144 표준이 됐다. 다른 하나는 SynthID 같은 비가시 워터마크다. 이 스택은 Adobe·Microsoft·OpenAI·Meta·Google과 Leica·Sony·Nikon·Canon 카메라 펌웨어가 지원한다. 규제 측면에서 캘리포니아 SB 942는 2026년 1월 1일 발효됐고, EU AI Act 제50조 집행은 2026년 8월 시작된다. 한국 개발자가 이미지·영상·음성 생성 기능을 서비스에 넣는다면, EU·미국 시장 대상 제품에서는 메타데이터 매니페스트 부착과 워터마킹을 설계 단계부터 고려해야 컴플라이언스 리스크를 피할 수 있다.
ElevenLabs의 Eleven v3는 회사에서 가장 표현력이 풍부한 음성 모델로, 텍스트 안에 [whispers], [laughs], [excited] 같은 인라인 오디오 태그를 넣어 감정과 톤을 직접 연출할 수 있다. 70개 이상 언어를 지원하며 오디오북, 영상 내레이션, 드라마틱한 보이스오버처럼 긴 호흡의 콘텐츠에 적합하다. 함께 나온 Voice Design v3는 나이·억양·톤·음질을 텍스트로 묘사하면 수 초 만에 서로 다른 후보 음성 3종을 생성해주며, 사실적 음성용과 게임 NPC·판타지 캐릭터용 두 모드를 제공한다. 회사는 2026년 2월 5억 달러 시리즈 D를 마감해 110억 달러 가치로 평가받았고, TTS 스타트업에서 음성 에이전트·음악·더빙·실시간 전사를 아우르는 풀스택 오디오 레이어로 확장했다. 한국 개발자에게는 다국어 내레이션과 캐릭터 보이스 제작을 코드 한 줄의 태그로 제어할 수 있다는 실질적 이점이 있다.
2026년 오픈소스 영상 생성 모델은 자체 호스팅으로 클로즈드 모델을 추격하는 수준에 올랐다. Alibaba의 Wan 계열이 선두로, MoE(Mixture-of-Experts) 디퓨전 백본을 쓰는 Wan 2.2는 가장 시네마틱한 오픈 모델로 꼽히고, 2026년 4월의 Wan 2.7은 첫/마지막 프레임 제어, 9분할 이미지 입력, 5000자 프롬프트를 지원하며 Wan-Bench 2.0에서 선두를 차지한다. Tencent의 HunyuanVideo 1.5(2025년 11월)는 83억 파라미터로 RTX 4090 한 장에서 최대 75초 영상을 렌더링한다. 이 밖에 Lightricks의 경량 LTX-Video, Genmo의 Mochi 1, 휴먼 중심 SkyReels V1 등이 있다. 한국 개발자에게 중요한 점은 데이터 주권과 비용 통제다. API 종속이나 콘텐츠 정책 제약 없이 온프레미스·GPU 클라우드에서 영상 파이프라인을 직접 운용할 수 있고, 단일 GPU에서 돌아가는 모델이 늘어 진입 장벽도 낮아졌다.