Keye-VL-2.0-30B-A3B 모델의 비디오 이해 및 에이전트 기능
Kwai-Keye/Keye-VL-2.0-30B-A3B-GGUF · Hugging Face
Keye-VL-2.0-30B-A3B는 30B 클래스의 최신 모델로, 긴 비디오 이해와 에이전트 기능을 지원한다. 이 모델은 다섯 개의 비디오 벤치마크에서 오픈소스 경쟁자들을 초월하며, Gemini-3-Flash와의 시간적 기초에서 동등하거나 우수한 성능을 보인다. DSA(Native Long-Context Architecture)를 통해 효율적인 계산으로 시간 길이 비디오를 이해하며, 데이터 중심의 다중 모달 사전 학습을 통해 인식, OCR 및 추론 연속성을 강화한다. 또한, 내장된 에이전트 기능은 코드, 도구 및 검색 작업을 지원한다.
이 모델은 한국 개발자들이 비디오 이해 및 멀티모달 애플리케이션을 구현하는 데 있어 강력한 도구가 될 수 있다.
원문 출처
r/LocalLLaMA