LLM 아키텍처의 최근 발전: KV 공유, mHC, 압축 주의
Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention
최근 LLM 아키텍처는 긴 컨텍스트 효율성에 중점을 두고 있으며, KV 캐시 크기, 메모리 트래픽, 주의 비용을 줄이기 위한 다양한 기술이 도입되고 있다. 주요 예로는 Gemma 4의 KV 공유 및 레이어별 임베딩, Laguna XS.2의 레이어별 주의 예산, ZAYA1-8B의 압축 합성곱 주의, DeepSeek V4의 mHC 및 압축 주의가 있다. Gemma 4는 E2B 및 E4B 모델에서 공유 KV 캐시 방식을 채택하여 메모리와 계산을 줄이고 있으며, 이는 긴 컨텍스트 작업을 가능하게 한다.
이러한 아키텍처 변화는 한국 개발자들이 LLM을 효율적으로 활용할 수 있는 방법을 제시한다.
원문 출처
Ahead of AI (Sebastian Raschka)