기계적 해석가능성, 2026 돌파 기술로: 모델 내부를 '회로'로 읽는다
Mechanistic Interpretability named a 2026 Breakthrough Technology
MIT 테크놀로지 리뷰가 기계적 해석가능성(mechanistic interpretability)을 2026년 10대 돌파 기술로 선정했다. 이 분야는 LLM을 블랙박스로 두지 않고, 내부 활성화를 사전(dictionary) 특징이나 프로브 방향 같은 벡터 성분으로 분해한 뒤 이를 어트리뷰션 그래프로 엮어 다단계 추론·환각·탈옥 저항 같은 동작의 '회로'를 가시화한다. 단순 관찰을 넘어 특정 특징을 인위적으로 강화·억제(steering)해 인과 효과를 검증하는 단계까지 왔다. Anthropic은 2025년 Claude 3.5 Haiku의 회로 추적 연구를 공개했고, 2027년까지 대부분의 모델 문제를 신뢰성 있게 탐지하겠다는 목표를 내걸었다. 안전·디버깅·정렬 검증을 모델 외부 평가가 아니라 내부 구조 차원에서 다루려는 흐름으로, AI 시스템의 신뢰성 검증 방식을 근본적으로 바꿀 잠재력이 있다.
프롬프트·출력 블랙박스 평가를 넘어 모델 내부 동작을 직접 검증하는 길을 열어, 안전성·디버깅·정렬 검증의 기준을 바꾼다.
원문 출처
MIT Technology Review