CaVe-VLM-CoT: 증거 기반 추론을 위한 비전-언어 모델 프레임워크
CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework
CaVe-VLM-CoT는 비전-언어 모델(VLM)의 환각 문제를 해결하기 위한 모듈형 반사 기반 에이전틱-RAG 프레임워크이다. 이 프레임워크는 다섯 단계의 폐쇄 루프 파이프라인(Extractor, Retriever, Solver, Citation Injector, Verifier)을 통해 증거 기반 추론을 강제하며, 발견된 비근거 주장에 대해 구조화된 피드백을 제공하여 재검색을 유도한다. CaVe-VLM-CoT는 ScienceQA에서 87.1%의 정확도와 56.6%의 CaVeScore, MMMU(30 과목)에서 55.2%의 정확도와 35.7%의 CaVeScore를 달성하였다.
이 프레임워크는 한국 개발자들이 VLM의 신뢰성을 높이는 데 기여할 수 있는 새로운 방법론을 제공한다.
원문 출처
arXiv cs.AI