Lost in Embeddings: Information Loss in Vision–Language Model해당 논문을 요약한 내용 입니다. 연구 배경 & 문제의식 Vision-Language Models(VLMs)는 이미지와 텍스트를 같은 임베딩 공간으로 매핑하여 질문 답변, 이미지 캡셔닝, 검색 등 다양한 작업을 수행합니다.하지만 connector(이미지 임베딩 → 언어 모델 입력으로 변환하는 모듈)에서 시각 정보가 손실되면 모델 성능이 떨어질 수 있습니다.이 논문은 connector가 시각적 기하·의미 정보를 얼마나 보존하는지를 정량화하고,이 손실이 실제 다운스트림 작업 성능에 어떤 영향을 미치는지 평가하기 위한 두 가지 보완적 접근을 제안합니다.방법론 (Methodology)k-NN Overl..