VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model논문의 내용을 요약한 것 입니다. 연구 배경 & 목표 최근 DeepSeek-R1 등 규칙 기반 보상(rule-based reward)을 활용한 RL이LLM의 추론 능력을 극적으로 향상시킨 사례가 나오면서,“이걸 VLM에도 적용하면 시각적 추론도 좋아질까?”라는 질문이 생겼습니다.논문 VLM-R1은 이 질문에 답하기 위해R1-style RL을 Vision-Language Model(VLM)에 적용하는 전용 프레임워크를 제안하고,REC(Referring Expression Comprehension)와 OVD(Open-Vocabulary Object Detection) 태스크에서RL의..