반응형

Vision 4

5분 컷 논문 리뷰: VLM-R1 – R1 스타일 RL로 시각적 추론 강화하기

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model논문의 내용을 요약한 것 입니다. 연구 배경 & 목표 최근 DeepSeek-R1 등 규칙 기반 보상(rule-based reward)을 활용한 RL이LLM의 추론 능력을 극적으로 향상시킨 사례가 나오면서,“이걸 VLM에도 적용하면 시각적 추론도 좋아질까?”라는 질문이 생겼습니다.논문 VLM-R1은 이 질문에 답하기 위해R1-style RL을 Vision-Language Model(VLM)에 적용하는 전용 프레임워크를 제안하고,REC(Referring Expression Comprehension)와 OVD(Open-Vocabulary Object Detection) 태스크에서RL의..

5분 컷 논문 리뷰: FastVLM으로 VLM 85배 빠르게 만들기

FastVLM: Efficient Vision Encoding for Vision Language Models해당 논문을 요약한 내용입니다. 최근 Vision-Language Model(VLM)은 텍스트가 풍부한 이미지를 이해해야 하는 다양한 작업에서 뛰어난 성능을 보이고 있습니다. 하지만 고해상도 이미지를 처리하려면 Vision Encoder의 연산량이 급격히 증가하고, Time-To-First-Token(TTFT)이 느려지는 문제점이 있습니다. 이번 논문은 이 문제를 해결하기 위해 FastVLM과 FastViTHD라는 새로운 접근법을 제안합니다.연구 배경 및 문제 정의기존 문제:ViT-L/14 같은 대형 Vision Transformer는 해상도를 올리면 토큰 수가 급격히 증가 → 연산량 폭증인코딩 ..

대규모 모델 학습·추론 최적화 시리즈 4편: FSDP · ZeRO · DeepSpeed

"단일 GPU로는 불가능한 대형 모델, 어떻게 학습할까?"FSDP, ZeRO, DeepSpeed는 모델 파라미터와 optimizer state를 여러 GPU에 분산해거대한 모델을 효율적으로 학습할 수 있도록 해줍니다. 문제 정의: 대규모 모델 학습의 한계모델 파라미터 수 → 수십억 이상 (GPT-3, LLaMA 등)GPU 메모리 한계로 모델 전체 weight조차 올릴 수 없음Optimizer state (Adam: m, v 벡터)까지 고려하면 메모리 3~4배 필요데이터 병렬만으로는 한계 → 파라미터 분산 병렬(Sharding) 필요ZeRO (Zero Redundancy Optimizer)ZeRO는 모델 학습 시 중복 저장되는 상태를 GPU마다 나누어 저장합니다.Stage 1: Optimizer stat..

모델 압축·배포 최적화 시리즈 1편: Knowledge Distillation

"큰 모델이 배운 지식을 작은 모델에 전수할 수 없을까?"Knowledge Distillation(지식 증류)은 Teacher-Student 방식으로 모델을 압축하는 대표적인 기법입니다. Knowledge Distillation이란?Knowledge Distillation(KD)은 큰 모델(Teacher) 이 예측한 soft output(로짓, 확률분포)을작은 모델(Student) 이 모방하도록 학습시키는 방법입니다.이 방식으로 Student 모델은:라벨 정보(정답)뿐 아니라,Teacher가 가진 클래스 간 유사성, 결정 경계 정보까지 학습결과적으로 작고 가벼운 모델이 Teacher 모델 수준의 성능을 재현할 수 있습니다.왜 필요한가?대형 모델은 학습/추론에 비용이 많이 듦 → 모바일/엣지 디바이스 배포..

반응형