ML | DL/딥러닝 논문

5분 컷 논문 리뷰: FastVLM으로 VLM 85배 빠르게 만들기

Leeys 2025. 9. 15. 23:15
반응형

FastVLM: Efficient Vision Encoding for Vision Language Models

해당 논문을 요약한 내용입니다.

 

최근 Vision-Language Model(VLM)은 텍스트가 풍부한 이미지를 이해해야 하는 다양한 작업에서 뛰어난 성능을 보이고 있습니다. 하지만 고해상도 이미지를 처리하려면 Vision Encoder의 연산량이 급격히 증가하고, Time-To-First-Token(TTFT)이 느려지는 문제점이 있습니다. 이번 논문은 이 문제를 해결하기 위해 FastVLMFastViTHD라는 새로운 접근법을 제안합니다.


연구 배경 및 문제 정의

  • 기존 문제:
    • ViT-L/14 같은 대형 Vision Transformer는 해상도를 올리면 토큰 수가 급격히 증가 → 연산량 폭증
    • 인코딩 지연(latency)이 커지고, VLM 응답속도가 느려짐
  • 연구 목표:
    • 고해상도 입력에서도 **빠른 응답 속도(TTFT)**와 높은 성능을 동시에 달성
    • 추가적인 토큰 가지치기(pruning) 없이 단순한 설계로 최적의 해상도-토큰 수-성능 균형을 찾기

핵심 아이디어: FastVLM & FastViTHD

FastViTHD: 새로운 하이브리드 비전 인코더

해당 논문의 자료

  • 구조:
    • 5단계 단계적 다운샘플링 + RepMixer 블록(초기단) + Self-Attention 블록(후반단)
    • Self-Attention은 32배 다운샘플된 텐서에서 수행 → 연산량 대폭 절감
  • 효과:
    • 고해상도 이미지에서도 토큰 수를 4~16배 줄임
    • 인코딩 속도 ↑, 메모리 사용량 ↓
    • 설계 단순화 (추가 토큰 가지치기 필요 없음)

FastVLM: 전체 VLM 프레임워크

  • LLaVA-1.5 설정에서 TTFT 3.2배 향상
  • LLaVA-OneVision 대비:
    • 85배 빠른 TTFT
    • 3.4배 작은 Vision Encoder
    • 주요 벤치마크(SeedBench, DocVQA 등)에서 더 높은 점수

주요 방법론 & 실험

  1. 하이브리드 백본 우수성 증명
    • Conv + Transformer 조합이 ViT 단독보다 고해상도 처리에서 효율적
    • Multi-Scale Features 활용 → 성능 추가 향상
    • AvgPooling vs Depthwise Convolution 비교 → Depthwise Convolution 우세
  2. 효율성-정확도 트레이드오프 분석
    • 다양한 LLM 크기(0.5B, 1.5B, 7B) & 해상도 조합으로 Pareto-Optimal 커브 작성
    • FastViTHD가 FastViT보다 평균 2.5점 ↑, 최대 3배 빠른 목표 성능 달성
  3. 동적 해상도 vs 직접 해상도 조정
    • AnyRes 방식보다 직접 해상도 조정이 대부분의 경우 더 좋은 정확도-지연 시간 균형

결과 요약

모델 TTFT 속도  파라미터 수 주요 벤치마크 성능
ViT-L/14 느림 매우 큼 기준선
FastViT 개선됨 중간 향상
FastViTHD 최고속 2.4x 작음 SeedBench, MMMU, DocVQA 모두 우수
  • 평균 성능 유지 or 향상 + 최대 85배 TTFT 개선
  • 더 작은 모델로도 최신 SOTA 모델(MM1, Cambrian-1)과 대등 또는 그 이상 성능

자세한 논문은 아래서

https://arxiv.org/pdf/2412.13303

반응형