'CNN' 태그의 글 목록

CNN 5

5분 컷 논문 리뷰: VLM-R1 – R1 스타일 RL로 시각적 추론 강화하기

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model논문의 내용을 요약한 것 입니다. 연구 배경 & 목표 최근 DeepSeek-R1 등 규칙 기반 보상(rule-based reward)을 활용한 RL이LLM의 추론 능력을 극적으로 향상시킨 사례가 나오면서,“이걸 VLM에도 적용하면 시각적 추론도 좋아질까?”라는 질문이 생겼습니다.논문 VLM-R1은 이 질문에 답하기 위해R1-style RL을 Vision-Language Model(VLM)에 적용하는 전용 프레임워크를 제안하고,REC(Referring Expression Comprehension)와 OVD(Open-Vocabulary Object Detection) 태스크에서RL의..

ML | DL/딥러닝 논문 2025.09.15

5분 컷 논문 리뷰: FastVLM으로 VLM 85배 빠르게 만들기

FastVLM: Efficient Vision Encoding for Vision Language Models해당 논문을 요약한 내용입니다. 최근 Vision-Language Model(VLM)은 텍스트가 풍부한 이미지를 이해해야 하는 다양한 작업에서 뛰어난 성능을 보이고 있습니다. 하지만 고해상도 이미지를 처리하려면 Vision Encoder의 연산량이 급격히 증가하고, Time-To-First-Token(TTFT)이 느려지는 문제점이 있습니다. 이번 논문은 이 문제를 해결하기 위해 FastVLM과 FastViTHD라는 새로운 접근법을 제안합니다.연구 배경 및 문제 정의기존 문제:ViT-L/14 같은 대형 Vision Transformer는 해상도를 올리면 토큰 수가 급격히 증가 → 연산량 폭증인코딩 ..

ML | DL/딥러닝 논문 2025.09.15

PBNS(Physically Based Neural Simulation for Unsupervised Outfit Pose Space Deformation) 논문 리뷰

introduce 이번에 소개할 PBNS은 제가 회사에서 의류 3D 관련 프로젝트를 하면서 읽게된 논문 입니다. SMPL의 다양한 자세에서 의류가 신체에 맞춰질 수 있도록 학습하는 모델입니다. 기본적으로 3D mesh에 대한 이해도가 있어야 읽을 수 있기 때문에 미리 공부하시고 읽으시면 좋습니다. Abstract 본 논문은 딥러닝을 활용하여 PSD(Pose Space Deformation)를 통한 의류 시뮬레이션의 새로운 방법론을 제시합니다. 고전적인 PBS(Physically Based Simulations) 방식은 우수한 결과를 제공하지만 장면 수정 시에 계산 비용이 많이 드는 단점이 있습니다. 이에 반해, 본 논문에서 제안하는 LBS(Linear Blend Skinning)을 사용한 PSD 방식은 ..

ML | DL/딥러닝 논문 2024.04.11

CLIP(Contrastive Language-Image Pre-Training) 논문 리뷰

introduce 이번에 소개할 CLIP 모델은 OpenAI가 개발한 인공지능 기술로, "Contrastive Language–Image Pre-training"의 약자입니다. 이 모델은 대량의 이미지와 텍스트 데이터를 함께 학습함으로써, 이미지를 설명하는 텍스트를 이해하고, 반대로 텍스트로부터 이미지 내용을 예측할 수 있는 있으며, 강력한 zero-shot 능력을 가지고 있습니다. Abstract 기존의 최신 기술(SOTA) 컴퓨터 비전 태스크들은 지정된 클래스 카테고리에서만 훈련이 가능했습니다. 이러한 방식은 각각의 비전 태스크마다 새로운 레이블 데이터를 추가해야 했기 때문에, 일반화와 유용성에 제한을 받았습니다. 이미지에 대한 텍스트를 직접 학습하는 것은 더 많은 훈련 자원 을 활용할 수 있게 하므..

ML | DL/딥러닝 논문 2024.04.11

CNN(Convolutional Neural Networks) 이론 설명

CNN 이란?- 이미지, 영상, 음성을 분석하기 위해 패턴을 찾는데 유용한 알고리즘으로, 데이터에서 이미지를 직접 학습하고 패턴을 사용해 이미지를 분류한다.일반적인 DNN은 기본적으로 1차원의 데이터를 사용해서 학습을 해야한다. 하지만 이미지 데이터는 640 x 640 이런 식으로 표현된다. 이 아무 처리없이 1차원으로 바꾸면 형체를 알 수 없을 정도로데이터의 손실이 일어난다. 이를 해결한게 CNN 이다. CNN은 크게 두단계로 나누는데 1. 전처리 과정 feature extraction2. 분류 과정 classification 아래 그림을 보면 더 이해가 잘 될것이다. 위의 그림은 CNN의 전체 과정을 담은 것이다. 크기가 32 x 32 ~ 5 x 5까지 줄어드는것을 볼수 있는데,이는 그림 데이터의 중..

ML | DL/딥러닝 방법론|실습 2020.10.30

나의 공부기록

Computer Vision 분야에 관심이 있습니다.

LoRa, pytorch, tensorrt, GPT, machinelearning, deepseek, Python, MLOps, CNN, 데이터분석, VLM, ML, gemini, tensorflow, DL, 머신러닝, 딥러닝, Quantization, ONNX, llm,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

CNN 5

티스토리툴바