반응형

전체 글 131

AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA)

"단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다. QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantization) 와 결합한 방식입니다.모델 weight는 4-bit quantized 형태로 GPU 메모리에 올림LoRA 저랭크 파라미터(A, B)만 FP16 혹은 BF16 precision으로 학습즉, 원본 모델은 4-bit로 압축 + LoRA delta만 학습 → 메모리 사용량과 연산량이 크게 줄어듦.왜 필요한가?LLaMA, Falcon, Mistral 등 7B~70B급 모델은 full precision로 로드 시 VRAM이 40GB~300GB 이상..

AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning)

"모델의 bias만 학습해도 성능이 꽤 괜찮다?"BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다. BitFit이란?BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.왜 이런 아이디어가 나왔나?대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐동작 원리 (수식)기본적으로 선형 계층: y = W x + b ..

AI 모델 경량화 시리즈 3편: Adapters

"모델을 통째로 다시 학습하지 않고, 중간에 작은 모듈만 추가해 학습한다!"Adapters는 PEFT(파라미터 효율적 파인튜닝) 기법 중 가장 범용적으로 쓰이는 방법입니다. Adapters란?Adapter는 Transformer 블록 사이에 작은 Bottleneck 네트워크를 추가하고이 부분만 학습하는 기법입니다.원본 모델의 weight는 전부 freeze하고,추가된 Adapter layer만 학습하기 때문에 파라미터 수를 크게 줄이면서도기존 모델의 일반화 성능을 유지할 수 있습니다.왜 필요한가?대형 모델은 Full Fine-Tuning 시 GPU 메모리, 학습 시간 부담이 매우 큼LoRA, Prompt-Tuning은 주로 Attention projection 계층이나 입력 쪽만 바꿈Adapter는 모델..

AI 모델 경량화 시리즈 2편: Prefix-Tuning & Prompt-Tuning

프롬프트만 바꿔서 모델을 새로운 태스크에 적응시킨다?LoRA보다 더 가볍게, 심지어 파라미터 몇 퍼센트만 학습하는 방법. Prefix-/Prompt-Tuning이란?Prefix-Tuning 과 Prompt-Tuning 은 Pretrained 모델의 파라미터는 그대로 두고,입력에 붙는 "프롬프트 벡터"만 학습하는 방법입니다.즉, 모델 내부는 전혀 건드리지 않고 입력에 추가적인 learnable embedding을 붙여서모델이 원하는 태스크 방향으로 출력을 내도록 유도합니다.왜 필요한가?대형 LLM(수십억~수천억 파라미터)은 전체 파인튜닝이 사실상 불가능한 경우 많음LoRA도 내부 레이어 일부를 학습하지만, 여전히 weight update 연산 필요Prefix/Prompt-Tuning은 파라미터 효율이 극단..

AI 모델 경량화 시리즈 1편: LoRA(Low-Rank Adaptation) 완벽 가이드

대형 모델 파인튜닝을 위한 가장 효율적이고 핫한 방법 LoRA란 무엇인가?LoRA(Low-Rank Adaptation)는 대형 모델 파인튜닝(transfer learning) 을 훨씬 가볍고 효율적으로 만들기 위해 고안된 방법입니다.기존에는 파인튜닝 시 모델 전체 파라미터를 업데이트해야 했습니다.하지만 대형 모델(수억~수십억 파라미터)을 이런 식으로 학습하려면:VRAM 엄청 필요 (A100 여러 장…)학습 시간이 오래 걸림모델 버전을 여러 개 저장하기 힘듦LoRA는 이런 문제를 해결합니다.핵심 아이디어는 “기존 가중치는 그대로 두고, 아주 작은 저랭크 행렬만 학습한다” 입니다.수식으로 보는 LoRA기존 선형 계층(예: Attention의 Q, K, V projection)은 다음과 같습니다:y = W..

TPM 2.0 켜고 Windows 11 설치하기

TPM 2.0 켜고 Windows 11 설치하기 (i5-6600 시스템) “TPM 2.0만 켜면 Windows 11 되는 줄 알았는데, CPU 때문에 막힌다면?”저처럼 오래된 PC에서 Windows 11을 설치하고 싶으신 분들을 위해 과정 전체를 기록해봤습니다. 1. 현재 PC 환경 확인CPU : Intel Core i5-6600 (Skylake, 6세대)메모리 : 8GB저장장치 : SSD 256GB메인보드 : GIGABYTE (UEFI DualBIOS)Windows 10에서 설정 → 업데이트 및 보안 → Windows 11 소개 메뉴로 들어가 보니“시스템 요구 사항을 충족하지 않는다”는 메시지가 떴습니다. 2. BIOS에서 TPM 2.0 활성화하기TPM 2.0은 대부분의 최신 보드에 내장되어 있습니다..

[항해커톤 2024] AI 항해커톤 참가 후기

항해커톤 2024 후기 팀 스파르타에서 진행한 항해커톤 2024에서 10:1의 경쟁률을 뚫고 최종 50인에 선발되어, 3명의 개발자와 함께 '헬렌켈러'라는 팀명으로 참가하게 되었습니다. 우리의 목표는 저시력 시각장애인이 원하는 물건을 찾고, 주변 환경을 인식할 수 있도록 돕는 AI 서비스를 만드는 것이었습니다. 팀원들과 함께 무박 2일간 열심히 달려 완성한 프로젝트에 대해 이야기해보려 합니다. [우리의 도전과 목표] 우리 팀은 시각장애인의 실제 불편함을 해결하기 위한 AI 솔루션을 찾는 데 주력했습니다. 특히 저시력 시각장애인을 위해, 그들이 원하는 물건을 찾고 주변 환경을 인식하는 데 도움을 줄 수 있는 AI 서비스를 개발하는 것이 목표였습니다. 저는 저희 팀에서 FastAPI를 사용해 AI와 백엔드 ..

카테고리 없음 2024.05.31

PBNS(Physically Based Neural Simulation for Unsupervised Outfit Pose Space Deformation) 논문 리뷰

introduce 이번에 소개할 PBNS은 제가 회사에서 의류 3D 관련 프로젝트를 하면서 읽게된 논문 입니다. SMPL의 다양한 자세에서 의류가 신체에 맞춰질 수 있도록 학습하는 모델입니다. 기본적으로 3D mesh에 대한 이해도가 있어야 읽을 수 있기 때문에 미리 공부하시고 읽으시면 좋습니다. Abstract 본 논문은 딥러닝을 활용하여 PSD(Pose Space Deformation)를 통한 의류 시뮬레이션의 새로운 방법론을 제시합니다. 고전적인 PBS(Physically Based Simulations) 방식은 우수한 결과를 제공하지만 장면 수정 시에 계산 비용이 많이 드는 단점이 있습니다. 이에 반해, 본 논문에서 제안하는 LBS(Linear Blend Skinning)을 사용한 PSD 방식은 ..

CLIP(Contrastive Language-Image Pre-Training) 논문 리뷰

introduce 이번에 소개할 CLIP 모델은 OpenAI가 개발한 인공지능 기술로, "Contrastive Language–Image Pre-training"의 약자입니다. 이 모델은 대량의 이미지와 텍스트 데이터를 함께 학습함으로써, 이미지를 설명하는 텍스트를 이해하고, 반대로 텍스트로부터 이미지 내용을 예측할 수 있는 있으며, 강력한 zero-shot 능력을 가지고 있습니다. Abstract 기존의 최신 기술(SOTA) 컴퓨터 비전 태스크들은 지정된 클래스 카테고리에서만 훈련이 가능했습니다. 이러한 방식은 각각의 비전 태스크마다 새로운 레이블 데이터를 추가해야 했기 때문에, 일반화와 유용성에 제한을 받았습니다. 이미지에 대한 텍스트를 직접 학습하는 것은 더 많은 훈련 자원 을 활용할 수 있게 하므..

반응형