반응형

VRAM 3

대규모 모델 학습·추론 최적화 시리즈 3편: Gradient Checkpointing

"VRAM이 부족해서 모델을 학습할 수 없다면?"Gradient Checkpointing은 중간 activation을 저장하지 않고 필요할 때 재계산하여메모리를 절약하는 강력한 방법입니다. Gradient Checkpointing이란?일반적으로 모델 학습 시 Forward Pass에서 나온 모든 중간 activation을Backward Pass 때 gradient 계산에 사용하기 위해 저장합니다.하지만 이 activation 저장이 메모리의 대부분을 차지합니다.Gradient Checkpointing은 중간 activation을 저장하지 않고,Backward Pass 시 필요한 구간만 다시 forward 계산하여 gradient를 구합니다.즉, 메모리를 희생하지 않고, 대신 연산량(FLOPs)을 조금 ..

대규모 모델 학습·추론 최적화 시리즈 2편: Gradient Accumulation

"GPU 메모리가 부족해서 batch size를 늘릴 수 없다면?"Gradient Accumulation(그래디언트 누적)은 작은 배치를 여러 번 돌려서 큰 배치 학습 효과를 내는 방법입니다. Gradient Accumulation이란?Gradient Accumulation은 작은 미니배치로 여러 번 forward/backward를 하고,그라디언트를 누적(accumulate)한 뒤 한 번만 optimizer step을 수행하는 기법입니다.즉, "가상의 대형 batch size"를 만드는 방식입니다.왜 필요한가?대규모 모델 학습 시 batch size를 크게 해야:Gradient 안정화Convergence 속도 향상일반화 성능 개선하지만 GPU 메모리가 부족하면 큰 batch size 불가 → 작은 bat..

AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA)

"단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다. QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantization) 와 결합한 방식입니다.모델 weight는 4-bit quantized 형태로 GPU 메모리에 올림LoRA 저랭크 파라미터(A, B)만 FP16 혹은 BF16 precision으로 학습즉, 원본 모델은 4-bit로 압축 + LoRA delta만 학습 → 메모리 사용량과 연산량이 크게 줄어듦.왜 필요한가?LLaMA, Falcon, Mistral 등 7B~70B급 모델은 full precision로 로드 시 VRAM이 40GB~300GB 이상..

반응형