반응형

amp 2

대규모 모델 학습·추론 최적화 시리즈 2편: Gradient Accumulation

"GPU 메모리가 부족해서 batch size를 늘릴 수 없다면?"Gradient Accumulation(그래디언트 누적)은 작은 배치를 여러 번 돌려서 큰 배치 학습 효과를 내는 방법입니다. Gradient Accumulation이란?Gradient Accumulation은 작은 미니배치로 여러 번 forward/backward를 하고,그라디언트를 누적(accumulate)한 뒤 한 번만 optimizer step을 수행하는 기법입니다.즉, "가상의 대형 batch size"를 만드는 방식입니다.왜 필요한가?대규모 모델 학습 시 batch size를 크게 해야:Gradient 안정화Convergence 속도 향상일반화 성능 개선하지만 GPU 메모리가 부족하면 큰 batch size 불가 → 작은 bat..

대규모 모델 학습·추론 최적화 시리즈 1편: Mixed Precision Training (AMP)

"학습 속도를 2배 이상 올리고, VRAM도 절약할 수 있다?"Mixed Precision Training은 FP16/BF16과 FP32를 적절히 섞어 쓰는 학습 기법입니다. Mixed Precision Training이란?기존 딥러닝 학습은 모든 연산을 FP32(32-bit float)로 수행했습니다.하지만 FP16(16-bit float) 연산은 속도가 더 빠르고, 메모리 사용량도 절반입니다.Mixed Precision Training은 다음을 결합합니다:FP16/BF16로 대부분의 연산 (행렬 곱, convolution 등)FP32로 중요한 부분 (loss 계산, weight update, scale 유지)결과:성능 거의 그대로 유지 + 속도 1.5~3배 향상 + 메모리 절감왜 필요한가?대규모 모..

반응형