반응형

zero 2

대규모 모델 학습·추론 최적화 시리즈 4편: FSDP · ZeRO · DeepSpeed

"단일 GPU로는 불가능한 대형 모델, 어떻게 학습할까?"FSDP, ZeRO, DeepSpeed는 모델 파라미터와 optimizer state를 여러 GPU에 분산해거대한 모델을 효율적으로 학습할 수 있도록 해줍니다. 문제 정의: 대규모 모델 학습의 한계모델 파라미터 수 → 수십억 이상 (GPT-3, LLaMA 등)GPU 메모리 한계로 모델 전체 weight조차 올릴 수 없음Optimizer state (Adam: m, v 벡터)까지 고려하면 메모리 3~4배 필요데이터 병렬만으로는 한계 → 파라미터 분산 병렬(Sharding) 필요ZeRO (Zero Redundancy Optimizer)ZeRO는 모델 학습 시 중복 저장되는 상태를 GPU마다 나누어 저장합니다.Stage 1: Optimizer stat..

대규모 모델 학습·추론 최적화 시리즈 2편: Gradient Accumulation

"GPU 메모리가 부족해서 batch size를 늘릴 수 없다면?"Gradient Accumulation(그래디언트 누적)은 작은 배치를 여러 번 돌려서 큰 배치 학습 효과를 내는 방법입니다. Gradient Accumulation이란?Gradient Accumulation은 작은 미니배치로 여러 번 forward/backward를 하고,그라디언트를 누적(accumulate)한 뒤 한 번만 optimizer step을 수행하는 기법입니다.즉, "가상의 대형 batch size"를 만드는 방식입니다.왜 필요한가?대규모 모델 학습 시 batch size를 크게 해야:Gradient 안정화Convergence 속도 향상일반화 성능 개선하지만 GPU 메모리가 부족하면 큰 batch size 불가 → 작은 bat..

반응형