"VRAM이 부족해서 모델을 학습할 수 없다면?"Gradient Checkpointing은 중간 activation을 저장하지 않고 필요할 때 재계산하여메모리를 절약하는 강력한 방법입니다. Gradient Checkpointing이란?일반적으로 모델 학습 시 Forward Pass에서 나온 모든 중간 activation을Backward Pass 때 gradient 계산에 사용하기 위해 저장합니다.하지만 이 activation 저장이 메모리의 대부분을 차지합니다.Gradient Checkpointing은 중간 activation을 저장하지 않고,Backward Pass 시 필요한 구간만 다시 forward 계산하여 gradient를 구합니다.즉, 메모리를 희생하지 않고, 대신 연산량(FLOPs)을 조금 ..