반응형 반응형 Optimizer3 반응형 AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA) "단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다. QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantization) 와 결합한 방식입니다.모델 weight는 4-bit quantized 형태로 GPU 메모리에 올림LoRA 저랭크 파라미터(A, B)만 FP16 혹은 BF16 precision으로 학습즉, 원본 모델은 4-bit로 압축 + LoRA delta만 학습 → 메모리 사용량과 연산량이 크게 줄어듦.왜 필요한가?LLaMA, Falcon, Mistral 등 7B~70B급 모델은 full precision로 로드 시 VRAM이 40GB~300GB 이상.. 2025. 9. 14. AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning) "모델의 bias만 학습해도 성능이 꽤 괜찮다?"BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다. BitFit이란?BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.왜 이런 아이디어가 나왔나?대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐동작 원리 (수식)기본적으로 선형 계층: y = W x + b .. 2025. 9. 14. [keras] ValueError: Unknown optimizer: AdaBeliefOptimizer. Please ensure this object is passed to the `custom_objects` argument 에러해결 개발환경 - google colab 1. Problem tensorflow keras를 사용하면서 optimizer를 custom에서 사용하고 학습한 모델을 'h5' 형태로 저장한 후 다시 load할 때 해당 에러가 발생했다. 2. Reason tensorflow keras는 'h5' 형태로 모델을 저장할때 기존 라이브러리에 있는 optimizer나 activation function만 저장되기 때문 그렇기 때문에 custom해서 사용한 optimizer는 저장되지 않음 3. Solution 모델을 load 할 때 custom_objects key값에 optimizer name 그리고 value에 custom optimizer를 넣음 model = tf.keras.models.load_model('./C.. 2022. 3. 19. 이전 1 다음 반응형