"단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다. QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantization) 와 결합한 방식입니다.모델 weight는 4-bit quantized 형태로 GPU 메모리에 올림LoRA 저랭크 파라미터(A, B)만 FP16 혹은 BF16 precision으로 학습즉, 원본 모델은 4-bit로 압축 + LoRA delta만 학습 → 메모리 사용량과 연산량이 크게 줄어듦.왜 필요한가?LLaMA, Falcon, Mistral 등 7B~70B급 모델은 full precision로 로드 시 VRAM이 40GB~300GB 이상..