"모델의 bias만 학습해도 성능이 꽤 괜찮다?"
BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다.

BitFit이란?
BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.
LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,
각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.
왜 이런 아이디어가 나왔나?
- 대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)
- bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨
- 그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐
동작 원리 (수식)
기본적으로 선형 계층:
BitFit에서는 W는 freeze, b만 업데이트:
이렇게 하면 gradient도 b에 대해서만 계산/적용됩니다.
장점
1. 가장 가볍다 → 학습 파라미터 수가 전체의 0.1% 수준
2. 빠른 학습 → 연산량 거의 없음
3. VRAM 부담 최소 → optimizer state도 작음
4. 원본 모델 거의 그대로 유지 → catastrophic forgetting 위험 최소
단점 & 한계
표현력 제한 → bias만 바꿔서 표현할 수 있는 범위가 좁음
태스크 난이도가 높으면 성능 gap이 커짐
큰 domain shift에서는 full fine-tuning 대비 성능 많이 떨어짐
성능 비교 (논문 결과)
| Full Fine-Tuning | 100% | 84.6 |
| LoRA (r=8) | ~0.5-1% | 84.0 |
| BitFit | ~0.1% | 82~83 |
결론: 파라미터 0.1%만 학습해도 full fine-tuning의 97~98% 성능 달성 가능!
PyTorch 적용 예시
import torch
model = get_pretrained_model()
# 모든 파라미터 freeze
for p in model.parameters():
p.requires_grad = False
# bias만 requires_grad=True
for name, p in model.named_parameters():
if "bias" in name:
p.requires_grad = True
이후 optimizer에 bias 파라미터만 넣어서 학습.
8️⃣ LoRA/Adapter와 비교
| BitFit | 가장 적음 (bias만) | 낮음 | 초경량, 속도 빠름 | 간단한 분류/문장 분류 |
| LoRA | 중간 (저랭크) | 높음 | 표현력↑, merge 가능 | 복잡한 태스크 |
| Adapter | 가장 많음 (bottleneck 추가) | 가장 높음 | 안정적 성능 | multi-task, 안정성 중요한 곳 |
9️⃣ 실무 적용 팁
- Baseline 대비 빠른 실험에 사용하기 좋음 (cheap baseline)
- LoRA 적용 전에 BitFit으로 성능 확인 → 충분하면 그대로 사용
- 라벨 수 적은 few-shot 상황에서 surprisingly strong 성능
결론
BitFit은 "가장 간단한 PEFT 기법"이자 "비용 대비 성능 최강" 옵션입니다.
모델 사이즈가 매우 크거나, 리소스가 극도로 제한적일 때 좋은 선택입니다.
다만 복잡한 태스크에는 LoRA/Adapter가 더 안정적 성능을 보장합니다.
다음 편은 아래에 있습니다!
https://machineindeep.tistory.com/66
AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA)
"단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다.QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantizat
machineindeep.tistory.com
'ML | DL > 딥러닝 방법론|실습' 카테고리의 다른 글
| 모델 압축·배포 최적화 시리즈 1편: Knowledge Distillation (0) | 2025.09.14 |
|---|---|
| AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA) (0) | 2025.09.14 |
| AI 모델 경량화 시리즈 3편: Adapters (0) | 2025.09.14 |
| AI 모델 경량화 시리즈 2편: Prefix-Tuning & Prompt-Tuning (0) | 2025.09.14 |
| AI 모델 경량화 시리즈 1편: LoRA(Low-Rank Adaptation) 완벽 가이드 (0) | 2025.09.14 |