ML | DL/딥러닝 방법론|실습

AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning)

Leeys 2025. 9. 14. 22:24
반응형

"모델의 bias만 학습해도 성능이 꽤 괜찮다?"
BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다.


 

BitFit

BitFit이란?

BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.
LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,
각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.


왜 이런 아이디어가 나왔나?

  • 대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)
  • bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨
  • 그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐

동작 원리 (수식)

기본적으로 선형 계층:

 
y = W x + b

BitFit에서는 W는 freeze, b만 업데이트:

 
W: 고정 b: 학습

이렇게 하면 gradient도 b에 대해서만 계산/적용됩니다.


장점

1. 가장 가볍다 → 학습 파라미터 수가 전체의 0.1% 수준
2. 빠른 학습 → 연산량 거의 없음
3. VRAM 부담 최소 → optimizer state도 작음
4. 원본 모델 거의 그대로 유지 → catastrophic forgetting 위험 최소


단점 & 한계

표현력 제한 → bias만 바꿔서 표현할 수 있는 범위가 좁음
태스크 난이도가 높으면 성능 gap이 커짐
큰 domain shift에서는 full fine-tuning 대비 성능 많이 떨어짐


성능 비교 (논문 결과)

방법학습 파라미터 비율GLUE 평균 점수
Full Fine-Tuning 100% 84.6
LoRA (r=8) ~0.5-1% 84.0
BitFit ~0.1% 82~83

결론: 파라미터 0.1%만 학습해도 full fine-tuning의 97~98% 성능 달성 가능!


PyTorch 적용 예시

import torch

model = get_pretrained_model()

# 모든 파라미터 freeze
for p in model.parameters():
    p.requires_grad = False

# bias만 requires_grad=True
for name, p in model.named_parameters():
    if "bias" in name:
        p.requires_grad = True

이후 optimizer에 bias 파라미터만 넣어서 학습.


8️⃣ LoRA/Adapter와 비교

기법학습 파라미터표현력장점적합 태스크
BitFit 가장 적음 (bias만) 낮음 초경량, 속도 빠름 간단한 분류/문장 분류
LoRA 중간 (저랭크) 높음 표현력↑, merge 가능 복잡한 태스크
Adapter 가장 많음 (bottleneck 추가) 가장 높음 안정적 성능 multi-task, 안정성 중요한 곳

9️⃣ 실무 적용 팁

  • Baseline 대비 빠른 실험에 사용하기 좋음 (cheap baseline)
  • LoRA 적용 전에 BitFit으로 성능 확인 → 충분하면 그대로 사용
  • 라벨 수 적은 few-shot 상황에서 surprisingly strong 성능

결론

BitFit은 "가장 간단한 PEFT 기법"이자 "비용 대비 성능 최강" 옵션입니다.
모델 사이즈가 매우 크거나, 리소스가 극도로 제한적일 때 좋은 선택입니다.
다만 복잡한 태스크에는 LoRA/Adapter가 더 안정적 성능을 보장합니다.

 

 

 

다음 편은 아래에 있습니다!

https://machineindeep.tistory.com/66

 

AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA)

"단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다.QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantizat

machineindeep.tistory.com

 

반응형