AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning)

ML | DL/딥러닝 방법론|실습

AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning)

Leeys 2025. 9. 14. 22:24

"모델의 bias만 학습해도 성능이 꽤 괜찮다?"
BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다.

BitFit이란?

BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.
LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,
각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.

왜 이런 아이디어가 나왔나?

대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)
bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨
그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐

동작 원리 (수식)

기본적으로 선형 계층:

y = W x + b

BitFit에서는 W는 freeze, b만 업데이트:

W: 고정 b: 학습

이렇게 하면 gradient도 b에 대해서만 계산/적용됩니다.

장점

1. 가장 가볍다 → 학습 파라미터 수가 전체의 0.1% 수준
2. 빠른 학습 → 연산량 거의 없음
3. VRAM 부담 최소 → optimizer state도 작음
4. 원본 모델 거의 그대로 유지 → catastrophic forgetting 위험 최소

단점 & 한계

표현력 제한 → bias만 바꿔서 표현할 수 있는 범위가 좁음
태스크 난이도가 높으면 성능 gap이 커짐
큰 domain shift에서는 full fine-tuning 대비 성능 많이 떨어짐

성능 비교 (논문 결과)

방법학습 파라미터 비율GLUE 평균 점수

Full Fine-Tuning	100%	84.6
LoRA (r=8)	~0.5-1%	84.0
BitFit	~0.1%	82~83

결론: 파라미터 0.1%만 학습해도 full fine-tuning의 97~98% 성능 달성 가능!

PyTorch 적용 예시

import torch

model = get_pretrained_model()

# 모든 파라미터 freeze
for p in model.parameters():
    p.requires_grad = False

# bias만 requires_grad=True
for name, p in model.named_parameters():
    if "bias" in name:
        p.requires_grad = True

이후 optimizer에 bias 파라미터만 넣어서 학습.

8️⃣ LoRA/Adapter와 비교

기법학습 파라미터표현력장점적합 태스크

BitFit	가장 적음 (bias만)	낮음	초경량, 속도 빠름	간단한 분류/문장 분류
LoRA	중간 (저랭크)	높음	표현력↑, merge 가능	복잡한 태스크
Adapter	가장 많음 (bottleneck 추가)	가장 높음	안정적 성능	multi-task, 안정성 중요한 곳

9️⃣ 실무 적용 팁

Baseline 대비 빠른 실험에 사용하기 좋음 (cheap baseline)
LoRA 적용 전에 BitFit으로 성능 확인 → 충분하면 그대로 사용
라벨 수 적은 few-shot 상황에서 surprisingly strong 성능

결론

BitFit은 "가장 간단한 PEFT 기법"이자 "비용 대비 성능 최강" 옵션입니다.
모델 사이즈가 매우 크거나, 리소스가 극도로 제한적일 때 좋은 선택입니다.
다만 복잡한 태스크에는 LoRA/Adapter가 더 안정적 성능을 보장합니다.

다음 편은 아래에 있습니다!

https://machineindeep.tistory.com/66

AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA)

"단일 GPU로 13B 모델 파인튜닝 가능?"QLoRA는 4-bit 양자화와 LoRA를 결합해 메모리 사용을 극도로 줄여주는 혁신적인 기법입니다.QLoRA란?QLoRA(Quantized LoRA)는 기존 LoRA 기법을 저비트 양자화(4-bit quantizat

machineindeep.tistory.com

저작자표시 (새창열림)

'ML | DL > 딥러닝 방법론|실습' 카테고리의 다른 글

모델 압축·배포 최적화 시리즈 1편: Knowledge Distillation (0)	2025.09.14
AI 모델 경량화 시리즈 5편: QLoRA (Quantized LoRA) (0)	2025.09.14
AI 모델 경량화 시리즈 3편: Adapters (0)	2025.09.14
AI 모델 경량화 시리즈 2편: Prefix-Tuning & Prompt-Tuning (0)	2025.09.14
AI 모델 경량화 시리즈 1편: LoRA(Low-Rank Adaptation) 완벽 가이드 (0)	2025.09.14

현재글AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning)

나의 공부기록

Computer Vision 분야에 관심이 있습니다.

Python, LoRa, GPT, tensorrt, machinelearning, Quantization, CNN, 딥러닝, gemini, ONNX, tensorflow, ML, deepseek, 데이터분석, pytorch, MLOps, DL, llm, VLM, 머신러닝,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

나의 공부기록