"모델의 bias만 학습해도 성능이 꽤 괜찮다?"BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다. BitFit이란?BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.왜 이런 아이디어가 나왔나?대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐동작 원리 (수식)기본적으로 선형 계층: y = W x + b ..