"큰 모델이 배운 지식을 작은 모델에 전수할 수 없을까?"Knowledge Distillation(지식 증류)은 Teacher-Student 방식으로 모델을 압축하는 대표적인 기법입니다. Knowledge Distillation이란?Knowledge Distillation(KD)은 큰 모델(Teacher) 이 예측한 soft output(로짓, 확률분포)을작은 모델(Student) 이 모방하도록 학습시키는 방법입니다.이 방식으로 Student 모델은:라벨 정보(정답)뿐 아니라,Teacher가 가진 클래스 간 유사성, 결정 경계 정보까지 학습결과적으로 작고 가벼운 모델이 Teacher 모델 수준의 성능을 재현할 수 있습니다.왜 필요한가?대형 모델은 학습/추론에 비용이 많이 듦 → 모바일/엣지 디바이스 배포..