"모델 크기 4배 줄이고, 추론 속도는 2배 이상 높인다?"Quantization은 weight와 activation을 저비트로 변환해 모델을 경량화하는 핵심 기법입니다. Quantization이란?Quantization은 모델의 weight와 activation 값을 낮은 정밀도(bit) 로 표현하는 기법입니다.일반적으로 학습된 모델은 FP32 (32-bit float)양자화 시 → FP16, INT8, INT4 등으로 변환메모리 차지 공간이 줄고, 정수 연산을 사용해 추론 속도가 빨라짐왜 중요한가?모델 크기 줄이기: 저장 공간 & 메모리 사용량 감소추론 속도 향상: INT 연산은 float 연산보다 빠르고 에너지 효율 높음엣지/모바일 배포 가능: 작은 디바이스에서도 대형 모델 구동 가능Quantiza..