'PTQ' 태그의 글 목록

모델 압축·배포 최적화 시리즈 2편: Quantization (양자화)

"모델 크기 4배 줄이고, 추론 속도는 2배 이상 높인다?"Quantization은 weight와 activation을 저비트로 변환해 모델을 경량화하는 핵심 기법입니다. Quantization이란?Quantization은 모델의 weight와 activation 값을 낮은 정밀도(bit) 로 표현하는 기법입니다.일반적으로 학습된 모델은 FP32 (32-bit float)양자화 시 → FP16, INT8, INT4 등으로 변환메모리 차지 공간이 줄고, 정수 연산을 사용해 추론 속도가 빨라짐왜 중요한가?모델 크기 줄이기: 저장 공간 & 메모리 사용량 감소추론 속도 향상: INT 연산은 float 연산보다 빠르고 에너지 효율 높음엣지/모바일 배포 가능: 작은 디바이스에서도 대형 모델 구동 가능Quantiza..

ML | DL/딥러닝 방법론|실습 2025.09.14

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

나의 공부기록

PTQ 1

티스토리툴바