반응형

DL 6

MLOps 시리즈 3편: CI/CD for ML (모델 자동 배포 파이프라인)

"모델을 매번 수동으로 학습·배포한다면?"CI/CD for ML은 모델 학습, 테스트, 배포 과정을 자동화해빠르고 안정적인 ML 시스템 운영을 가능하게 합니다. CI/CD for ML이란?CI (Continuous Integration)모델 코드, 데이터, 설정 변경 시 자동으로 학습 파이프라인을 실행 →학습, 검증, 성능 평가, 아티팩트 저장까지 자동화CD (Continuous Delivery / Deployment)검증된 모델을 자동으로 스테이징/프로덕션 환경에 배포필요 시 Canary Release, A/B Test로 안전하게 롤아웃즉, "모델 빌드 → 테스트 → 배포" 전체 흐름을 자동화한 것왜 중요한가?모델 업데이트 주기가 빨라지고, 데이터가 실시간으로 변하는 환경에서는사람이 수동으로 배포하기엔..

대규모 모델 학습·추론 최적화 시리즈 3편: Gradient Checkpointing

"VRAM이 부족해서 모델을 학습할 수 없다면?"Gradient Checkpointing은 중간 activation을 저장하지 않고 필요할 때 재계산하여메모리를 절약하는 강력한 방법입니다. Gradient Checkpointing이란?일반적으로 모델 학습 시 Forward Pass에서 나온 모든 중간 activation을Backward Pass 때 gradient 계산에 사용하기 위해 저장합니다.하지만 이 activation 저장이 메모리의 대부분을 차지합니다.Gradient Checkpointing은 중간 activation을 저장하지 않고,Backward Pass 시 필요한 구간만 다시 forward 계산하여 gradient를 구합니다.즉, 메모리를 희생하지 않고, 대신 연산량(FLOPs)을 조금 ..

AI 모델 경량화 시리즈 4편: BitFit (Bias-Only Fine-Tuning)

"모델의 bias만 학습해도 성능이 꽤 괜찮다?"BitFit은 PEFT 기법 중 가장 단순하고, 가장 가벼운 방법입니다. BitFit이란?BitFit은 말 그대로 모델의 bias 파라미터만 학습하는 방법입니다.LayerNorm, Attention, FFN 등의 weight는 전부 동결(freeze)하고,각 layer에 존재하는 bias term (b 값들)만 업데이트합니다.왜 이런 아이디어가 나왔나?대형 Transformer 모델에서 파라미터 대부분은 weight matrix (W)bias는 전체 파라미터의 0.1~0.5% 수준밖에 안 됨그런데도 bias를 미세조정하면 surprisingly good 성능이 나오는 것을 발견 → 연구로 이어짐동작 원리 (수식)기본적으로 선형 계층: y = W x + b ..

AI 모델 경량화 시리즈 3편: Adapters

"모델을 통째로 다시 학습하지 않고, 중간에 작은 모듈만 추가해 학습한다!"Adapters는 PEFT(파라미터 효율적 파인튜닝) 기법 중 가장 범용적으로 쓰이는 방법입니다. Adapters란?Adapter는 Transformer 블록 사이에 작은 Bottleneck 네트워크를 추가하고이 부분만 학습하는 기법입니다.원본 모델의 weight는 전부 freeze하고,추가된 Adapter layer만 학습하기 때문에 파라미터 수를 크게 줄이면서도기존 모델의 일반화 성능을 유지할 수 있습니다.왜 필요한가?대형 모델은 Full Fine-Tuning 시 GPU 메모리, 학습 시간 부담이 매우 큼LoRA, Prompt-Tuning은 주로 Attention projection 계층이나 입력 쪽만 바꿈Adapter는 모델..

AI 모델 경량화 시리즈 2편: Prefix-Tuning & Prompt-Tuning

프롬프트만 바꿔서 모델을 새로운 태스크에 적응시킨다?LoRA보다 더 가볍게, 심지어 파라미터 몇 퍼센트만 학습하는 방법. Prefix-/Prompt-Tuning이란?Prefix-Tuning 과 Prompt-Tuning 은 Pretrained 모델의 파라미터는 그대로 두고,입력에 붙는 "프롬프트 벡터"만 학습하는 방법입니다.즉, 모델 내부는 전혀 건드리지 않고 입력에 추가적인 learnable embedding을 붙여서모델이 원하는 태스크 방향으로 출력을 내도록 유도합니다.왜 필요한가?대형 LLM(수십억~수천억 파라미터)은 전체 파인튜닝이 사실상 불가능한 경우 많음LoRA도 내부 레이어 일부를 학습하지만, 여전히 weight update 연산 필요Prefix/Prompt-Tuning은 파라미터 효율이 극단..

AI 모델 경량화 시리즈 1편: LoRA(Low-Rank Adaptation) 완벽 가이드

대형 모델 파인튜닝을 위한 가장 효율적이고 핫한 방법 LoRA란 무엇인가?LoRA(Low-Rank Adaptation)는 대형 모델 파인튜닝(transfer learning) 을 훨씬 가볍고 효율적으로 만들기 위해 고안된 방법입니다.기존에는 파인튜닝 시 모델 전체 파라미터를 업데이트해야 했습니다.하지만 대형 모델(수억~수십억 파라미터)을 이런 식으로 학습하려면:VRAM 엄청 필요 (A100 여러 장…)학습 시간이 오래 걸림모델 버전을 여러 개 저장하기 힘듦LoRA는 이런 문제를 해결합니다.핵심 아이디어는 “기존 가중치는 그대로 두고, 아주 작은 저랭크 행렬만 학습한다” 입니다.수식으로 보는 LoRA기존 선형 계층(예: Attention의 Q, K, V projection)은 다음과 같습니다:y = W..

반응형