ML | DL/LLM 아는척좀 해보자

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

Leeys 2025. 9. 17. 12:37
반응형

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”
바로 그 중 하나 DeepSeek-V3입니다.
이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.


모델 개요

DeekSeek에 대한 설명

 

 

DeepSeek-AI는 총 671B 파라미터를 가진 초대형 Mixture-of-Experts (MoE) 언어 모델 DeepSeek-V3를 공개했습니다.
이 중 토큰당 활성화되는 파라미터는 37B로, 거대한 모델임에도 효율적인 추론과 비용 절감이 가능합니다.

이 모델은 이전 세대 DeepSeek-V2에서 검증된 기술을 발전시켜:

  • Multi-head Latent Attention (MLA) → 메모리·속도 최적화
  • DeepSeekMoE 아키텍처 → 전문가 라우팅을 통한 계산 효율성 극대화
  • Multi-Token Prediction (MTP) → 한 번에 여러 토큰 예측 → 학습 안정성과 속도 개선

을 적용했습니다.


아키텍처의 핵심 아이디어

1️⃣ Multi-head Latent Attention (MLA)

기존 Transformer 모델에서 키·값 캐시(KV Cache)가 너무 커지는 문제가 있었는데,
MLA는 키와 값을 저차원 latent vector로 압축해 저장합니다.
즉, 필요한 정보만 최소한으로 보관해서 메모리 사용량과 연산량을 줄입니다.

이 덕분에 DeepSeek-V3는 매우 긴 시퀀스를 처리하면서도
KV 캐시 부담이 훨씬 적어 효율적으로 동작합니다.


2️⃣ DeepSeekMoE & 로드 밸런싱

MoE(Mixture-of-Experts)는 여러 개의 전문가 네트워크 중 일부만 선택해서 계산하는 방식입니다.
DeepSeek-V3는 공유 전문가(shared experts) + 라우팅 전문가(routed experts) 조합을 사용합니다.
각 토큰은 상위 K개의 전문가만 활성화해 계산하고,
로드가 한쪽으로 몰리지 않도록 auxiliary-loss-free 로드 밸런싱 전략을 씁니다.

이 방식은 토큰을 드롭하지 않고,
각 전문가가 골고루 학습되도록 bias term을 동적으로 조정해 안정적 훈련이 가능합니다.


3️⃣ Multi-Token Prediction (MTP)

기존 모델은 다음 토큰 하나만 예측했지만,
DeepSeek-V3는 한 번에 여러 미래 토큰을 예측하도록 학습합니다.
덕분에 학습 속도와 안정성이 개선되고, 더 멀리 내다보는 언어 모델이 됩니다.


학습 인프라 & 최적화

DeepSeek-V3는 2048개의 NVIDIA H800 GPU로 학습되었습니다.
HAI-LLM 프레임워크에서 파이프라인 병렬(16-way), 전문가 병렬(64-way), 데이터 병렬을 결합했고,
DualPipe 알고리즘으로 계산과 통신을 동시에 오버랩시켜 GPU 효율을 극대화했습니다.

추가로 FP8 기반의 정밀도 최적화를 도입해:

  • 메모리 사용량 감소
  • 통신 오버헤드 최소화
  • 오버플로/언더플로 방지
    를 달성했습니다.

사전학습 & 사후학습

  • 사전학습: 14.8조 개의 고품질 토큰 (수학·코드 비중 확장, 다국어 지원 강화)
  • 컨텍스트 확장: 4K → 32K → 128K 단계적 확장 (YaRN 기법)
  • 사후학습:
    • Supervised Fine-Tuning (SFT) – 명령어 튜닝 데이터 150만 인스턴스
    • Reinforcement Learning (GRPO) – critic 없이 그룹 점수 기반 보상
    • 코드·수학·논리 데이터로 모델의 추론력 극대화

성능 결과

DeepSeek-V3는 오픈소스 모델 중 최상위권,
클로즈드 소스 모델(GPT-4o, Claude 3.5)과도 맞먹는 성능을 보여줍니다.

  • MMLU-Pro (EM): 75.9
  • GPQA-Diamond: 59.1
  • MATH 500: 90.2
  • AIME 2024: 39.2
  • SWE-bench Verified: 42.0

특히 코드·수학에서 매우 강력한 성능을 보이며,
MTP와 로드 밸런싱 전략이 성능에 큰 기여를 한 것으로 확인되었습니다.


오늘의 정리

  • DeepSeek-V3 = 671B 파라미터 초대형 MoE 모델
  • MLA로 메모리 절약 + 효율적 추론
  • 로드 밸런싱 전략으로 안정적 학습 & 전문가 활용 극대화
  • MTP로 미래 토큰 예측 → 더 똑똑한 모델
  • 128K 컨텍스트까지 확장 → 장문 분석에도 강함
  • 오픈소스 모델 중 최상위 성능, 클로즈드 모델과 경쟁 가능

 

아래는 다른 LLM 모델들 입니다!

 

https://machineindeep.tistory.com/100

 

Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리

회의에서 누가 “Gemini 2.5 Pro 써봤어?” 하고 묻는데 대답 못 해봤다면?오늘 글 하나면 Gemini 2.X 시리즈를 깔끔히 정리하고,GPT-5와 비교해서 뭐가 다른지 자신 있게 말할 수 있습니다.Gemini 2.X, 뭐가

machineindeep.tistory.com

 

 

https://machineindeep.tistory.com/102

 

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했

machineindeep.tistory.com

 

 

https://machineindeep.tistory.com/97

 

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신

machineindeep.tistory.com

 

 

 

출처 : https://arxiv.org/abs/2412.19437

반응형