“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대형 Mixture-of-Experts (MoE) 언어 모델 DeepSeek-V3를 공개했습니다.이 중 토큰당 활성화되는 파라미터는 37B로, 거대한 모델임에도 효율적인 추론과 비용 절감이 가능합니다.이 모델은 이전 세대 DeepSeek-V2에서 검증된 기술을 발전시켜:Multi-head Latent Attention (MLA) → 메모리·속도 최적화DeepSeekMoE 아키텍처 → 전문가 라우팅을 통한 계산 효율성 극대화Multi-Token Prediction (MTP)..