DeepSeek-V3¶
개요¶
- 개발사: DeepSeek (중국 AI 스타트업)
- 출시일: 2024년 12월
- 특징 요약: 671B 파라미터의 대규모 MoE 모델로, 토큰당 37B만 활성화하여 효율적인 추론을 실현. GPT-4급 성능을 오픈소스로 제공
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 총 671B (토큰당 37B 활성화) |
| Context Window | 128K tokens |
| 아키텍처 | Mixture of Experts (MoE), Multi-head Latent Attention (MLA) |
| 학습 데이터 | 14.8조 토큰 |
| 학습 비용 | 약 557만 달러 (H800 GPU 2,048개 사용) |
라이선스¶
- 오픈소스 여부: MIT License (모델 가중치)
- 상업적 사용 조건: 완전한 상업적 사용 허용
주요 특징¶
- Multi-head Latent Attention (MLA): KV 캐시를 저차원 잠재 벡터로 압축하여 메모리 효율성 대폭 개선
- DeepSeekMoE: 세밀한 전문가 분할로 효율적인 전문가 활성화
- FP8 혼합 정밀도 학습으로 학습 효율성 극대화
- Multi-Token Prediction (MTP) 보조 학습 목표 사용
- Load Balancing Loss 없이 효율적인 전문가 부하 분산
장점¶
- GPT-4, Claude 3.5 Sonnet과 동급의 성능
- 극도로 낮은 학습 비용 (OpenAI 대비 1/100 수준)
- MIT 라이선스로 완전한 오픈소스
- 효율적인 MoE 아키텍처로 추론 비용 절감
- 코딩, 수학, 추론 등 전 영역에서 우수한 성능
단점/한계¶
- 대규모 모델로 인해 로컬 배포 시 고사양 하드웨어 필요
- 중국어 학습 데이터 비중으로 인한 잠재적 문화적 편향
- 일부 안전성 관련 제한 사항 존재
- API 서비스 외 자체 호스팅 시 기술적 복잡성
참고 자료¶
- GitHub: https://github.com/deepseek-ai/DeepSeek-V3
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3
- 논문: https://arxiv.org/abs/2412.19437
- 공식 웹사이트: https://www.deepseek.com/