DeepSeek-V2¶
개요¶
- 개발사: DeepSeek (중국 AI 스타트업)
- 출시일: 2024년 5월
- 특징 요약: 혁신적인 MLA (Multi-head Latent Attention) 아키텍처를 도입한 236B 파라미터 MoE 모델
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 총 236B (토큰당 21B 활성화) |
| Context Window | 128K tokens |
| 아키텍처 | Mixture of Experts (MoE), Multi-head Latent Attention (MLA) |
| 학습 데이터 | 8.1조 토큰 |
| 전문가 구성 | 160개 라우팅 전문가 + 2개 공유 전문가 |
라이선스¶
- 오픈소스 여부: DeepSeek License (오픈소스)
- 상업적 사용 조건: 상업적 사용 허용, 일부 제한 조건 존재
주요 특징¶
- MLA (Multi-head Latent Attention): 기존 MHA 대비 KV 캐시를 93% 이상 압축
- DeepSeekMoE 아키텍처: 세밀한 전문가 분할 및 공유 전문가 격리
- Device-Limited Routing: 전문가 병렬화 시 통신 비용 최소화
- YaRN 기반 컨텍스트 확장으로 128K 지원
- GPT-4 Turbo와 비교 가능한 성능
장점¶
- 혁신적인 MLA로 추론 시 메모리 효율성 대폭 개선
- 동급 Dense 모델 대비 5~10배 빠른 추론 속도
- 오픈소스로 연구 및 상업적 활용 가능
- API 서비스 가격이 매우 저렴
단점/한계¶
- DeepSeek-V3 출시로 구버전이 됨
- 복잡한 MoE 아키텍처로 커스터마이징 어려움
- 중국어 편향 존재 가능성
- 일부 안전성 가이드라인 관련 이슈
참고 자료¶
- GitHub: https://github.com/deepseek-ai/DeepSeek-V2
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V2
- 논문: https://arxiv.org/abs/2405.04434
- 공식 웹사이트: https://www.deepseek.com/