콘텐츠로 이동

DeepSeek-V3

개요

  • 개발사: DeepSeek (중국 AI 스타트업)
  • 출시일: 2024년 12월
  • 특징 요약: 671B 파라미터의 대규모 MoE 모델로, 토큰당 37B만 활성화하여 효율적인 추론을 실현. GPT-4급 성능을 오픈소스로 제공

사양

항목 내용
파라미터 총 671B (토큰당 37B 활성화)
Context Window 128K tokens
아키텍처 Mixture of Experts (MoE), Multi-head Latent Attention (MLA)
학습 데이터 14.8조 토큰
학습 비용 약 557만 달러 (H800 GPU 2,048개 사용)

라이선스

  • 오픈소스 여부: MIT License (모델 가중치)
  • 상업적 사용 조건: 완전한 상업적 사용 허용

주요 특징

  • Multi-head Latent Attention (MLA): KV 캐시를 저차원 잠재 벡터로 압축하여 메모리 효율성 대폭 개선
  • DeepSeekMoE: 세밀한 전문가 분할로 효율적인 전문가 활성화
  • FP8 혼합 정밀도 학습으로 학습 효율성 극대화
  • Multi-Token Prediction (MTP) 보조 학습 목표 사용
  • Load Balancing Loss 없이 효율적인 전문가 부하 분산

장점

  • GPT-4, Claude 3.5 Sonnet과 동급의 성능
  • 극도로 낮은 학습 비용 (OpenAI 대비 1/100 수준)
  • MIT 라이선스로 완전한 오픈소스
  • 효율적인 MoE 아키텍처로 추론 비용 절감
  • 코딩, 수학, 추론 등 전 영역에서 우수한 성능

단점/한계

  • 대규모 모델로 인해 로컬 배포 시 고사양 하드웨어 필요
  • 중국어 학습 데이터 비중으로 인한 잠재적 문화적 편향
  • 일부 안전성 관련 제한 사항 존재
  • API 서비스 외 자체 호스팅 시 기술적 복잡성

참고 자료

  • GitHub: https://github.com/deepseek-ai/DeepSeek-V3
  • HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3
  • 논문: https://arxiv.org/abs/2412.19437
  • 공식 웹사이트: https://www.deepseek.com/