Mixtral 8x22B
개요
- 출시일: 2024년 4월 17일
- MoE 구조 여부: Yes (Mixture of Experts)
- 8개의 Expert 모듈
- 각 토큰당 2개의 Expert 활성화
사양
| 항목 |
내용 |
| 파라미터 (총/활성) |
141B (총) / 39B (활성) |
| Context Window |
64K tokens |
| GPU RAM (bf16/fp4) |
약 283GB / 71GB |
라이선스
- Apache 2.0
- 제한 없이 상업적 사용 가능
가격 (API)
| Provider |
Input |
Output |
| Mistral AI |
$2.00/1M tokens |
$6.00/1M tokens |
주요 특징
- Mixtral 8x7B의 대형 후속 모델
- 64K 확장된 컨텍스트 윈도우
- 대규모 MoE 아키텍처
- 각 토큰당 141B 중 39B 파라미터만 활성화
- 강화된 다국어 지원
- 향상된 수학 및 코딩 능력
- Function Calling 지원
장점
- Apache 2.0 라이선스로 완전한 오픈소스
- 훨씬 큰 Dense 모델과 경쟁하는 성능
- 64K 컨텍스트로 장문 처리 가능
- MoE 구조로 효율적인 추론
- 강력한 코드 생성 및 수학적 추론
단점/한계
- 141B 총 파라미터로 매우 높은 VRAM 요구
- 멀티 GPU 구성 필요 (대부분의 경우)
- 2025년 3월 30일 지원 종료 예정 (Mistral Small 3.2로 대체)
- MoE 구조로 인한 배포 복잡성
참고 자료
- 공식 발표: https://mistral.ai/news/mixtral-8x22b
- HuggingFace (Base): https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
- HuggingFace (Instruct): https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
- 공식 문서: https://docs.mistral.ai/models/mixtral-8x22b-0-1-0-3