개요
MPT는 MosaicML(현 Databricks)에서 개발한 오픈소스 언어 모델 시리즈다. 상업적으로 사용 가능하며, LLaMA-7B와 동등한 품질을 제공한다. ALiBi(Attention with Linear Biases)를 통해 무제한 컨텍스트 길이를 지원하고, FlashAttention과 FasterTransformer로 최적화되어 빠른 학습과 추론이 가능하다.
- 개발사: MosaicML (현 Databricks)
- 공개일: 2023년 5월
- 모델 유형: GPT-style Decoder-only Transformer
사양
모델 패밀리
| 모델명 |
파라미터 |
학습 데이터 |
컨텍스트 |
라이선스 |
| MPT-7B Base |
6.7B |
1T 토큰 |
2K (확장 가능) |
Apache-2.0 |
| MPT-7B-Instruct |
6.7B |
Dolly + HH |
2K |
CC-By-SA-3.0 |
| MPT-7B-Chat |
6.7B |
ShareGPT 등 |
2K |
CC-By-NC-SA-4.0 |
| MPT-7B-StoryWriter-65k+ |
6.7B |
books3 소설 |
65K |
Apache-2.0 |
| MPT-30B |
30B |
- |
- |
Apache-2.0 |
MPT-7B 상세 사양
| 항목 |
내용 |
| 파라미터 수 |
6.7B |
| 학습 데이터 |
1T 토큰 (텍스트 + 코드) |
| 학습 기간 |
9.5일 |
| 학습 인프라 |
440 GPU |
| 학습 비용 |
약 $200,000 |
| 위치 인코딩 |
ALiBi (Attention with Linear Biases) |
| 어텐션 |
FlashAttention |
라이선스 및 가격
| 모델 |
라이선스 |
상업적 사용 |
| MPT-7B Base |
Apache-2.0 |
허용 |
| MPT-7B-Instruct |
CC-By-SA-3.0 |
허용 |
| MPT-7B-Chat |
CC-By-NC-SA-4.0 |
비상업적만 |
| MPT-7B-StoryWriter |
Apache-2.0 |
허용 |
MosaicML 플랫폼 (학습/배포)
주요 특징
1. ALiBi (Attention with Linear Biases)
- 기존 위치 임베딩 대체
- 학습 시 컨텍스트 길이 제한 없음
- 더 긴 컨텍스트로 외삽 가능
- StoryWriter: 65K 학습, 84K 추론 시연
2. 최적화된 성능
- FlashAttention으로 빠른 학습
- FasterTransformer로 빠른 추론
- 40-60% MFU (Model FLOP Utilization)
- 손실 급등 없이 안정적 학습
3. 자동화된 학습
- MosaicML 플랫폼에서 무중단 학습
- 하드웨어 오류 자동 감지 및 복구
- 9.5일간 4회 하드웨어 오류 자동 처리
4. StoryWriter-65k+
- 65K 토큰 컨텍스트로 미세조정
- 84K 토큰까지 외삽 가능
- 소설 전체를 입력으로 받아 에필로그 생성
- 약 150K 단어/분 읽기 속도
벤치마크 성능 (MPT-7B vs LLaMA-7B)
| 벤치마크 |
MPT-7B |
LLaMA-7B |
| HellaSwag |
76.4% |
76.1% |
| PIQA |
80.1% |
79.8% |
| Winogrande |
70.1% |
70.1% |
| ARC-Easy |
74.9% |
72.8% |
| ARC-Challenge |
46.5% |
47.6% |
| OpenBookQA |
43.4% |
44.8% |
| BoolQ |
75.0% |
75.1% |
| Jeopardy |
31.0% |
33.1% |
모델 변형 상세
MPT-7B-Instruct
- 학습 데이터: Dolly-15k + Anthropic HH (4배 확장)
- 용도: 단문 지시 따르기
- 라이선스: CC-By-SA-3.0 (상업적 사용 가능)
MPT-7B-Chat
- 학습 데이터: ShareGPT-Vicuna, HC3, Alpaca, HH, Evol-Instruct
- 용도: 대화형 챗봇
- 형식: ChatML 형식
- 라이선스: CC-By-NC-SA-4.0 (비상업적)
MPT-7B-StoryWriter-65k+
- 학습 데이터: books3 소설 (65K 토큰 발췌)
- 용도: 장문 스토리 생성
- 학습 방식: Next-token prediction 2500 스텝
장점
- 상업적 사용 가능 (Base, Instruct, StoryWriter)
- LLaMA-7B와 동등한 품질
- ALiBi로 무제한 컨텍스트 확장
- 빠른 학습 및 추론
- 안정적인 학습 (손실 급등 없음)
- 전체 학습 코드 공개
단점
- 7B 모델로 대형 모델 대비 제한적 성능
- Chat 모델은 비상업적 사용만 가능
- 영어 중심
- Databricks 인수 후 MPT 시리즈 개발 중단
- DBRX로 대체됨
학습 데이터 구성 (MPT-7B Base)
| 소스 |
비율 |
| mC4 (en) |
27% |
| C4 |
23% |
| RedPajama |
20% |
| StarCoder |
15% |
| Wikipedia |
8% |
| Books |
7% |
참고자료
- Databricks 블로그: https://www.databricks.com/blog/mpt-7b
- Hugging Face: https://huggingface.co/mosaicml/mpt-7b
- LLM Foundry: https://github.com/mosaicml/llm-foundry
- Composer: https://github.com/mosaicml/composer