Phi-4
개요
Phi-4는 Microsoft Research에서 개발한 140억 파라미터 규모의 소형 언어 모델(SLM)이다. 합성 데이터, 필터링된 공개 웹사이트 데이터, 학술 서적 및 Q&A 데이터셋을 혼합하여 학습되었으며, 특히 수학적 추론과 복잡한 논리 문제 해결에 특화되어 있다.
- 개발사: Microsoft Research
- 공개일: 2024년 12월 12일
- 모델 유형: Dense Decoder-only Transformer
사양
| 항목 |
내용 |
| 파라미터 수 |
14B |
| 아키텍처 |
Dense Decoder-only Transformer |
| 컨텍스트 길이 |
16,384 토큰 |
| 학습 데이터 |
9.8T 토큰 |
| 학습 기간 |
21일 |
| 학습 인프라 |
1,920 H100-80G GPU |
| 지식 기준일 |
2024년 6월 |
| 주요 언어 |
영어 (다국어 데이터 약 8%) |
모델 변형
| 모델명 |
파라미터 |
특징 |
| Phi-4 |
14B |
기본 텍스트 모델 |
| Phi-4-multimodal-instruct |
5.6B |
멀티모달 (비전, 음성 지원) |
라이선스 및 가격
| 항목 |
내용 |
| 라이선스 |
MIT License |
| 상업적 사용 |
허용 |
| 오픈소스 |
Hugging Face에서 가중치 공개 |
API 가격 (Azure AI)
Azure AI Foundry를 통한 배포 시 인프라 비용에 따라 과금
주요 특징
1. 고품질 합성 데이터 학습
- "교과서 스타일" 합성 데이터로 수학, 코딩, 상식 추론 학습
- 공개 데이터의 엄격한 품질 필터링
2. 고급 추론 능력
- MATH 벤치마크: 80.4% (GPT-4o-mini 73.0% 상회)
- GPQA (대학원 수준 과학 문제): 56.1%
3. 안전성 강화
- Supervised Fine-Tuning (SFT) 및 Direct Preference Optimization (DPO) 적용
- Microsoft AI Red Team (AIRT)과 협력한 안전성 평가
4. 코드 생성
- HumanEval: 82.6%
- Python 중심 학습 (typing, math, random, collections 등 주요 패키지)
벤치마크 성능
| 벤치마크 |
Phi-4 (14B) |
Phi-3 (14B) |
GPT-4o-mini |
Llama-3.3 (70B) |
| MMLU |
84.8% |
77.9% |
81.8% |
86.3% |
| MATH |
80.4% |
44.6% |
73.0% |
66.3% |
| GPQA |
56.1% |
31.2% |
40.9% |
49.1% |
| HumanEval |
82.6% |
67.8% |
86.2% |
78.9% |
| DROP |
75.5% |
68.3% |
79.3% |
90.2% |
장점
- MIT 라이선스로 상업적 사용 자유로움
- 14B 파라미터로 효율적인 추론 가능
- 수학 및 과학 추론에서 대형 모델 수준의 성능
- 메모리/컴퓨팅 제약 환경에 적합
- 저지연 응답 가능
단점
- 영어 외 언어에서 성능 저하
- Python 외 프로그래밍 언어 지원 제한적
- 사실 정보 신뢰성 제한 (SimpleQA: 3.0%)
- 2024년 6월 이후 정보 부재
- 환각(Hallucination) 가능성 존재
참고자료
- Hugging Face: https://huggingface.co/microsoft/phi-4
- 기술 보고서: https://arxiv.org/pdf/2412.08905
- Azure AI: https://azure.microsoft.com/en-us/products/phi
- Microsoft 블로그: https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090