Phi-3¶

개요¶

Phi-3는 Microsoft Research에서 개발한 소형 언어 모델(SLM) 시리즈로, 합성 데이터와 필터링된 공개 웹 데이터를 활용하여 학습되었다. Mini, Small, Medium 세 가지 크기와 Vision 모델을 제공하며, 리소스 제약 환경에서도 강력한 추론 능력을 발휘한다.

개발사: Microsoft Research
공개일: 2024년 4-6월
모델 유형: Dense Decoder-only Transformer

사양¶

Phi-3 모델 패밀리¶

모델	파라미터	컨텍스트 길이	학습 데이터
Phi-3-mini	3.8B	4K / 128K	4.9T 토큰
Phi-3-small	7B	8K / 128K	4.9T 토큰
Phi-3-medium	14B	4K / 128K	4.9T 토큰
Phi-3-vision	4.2B	128K	멀티모달
Phi-3.5-mini	3.8B	128K	개선된 데이터
Phi-3.5-MoE	16x3.8B	128K	MoE 아키텍처
Phi-3.5-vision	4.2B	128K	멀티모달

Phi-3-mini-4k-instruct 상세 사양¶

항목	내용
파라미터 수	3.8B
아키텍처	Dense Decoder-only Transformer
컨텍스트 길이	4,096 토큰
학습 데이터	4.9T 토큰
학습 기간	10일
학습 인프라	512 H100-80G GPU
지식 기준일	2023년 10월
어휘 크기	32,064 토큰

라이선스 및 가격¶

항목	내용
라이선스	MIT License
상업적 사용	허용
오픈소스	Hugging Face, ONNX, GGUF 형식 제공

배포 옵션¶

Azure AI Studio
Hugging Face Transformers
ONNX Runtime
llama.cpp (GGUF)

주요 특징¶

1. 다양한 모델 크기¶

Mini (3.8B): 엣지 디바이스, 모바일 환경
Small (7B): 균형 잡힌 성능
Medium (14B): 최대 품질

2. 긴 컨텍스트 지원¶

128K 토큰 컨텍스트 변형 제공
문서 분석, 긴 대화 처리에 적합

3. 안전성 정렬¶

Supervised Fine-Tuning (SFT)
Direct Preference Optimization (DPO)
시스템 메시지 지원

4. 최적화된 추론¶

Flash Attention 지원
ONNX Runtime 최적화
양자화 모델 제공

벤치마크 성능 (Phi-3-mini-4k-instruct)¶

벤치마크	Phi-3-mini	Llama-3-8B	Mistral-7B
MMLU	70.9%	66.6%	61.7%
GPQA	30.6%	32.8%	28.8%
HellaSwag	76.7%	78.6%	81.3%
ARC-challenge	85.8%	79.1%	78.6%
GSM8K	82.5%	79.6%	53.8%

장점¶

MIT 라이선스로 상업적 사용 자유
다양한 크기 옵션으로 유연한 배포
128K 컨텍스트로 긴 문서 처리 가능
수학 및 논리 추론에서 강력한 성능
다양한 배포 형식 지원 (HF, ONNX, GGUF)

단점¶

영어 중심 학습으로 다국어 성능 제한
Python 외 언어 코드 생성 능력 제한
2023년 10월 이후 정보 부재
실시간 정보 접근 불가
일부 복잡한 지시 따르기 어려움

참고자료¶

Hugging Face: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
기술 보고서: https://aka.ms/phi3-tech-report
Phi-3 Cookbook: https://github.com/microsoft/Phi-3CookBook
Azure AI Studio: https://aka.ms/phi3-azure-ai
공식 포털: https://azure.microsoft.com/en-us/products/phi-3