콘텐츠로 이동

Phi-3

개요

Phi-3는 Microsoft Research에서 개발한 소형 언어 모델(SLM) 시리즈로, 합성 데이터와 필터링된 공개 웹 데이터를 활용하여 학습되었다. Mini, Small, Medium 세 가지 크기와 Vision 모델을 제공하며, 리소스 제약 환경에서도 강력한 추론 능력을 발휘한다.

  • 개발사: Microsoft Research
  • 공개일: 2024년 4-6월
  • 모델 유형: Dense Decoder-only Transformer

사양

Phi-3 모델 패밀리

모델 파라미터 컨텍스트 길이 학습 데이터
Phi-3-mini 3.8B 4K / 128K 4.9T 토큰
Phi-3-small 7B 8K / 128K 4.9T 토큰
Phi-3-medium 14B 4K / 128K 4.9T 토큰
Phi-3-vision 4.2B 128K 멀티모달
Phi-3.5-mini 3.8B 128K 개선된 데이터
Phi-3.5-MoE 16x3.8B 128K MoE 아키텍처
Phi-3.5-vision 4.2B 128K 멀티모달

Phi-3-mini-4k-instruct 상세 사양

항목 내용
파라미터 수 3.8B
아키텍처 Dense Decoder-only Transformer
컨텍스트 길이 4,096 토큰
학습 데이터 4.9T 토큰
학습 기간 10일
학습 인프라 512 H100-80G GPU
지식 기준일 2023년 10월
어휘 크기 32,064 토큰

라이선스 및 가격

항목 내용
라이선스 MIT License
상업적 사용 허용
오픈소스 Hugging Face, ONNX, GGUF 형식 제공

배포 옵션

  • Azure AI Studio
  • Hugging Face Transformers
  • ONNX Runtime
  • llama.cpp (GGUF)

주요 특징

1. 다양한 모델 크기

  • Mini (3.8B): 엣지 디바이스, 모바일 환경
  • Small (7B): 균형 잡힌 성능
  • Medium (14B): 최대 품질

2. 긴 컨텍스트 지원

  • 128K 토큰 컨텍스트 변형 제공
  • 문서 분석, 긴 대화 처리에 적합

3. 안전성 정렬

  • Supervised Fine-Tuning (SFT)
  • Direct Preference Optimization (DPO)
  • 시스템 메시지 지원

4. 최적화된 추론

  • Flash Attention 지원
  • ONNX Runtime 최적화
  • 양자화 모델 제공

벤치마크 성능 (Phi-3-mini-4k-instruct)

벤치마크 Phi-3-mini Llama-3-8B Mistral-7B
MMLU 70.9% 66.6% 61.7%
GPQA 30.6% 32.8% 28.8%
HellaSwag 76.7% 78.6% 81.3%
ARC-challenge 85.8% 79.1% 78.6%
GSM8K 82.5% 79.6% 53.8%

장점

  1. MIT 라이선스로 상업적 사용 자유
  2. 다양한 크기 옵션으로 유연한 배포
  3. 128K 컨텍스트로 긴 문서 처리 가능
  4. 수학 및 논리 추론에서 강력한 성능
  5. 다양한 배포 형식 지원 (HF, ONNX, GGUF)

단점

  1. 영어 중심 학습으로 다국어 성능 제한
  2. Python 외 언어 코드 생성 능력 제한
  3. 2023년 10월 이후 정보 부재
  4. 실시간 정보 접근 불가
  5. 일부 복잡한 지시 따르기 어려움

참고자료

  • Hugging Face: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
  • 기술 보고서: https://aka.ms/phi3-tech-report
  • Phi-3 Cookbook: https://github.com/microsoft/Phi-3CookBook
  • Azure AI Studio: https://aka.ms/phi3-azure-ai
  • 공식 포털: https://azure.microsoft.com/en-us/products/phi-3