Qwen 2.5¶
개요¶
- 개발사: Alibaba Cloud (알리바바 클라우드)
- 출시일: 2024년 9월
- 특징 요약: Qwen 시리즈의 최신 버전으로, 다양한 크기(0.5B~72B)의 모델 라인업을 제공하며 코딩, 수학, 다국어 지원에서 대폭 개선된 성능을 보임
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B (다양한 크기 제공) |
| Context Window | 기본 128K tokens, 1M tokens 확장 버전 존재 (14B-Instruct-1M) |
| 아키텍처 | Transformer Decoder-only, RoPE 위치 인코딩, SwiGLU 활성화 |
| 학습 데이터 | 18조 토큰 이상 |
라이선스¶
- 오픈소스 여부: Apache 2.0 (대부분 모델), 일부 대형 모델은 Qwen License
- 상업적 사용 조건: Apache 2.0 라이선스 모델은 자유롭게 상업적 사용 가능. 72B 등 일부 모델은 월간 활성 사용자 1억 명 초과 시 별도 협의 필요
주요 특징¶
- 다양한 크기의 Base 및 Instruct 모델 제공
- 128K 기본 컨텍스트 윈도우, 최대 1M 토큰 지원 버전 출시
- 29개 이상의 언어 지원 (영어, 중국어, 한국어, 일본어, 독일어, 프랑스어 등)
- Qwen2.5-Coder, Qwen2.5-Math 등 특화 모델 동시 출시
- Untied embeddings 적용으로 효율성 개선
장점¶
- 동급 오픈소스 모델 대비 우수한 벤치마크 성능
- 풍부한 모델 크기 선택지로 다양한 환경에 배포 가능
- 긴 컨텍스트 처리 능력 (최대 1M 토큰)
- 다국어 지원이 뛰어남
- Apache 2.0 라이선스로 상업적 활용 용이
단점/한계¶
- 72B 모델의 경우 상업적 사용 제약 존재
- 중국어 학습 데이터 비중이 높아 일부 작업에서 중국어 편향 가능성
- 최신 모델 대비 추론(reasoning) 능력은 제한적
참고 자료¶
- GitHub: https://github.com/QwenLM/Qwen2.5
- HuggingFace: https://huggingface.co/Qwen
- 기술 블로그: https://qwenlm.github.io/blog/qwen2.5/
- Ollama: https://ollama.com/library/qwen2.5