Qwen 2¶
개요¶
- 개발사: Alibaba Cloud (알리바바 클라우드)
- 출시일: 2024년 6월
- 특징 요약: Qwen 1.5의 후속 모델로, 다국어 지원 강화 및 코딩/수학 능력이 크게 향상된 차세대 Qwen 시리즈
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 0.5B, 1.5B, 7B, 57B-A14B (MoE), 72B |
| Context Window | 기본 32K tokens, 128K tokens 확장 버전 |
| 아키텍처 | Transformer Decoder-only, GQA (Grouped Query Attention), RoPE |
| 학습 데이터 | 7조 토큰 이상 |
라이선스¶
- 오픈소스 여부: Apache 2.0 (소형 모델), Qwen License (대형 모델)
- 상업적 사용 조건: 0.5B~7B 모델은 Apache 2.0으로 자유롭게 상업적 사용 가능. 72B 모델은 별도 라이선스 적용
주요 특징¶
- GQA(Grouped Query Attention) 도입으로 추론 효율성 개선
- 27개 이상의 언어 지원
- 57B-A14B MoE (Mixture of Experts) 모델 도입으로 효율적인 대규모 모델 운영
- 긴 컨텍스트 이해 능력 강화 (YARN 기법 적용)
- 코드 및 수학 벤치마크에서 경쟁 모델 대비 우수한 성능
장점¶
- Llama 3, GPT-4 등과 비교해도 경쟁력 있는 성능
- 다양한 크기의 모델로 유연한 배포 가능
- MoE 아키텍처로 추론 비용 절감
- 오픈소스로 공개되어 연구 및 커스터마이징 용이
단점/한계¶
- Qwen 2.5 출시로 구버전이 됨
- 72B 모델은 상업적 사용 시 라이선스 확인 필요
- 중국어 학습 데이터 비중으로 인한 잠재적 편향
- 일부 안전성 관련 이슈 보고됨
참고 자료¶
- GitHub: https://github.com/QwenLM/Qwen2
- HuggingFace: https://huggingface.co/Qwen
- 기술 블로그: https://qwenlm.github.io/blog/qwen2/
- 논문: https://arxiv.org/abs/2407.10671