콘텐츠로 이동

Eommydocs

Qwen 2

Qwen 2¶

개요¶

개발사: Alibaba Cloud (알리바바 클라우드)
출시일: 2024년 6월
특징 요약: Qwen 1.5의 후속 모델로, 다국어 지원 강화 및 코딩/수학 능력이 크게 향상된 차세대 Qwen 시리즈

사양¶

항목	내용
파라미터	0.5B, 1.5B, 7B, 57B-A14B (MoE), 72B
Context Window	기본 32K tokens, 128K tokens 확장 버전
아키텍처	Transformer Decoder-only, GQA (Grouped Query Attention), RoPE
학습 데이터	7조 토큰 이상

라이선스¶

오픈소스 여부: Apache 2.0 (소형 모델), Qwen License (대형 모델)
상업적 사용 조건: 0.5B~7B 모델은 Apache 2.0으로 자유롭게 상업적 사용 가능. 72B 모델은 별도 라이선스 적용

주요 특징¶

GQA(Grouped Query Attention) 도입으로 추론 효율성 개선
27개 이상의 언어 지원
57B-A14B MoE (Mixture of Experts) 모델 도입으로 효율적인 대규모 모델 운영
긴 컨텍스트 이해 능력 강화 (YARN 기법 적용)
코드 및 수학 벤치마크에서 경쟁 모델 대비 우수한 성능

장점¶

Llama 3, GPT-4 등과 비교해도 경쟁력 있는 성능
다양한 크기의 모델로 유연한 배포 가능
MoE 아키텍처로 추론 비용 절감
오픈소스로 공개되어 연구 및 커스터마이징 용이

단점/한계¶

Qwen 2.5 출시로 구버전이 됨
72B 모델은 상업적 사용 시 라이선스 확인 필요
중국어 학습 데이터 비중으로 인한 잠재적 편향
일부 안전성 관련 이슈 보고됨

참고 자료¶

GitHub: https://github.com/QwenLM/Qwen2
HuggingFace: https://huggingface.co/Qwen
기술 블로그: https://qwenlm.github.io/blog/qwen2/
논문: https://arxiv.org/abs/2407.10671