Baichuan 2¶
개요¶
- 개발사: Baichuan Inc. (百川智能, 왕샤오촨 설립 - 전 Sogou CEO)
- 출시일: 2023년 9월
- 특징 요약: 중국어에 특화된 대규모 언어 모델로, 7B와 13B 두 가지 크기로 제공되며 중국어 벤치마크에서 최상위 성능을 기록
사양¶
| 항목 | 내용 |
|---|---|
| 파라미터 | 7B, 13B |
| Context Window | 4K tokens |
| 아키텍처 | Transformer Decoder-only, RoPE, RMSNorm, SwiGLU |
| 학습 데이터 | 2.6조 토큰 |
| 어휘 크기 | 125,696 토큰 |
라이선스¶
- 오픈소스 여부: Baichuan License (오픈소스)
- 상업적 사용 조건: 연구 목적 무료, 상업적 사용 시 별도 협의 필요
주요 특징¶
- 중국어 처리에 최적화된 토크나이저 (125,696 어휘)
- NormHead: 출력 임베딩 정규화로 학습 안정성 향상
- Max-z Loss: 로짓 값 안정화를 위한 추가 손실 함수
- 영어와 중국어 균형 잡힌 이중 언어 능력
- Chat 버전에서 RLHF (인간 피드백 강화학습) 적용
장점¶
- 중국어 벤치마크에서 최상위 성능
- 비교적 작은 크기(7B, 13B)로 효율적인 배포 가능
- 중국어 토큰 효율성이 뛰어남
- RLHF로 안전하고 유용한 응답 생성
- 중국 내 규제 준수 (안전 정렬)
단점/한계¶
- 영어 성능은 Llama 2 등 영어 중심 모델 대비 낮음
- 컨텍스트 길이가 4K로 제한적
- 상업적 사용 시 별도 라이선스 협의 필요
- 최신 모델들 대비 구버전
- 중국어 학습 데이터 비중이 높아 다국어 지원 제한적
- 중국 정부 정책에 맞춘 응답 생성 경향
참고 자료¶
- GitHub: https://github.com/baichuan-inc/Baichuan2
- HuggingFace: https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat
- 논문: https://arxiv.org/abs/2309.10305
- 공식 웹사이트: https://www.baichuan-ai.com/