Gemma 2¶
개요¶
- 출시일: 2024년 6월 (Google I/O 2024 후속 발표)
- 개발사: Google DeepMind
- 멀티모달 특징: 텍스트 전용 오픈소스 모델. Gemini의 기술을 기반으로 한 경량 오픈 모델
사양¶
| 항목 | 내용 |
|---|---|
| Context Window | 8,192 tokens |
| 파라미터 | 2B, 9B, 27B 버전 제공 |
| 아키텍처 | Transformer (Decoder-only) |
| 라이선스 | Gemma Terms of Use (상업적 사용 가능) |
모델 변형¶
| 모델 | 파라미터 | 특징 |
|---|---|---|
| gemma-2-2b | 2B | 초경량, 엣지 디바이스용 |
| gemma-2-9b | 9B | 성능과 효율의 균형 |
| gemma-2-27b | 27B | 최고 성능 |
가격¶
- 오픈소스: 무료 다운로드 및 배포
- Google AI Studio: 무료 API 제공 (Rate limit 적용)
- Vertex AI: 배포 인프라 비용만 발생
자체 호스팅 시¶
- 하드웨어 비용만 발생
- 2B: CPU/저사양 GPU 실행 가능
- 9B: 8GB+ VRAM GPU 권장
- 27B: 24GB+ VRAM GPU 권장 (양자화 시 16GB 가능)
주요 특징¶
- Gemini 모델 기술 기반의 오픈 모델
- 3가지 크기로 다양한 배포 환경 지원
- 동급 파라미터 모델 대비 우수한 벤치마크 성능
- Knowledge Distillation 기법으로 학습
- Grouped-Query Attention (GQA) 적용
- 로컬 실행 및 파인튜닝 가능
장점¶
- 완전 오픈소스로 자유로운 배포 및 수정
- Llama 3 8B, Mistral 7B 대비 우수한 성능
- 다양한 플랫폼 지원 (Hugging Face, Ollama, llama.cpp 등)
- 상업적 사용 허용
- 경량 모델로 엣지 배포 가능
단점/한계¶
- 8K 토큰의 제한된 컨텍스트 윈도우
- 텍스트 전용 (멀티모달 미지원)
- 27B 모델도 GPT-4급 성능에는 미치지 못함
- 한국어 등 비영어 성능 제한적
- 긴 문서 처리에 부적합
적합한 사용 사례¶
- 온디바이스 AI 애플리케이션
- 프라이버시가 중요한 로컬 배포
- 파인튜닝을 통한 특화 모델 개발
- 교육 및 연구 목적
- 비용 최소화가 필요한 스타트업