Llama 3.1
개요
- 출시일: 2024년 7월 23일
- 개발사: Meta AI
- 오픈소스 특징: 405B 파라미터의 초대형 모델 최초 공개. 오픈소스 LLM 중 최대 규모로 GPT-4급 성능 달성
사양
| 사이즈 |
파라미터 |
Context Length |
학습 토큰 |
| 8B |
8B |
128K |
15T+ |
| 70B |
70B |
128K |
15T+ |
| 405B |
405B |
128K |
15T+ |
기술 상세
- 아키텍처: Transformer (auto-regressive)
- 어휘 크기: 128K 토큰
- Attention: Grouped Query Attention (GQA)
- 학습 클러스터: 16,000+ NVIDIA H100 GPU
- 지원 언어: 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
라이선스
- 라이선스 유형: Llama 3.1 Community License Agreement
- 상업적 사용: 허용
- 제한 조건: 월간 활성 사용자(MAU) 7억 명 이상인 서비스의 경우 Meta로부터 별도 라이선스 필요
- 합성 데이터: Llama로 생성한 데이터로 다른 모델 학습 허용
주요 특징
- 128K 토큰 컨텍스트 길이 (Llama 3 대비 16배 증가)
- 최초의 오픈소스 405B 파라미터 모델
- 향상된 다국어 지원 (8개 언어)
- 네이티브 tool use 지원 (함수 호출)
- 코드 실행 및 검색 도구 통합
- 강화된 수학 및 추론 능력
- 합성 데이터 생성에 사용 허용
벤치마크 성능
| 벤치마크 |
8B |
70B |
405B |
| MMLU (0-shot) |
66.7 |
79.3 |
85.2 |
| HumanEval (0-shot) |
62.2 |
72.6 |
80.5 |
| MATH (0-shot) |
47.2 |
64.6 |
73.8 |
| BFCL v2 |
- |
77.5 |
81.1 |
장점
- 클로즈드 모델(GPT-4, Claude)에 필적하는 성능
- 128K 컨텍스트로 긴 문서 처리 가능
- 네이티브 tool use로 에이전트 구현 용이
- 다양한 사이즈로 유연한 배포
- 활발한 커뮤니티와 생태계
- 합성 데이터 생성 허용으로 연구 활성화
단점/한계
- 405B 모델은 엄청난 하드웨어 자원 필요
- 텍스트 전용 모델 (이미지 처리 불가)
- 8B 모델은 복잡한 추론에서 한계
- 실시간 정보 접근 불가 (학습 데이터 기준 지식)
- 지원 언어가 8개로 제한적
다운로드/사용
HuggingFace
- 8B: https://huggingface.co/meta-llama/Llama-3.1-8B
- 70B: https://huggingface.co/meta-llama/Llama-3.1-70B
- 405B: https://huggingface.co/meta-llama/Llama-3.1-405B
- Instruct 버전: 각각 -Instruct 접미사 추가
- https://www.llama.com/
- https://ai.meta.com/llama/
클라우드 서비스
- Amazon Bedrock
- Azure AI
- Google Cloud Vertex AI
- IBM watsonx.ai
- Oracle OCI
- Together AI
- Groq
참고 자료
- Meta AI 공식 블로그: https://ai.meta.com/blog/meta-llama-3-1/
- Llama 3.1 논문: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
- GitHub: https://github.com/meta-llama/llama3
- Llama 공식 문서: https://www.llama.com/docs/