LLM Architecture Reference¶
대규모 언어 모델(Large Language Model)의 핵심 아키텍처와 최적화 기법에 대한 기술 문서.
목차¶
| 문서 | 설명 |
|---|---|
| Transformer | 어텐션 기반 시퀀스 모델링의 기초 |
| Mixture of Experts | 희소 활성화를 통한 효율적 스케일링 |
| State Space Models | 선형 시간 복잡도의 시퀀스 모델링 |
| Hybrid Architecture | Transformer와 SSM의 결합 |
| Quantization | 모델 경량화 기법 (GPTQ, AWQ, GGUF) |
| Context Extension | 긴 컨텍스트 처리 기법 |
아키텍처 비교 요약¶
+------------------+-------------+-------------+------------+---------------+
| Architecture | Time | Memory | Long | Parallelism |
| | Complexity | Complexity | Context | |
+------------------+-------------+-------------+------------+---------------+
| Transformer | O(n^2) | O(n^2) | Limited | High |
| MoE Transformer | O(n^2) | O(n^2) | Limited | High |
| Mamba (SSM) | O(n) | O(1) | Excellent | Medium |
| Hybrid | O(n)~O(n^2) | O(n) | Excellent | High |
+------------------+-------------+-------------+------------+---------------+
주요 모델 계보¶
2017 Transformer (Google)
|
2018 BERT, GPT-1
|
2019 GPT-2, T5
|
2020 GPT-3
|
2022 ChatGPT, LLaMA
|
2023 GPT-4, Mixtral (MoE), Mamba
|
2024 Claude 3, Llama 3, DeepSeek-V2, Jamba (Hybrid)
|
2025 DeepSeek-V3, Llama 4 (MoE), Claude 4
문서 작성 기준¶
- 논문 및 공식 기술 보고서 기반
- 수식은 LaTeX 표기법 사용
- 아키텍처 다이어그램은 ASCII art로 표현
- 코드 예시는 PyTorch 기준
참고 자료¶
- Vaswani et al. (2017). "Attention Is All You Need"
- Gu & Dao (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
- Fedus et al. (2022). "Switch Transformers: Scaling to Trillion Parameter Models"
- AI21 Labs (2024). "Jamba: A Hybrid Transformer-Mamba Language Model"
Last Updated: 2025-01