LLM Architecture Reference¶

대규모 언어 모델(Large Language Model)의 핵심 아키텍처와 최적화 기법에 대한 기술 문서.

목차¶

문서	설명
Transformer	어텐션 기반 시퀀스 모델링의 기초
Mixture of Experts	희소 활성화를 통한 효율적 스케일링
State Space Models	선형 시간 복잡도의 시퀀스 모델링
Hybrid Architecture	Transformer와 SSM의 결합
Quantization	모델 경량화 기법 (GPTQ, AWQ, GGUF)
Context Extension	긴 컨텍스트 처리 기법

아키텍처 비교 요약¶

+------------------+-------------+-------------+------------+---------------+
| Architecture     | Time        | Memory      | Long       | Parallelism   |
|                  | Complexity  | Complexity  | Context    |               |
+------------------+-------------+-------------+------------+---------------+
| Transformer      | O(n^2)      | O(n^2)      | Limited    | High          |
| MoE Transformer  | O(n^2)      | O(n^2)      | Limited    | High          |
| Mamba (SSM)      | O(n)        | O(1)        | Excellent  | Medium        |
| Hybrid           | O(n)~O(n^2) | O(n)        | Excellent  | High          |
+------------------+-------------+-------------+------------+---------------+

주요 모델 계보¶

2017  Transformer (Google)
       |
2018  BERT, GPT-1
       |
2019  GPT-2, T5
       |
2020  GPT-3
       |
2022  ChatGPT, LLaMA
       |
2023  GPT-4, Mixtral (MoE), Mamba
       |
2024  Claude 3, Llama 3, DeepSeek-V2, Jamba (Hybrid)
       |
2025  DeepSeek-V3, Llama 4 (MoE), Claude 4

문서 작성 기준¶

논문 및 공식 기술 보고서 기반
수식은 LaTeX 표기법 사용
아키텍처 다이어그램은 ASCII art로 표현
코드 예시는 PyTorch 기준

참고 자료¶

Vaswani et al. (2017). "Attention Is All You Need"
Gu & Dao (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
Fedus et al. (2022). "Switch Transformers: Scaling to Trillion Parameter Models"
AI21 Labs (2024). "Jamba: A Hybrid Transformer-Mamba Language Model"

Last Updated: 2025-01