콘텐츠로 이동

LLM Architecture Reference

대규모 언어 모델(Large Language Model)의 핵심 아키텍처와 최적화 기법에 대한 기술 문서.

목차

문서 설명
Transformer 어텐션 기반 시퀀스 모델링의 기초
Mixture of Experts 희소 활성화를 통한 효율적 스케일링
State Space Models 선형 시간 복잡도의 시퀀스 모델링
Hybrid Architecture Transformer와 SSM의 결합
Quantization 모델 경량화 기법 (GPTQ, AWQ, GGUF)
Context Extension 긴 컨텍스트 처리 기법

아키텍처 비교 요약

+------------------+-------------+-------------+------------+---------------+
| Architecture     | Time        | Memory      | Long       | Parallelism   |
|                  | Complexity  | Complexity  | Context    |               |
+------------------+-------------+-------------+------------+---------------+
| Transformer      | O(n^2)      | O(n^2)      | Limited    | High          |
| MoE Transformer  | O(n^2)      | O(n^2)      | Limited    | High          |
| Mamba (SSM)      | O(n)        | O(1)        | Excellent  | Medium        |
| Hybrid           | O(n)~O(n^2) | O(n)        | Excellent  | High          |
+------------------+-------------+-------------+------------+---------------+

주요 모델 계보

2017  Transformer (Google)
       |
2018  BERT, GPT-1
       |
2019  GPT-2, T5
       |
2020  GPT-3
       |
2022  ChatGPT, LLaMA
       |
2023  GPT-4, Mixtral (MoE), Mamba
       |
2024  Claude 3, Llama 3, DeepSeek-V2, Jamba (Hybrid)
       |
2025  DeepSeek-V3, Llama 4 (MoE), Claude 4

문서 작성 기준

  • 논문 및 공식 기술 보고서 기반
  • 수식은 LaTeX 표기법 사용
  • 아키텍처 다이어그램은 ASCII art로 표현
  • 코드 예시는 PyTorch 기준

참고 자료

  • Vaswani et al. (2017). "Attention Is All You Need"
  • Gu & Dao (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"
  • Fedus et al. (2022). "Switch Transformers: Scaling to Trillion Parameter Models"
  • AI21 Labs (2024). "Jamba: A Hybrid Transformer-Mamba Language Model"

Last Updated: 2025-01