콘텐츠로 이동

VLM (Vision-Language Model) 아키텍처 가이드

1. 개요

Vision-Language Model(VLM)은 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 멀티모달 AI 모델이다. 기본적으로 Vision Encoder와 Language Model을 결합한 구조를 가진다.

2. 핵심 구성 요소

2.1 Vision Encoder

이미지를 수치적 표현(embedding)으로 변환하는 컴포넌트.

Encoder 개발사 특징
ViT (Vision Transformer) Google Transformer 기반, 패치 분할 방식
CLIP ViT OpenAI 텍스트-이미지 대조 학습
SigLIP Google Sigmoid loss 기반 CLIP 개선
EVA-CLIP BAAI 대규모 사전학습 ViT
DINOv2 Meta Self-supervised 학습

2.2 Projection Layer (Connector)

Vision Encoder의 출력을 LLM이 이해할 수 있는 차원으로 변환한다.

주요 방식: - Linear Projection: 단순 선형 변환 (LLaVA 1.0) - MLP (Multi-Layer Perceptron): 2-layer MLP (LLaVA 1.5+) - Cross-Attention: 이미지-텍스트 간 attention (Flamingo, Qwen-VL) - Perceiver Resampler: 고정 길이 토큰 생성 (Flamingo) - Q-Former: Querying Transformer (BLIP-2)

2.3 Language Model (LLM)

텍스트 생성 및 추론을 담당하는 핵심 컴포넌트.

LLM Base 사용 모델 파라미터
Vicuna LLaVA 1.5 7B, 13B
LLaMA 2/3 LLaVA-NeXT, CogVLM2 7B-70B
Mistral LLaVA-NeXT, Pixtral 7B
Mistral Large 2 Pixtral Large 123B
Qwen Qwen-VL, Qwen2-VL 2B-72B
Gemma 2 PaliGemma 2 3B, 10B, 28B

3. 아키텍처 유형

3.1 Type A: Frozen Vision Encoder + Trainable Connector

Image --> [Frozen ViT] --> [Trainable MLP] --> [LLM]
                                                 ^
                                          Text --|

특징: - Vision Encoder 가중치 고정 - Connector와 LLM만 학습 - 학습 효율성 높음

대표 모델: LLaVA, LLaVA-NeXT

3.2 Type B: End-to-End Trainable

Image --> [Trainable ViT] --> [Trainable Connector] --> [Trainable LLM]
                                                              ^
                                                       Text --|

특징: - 전체 파이프라인 학습 - 더 나은 모달리티 정렬 - 학습 비용 높음

대표 모델: GPT-4V, Gemini, Claude 3

3.3 Type C: Cross-Attention 기반

Image --> [Vision Encoder] --> Visual Tokens
                                    |
                               Cross-Attention
                                    |
Text  --> [LLM Layers] <------------|

특징: - LLM 레이어 내부에서 이미지 정보 통합 - 깊은 모달리티 융합

대표 모델: Flamingo, Qwen-VL

3.4 Type D: Native Multimodal

[Image Patches + Text Tokens] --> [Unified Transformer]

특징: - 이미지와 텍스트를 동일한 토큰 시퀀스로 처리 - 단일 모델 아키텍처 - 가장 통합된 접근

대표 모델: Gemini, GPT-4o

4. 이미지 처리 방식

4.1 고정 해상도

  • 입력 이미지를 고정된 크기(예: 224x224, 336x336)로 리사이즈
  • 처리 속도 일정
  • 세부 정보 손실 가능

4.2 동적 해상도 (Dynamic Resolution)

  • 입력 이미지를 여러 타일로 분할
  • 고해상도 이미지 처리 가능
  • 토큰 수 증가로 비용 상승

구현 방식:

모델 방식 최대 해상도
GPT-4V 512x512 타일 분할 제한 없음
LLaVA-NeXT AnyRes (다중 타일) 최대 6개 타일
Qwen2-VL Naive Dynamic Resolution 제한 없음
Claude 3 동적 타일링 8192x8192

4.3 멀티 이미지 처리

모델 최대 이미지 수
GPT-4V 최대 20개 (컨텍스트 내)
Gemini 1.5 3600+ 이미지
Claude 3 최대 20개
Qwen2-VL 다중 이미지 지원

5. 학습 전략

5.1 Stage 1: Pre-training (Feature Alignment)

목표: Vision Encoder와 LLM 간 특징 정렬

데이터: - 이미지-캡션 쌍 (예: CC3M, LAION) - 학습 대상: Connector만 또는 전체

손실 함수: Next token prediction (autoregressive)

5.2 Stage 2: Instruction Tuning

목표: 지시 따르기 능력 향상

데이터: - Visual instruction 데이터 - 멀티턴 대화 데이터 - Task-specific 데이터

5.3 Stage 3: RLHF / DPO (선택적)

목표: 인간 선호도 정렬

방법: - Reinforcement Learning from Human Feedback - Direct Preference Optimization

6. 주요 벤치마크

6.1 일반 VQA

벤치마크 설명
VQAv2 일반 시각 질의응답
GQA 구성적 질의응답
OK-VQA 외부 지식 필요 VQA
TextVQA 이미지 내 텍스트 이해
DocVQA 문서 이해

6.2 멀티모달 추론

벤치마크 설명
MMMU 대학 수준 멀티모달 이해
MathVista 수학적 시각 추론
AI2D 과학 다이어그램 이해
ChartQA 차트/그래프 이해

6.3 OCR 및 문서

벤치마크 설명
OCRBench OCR 종합 평가
InfoVQA 인포그래픽 이해
SROIE 영수증 정보 추출

6.4 환각 평가

벤치마크 설명
POPE 객체 존재 환각
HallusionBench 환각 종합 평가
MMHal-Bench 멀티모달 환각

7. 성능 vs 효율성 트레이드오프

성능 (Accuracy)
     ^
     |     * GPT-4V
     |          * Gemini Ultra
     |     * Claude 3 Opus
     |               * Gemini 1.5 Pro
     |          * GPT-4o
     |     * Qwen2-VL-72B
     |          * LLaVA-NeXT-72B
     |     * Pixtral Large
     |          * Qwen2-VL-7B
     |     * LLaVA-NeXT-7B
     |          * Pixtral 12B
     |     * PaliGemma-3B
     +---------------------------------> 효율성 (Speed/Cost)

8. 참고 자료