Claude 4 Sonnet¶
개요¶
- 개발사: Anthropic
- 출시일: 2025년 5월
- 모델 계열: Claude 4 (4세대)
- Constitutional AI: Anthropic의 Constitutional AI 방법론 적용. 인간의 가치와 윤리적 원칙을 기반으로 훈련되어 유해한 출력을 최소화. Claude 3.7 Sonnet 대비 단축키/편법 사용 65% 감소.
사양¶
| 항목 | 내용 |
|---|---|
| Context Window | 200,000 tokens |
| 최대 출력 토큰 | 16,000 tokens |
| 모델 유형 | Hybrid (즉각 응답 + Extended Thinking) |
| 비전 지원 | 지원 |
| 도구 사용 | 병렬 도구 실행 지원 |
가격¶
| 타입 | 가격 (per 1M tokens) |
|---|---|
| Input | $3.00 |
| Output | $15.00 |
| Prompt Caching Write | $3.75 |
| Prompt Caching Read | $0.30 |
주요 특징¶
- Claude 3.7 Sonnet의 후속 모델로 대폭 개선
- SWE-bench Verified 72.7% 달성 (최고 수준)
- 지능, 비용, 속도의 최적 균형
- Extended Thinking과 도구 사용 결합 지원 (베타)
- 지시사항 준수 능력 향상
- 무료 사용자에게도 제공
장점¶
- Opus 4 대비 5배 저렴한 가격
- 대부분의 일반적인 작업에서 Opus 4에 근접한 성능
- 빠른 응답 속도
- 복잡한 지시사항의 정확한 이해 및 실행
- 코딩 작업에서 더 외과적(surgical) 수준의 편집
- 명확한 추론 과정과 미적으로 우수한 출력
단점/한계¶
- 가장 복잡한 작업에서는 Opus 4에 미치지 못함
- 장시간 지속 작업에서 Opus 4보다 성능 저하 가능
- Extended Thinking 없이는 추론 집약적 작업에서 제한적
적합한 사용 사례¶
- 일상적인 코딩 작업 및 코드 리뷰
- 에이전트 기반 워크플로우 자동화
- 대규모 배포가 필요한 엔터프라이즈 애플리케이션
- GitHub Copilot 등 코딩 어시스턴트
- 고품질 콘텐츠 생성
- 복잡한 지시사항이 필요한 고객 대응 시스템
벤치마크 성능¶
| 벤치마크 | 점수 |
|---|---|
| SWE-bench Verified | 72.7% |
| GPQA Diamond | 70.0% (Extended Thinking 없이) |
| MMMLU | 85.4% (Extended Thinking 없이) |
| AIME | 33.1% (Extended Thinking 없이) |
파트너 평가¶
- GitHub: 에이전트 시나리오에서 탁월한 성능, GitHub Copilot의 코딩 에이전트로 채택
- Sourcegraph: 더 오래 작업에 집중, 문제를 더 깊이 이해, 더 우아한 코드 품질
- Augment Code: 더 높은 성공률, 더 외과적인 코드 편집