“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”
“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는
단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했습니다.
이번 글에서는 Claude 3의 모델 구성, 성능, 비전 기능, 안전성, 그리고
GPT-5·Gemini와 어떤 점에서 다른지까지 깊게 들어가 보겠습니다.
모델 패밀리 – Opus, Sonnet, Haiku
Claude 3 모델은 3가지 버전으로 제공됩니다:
- Claude 3 Opus
가장 강력한 모델.
복잡한 수학, 추론, 장문 분석, 코딩에서 최고 성능을 보여줍니다.
GPQA, MMLU 같은 까다로운 벤치마크에서 SOTA(State-of-the-Art) 달성. - Claude 3 Sonnet
Opus보다 가볍지만 여전히 강력한 밸런스 모델.
빠른 응답 속도 + 높은 정확도로 업무용으로 많이 쓰입니다. - Claude 3 Haiku
가장 가볍고 저렴한 모델.
실시간 챗봇, 대량 호출, 단순 질의응답에 적합.
💡 현업 활용 팁:
복잡한 데이터 분석 → Opus
고객지원 챗봇, 자동화 → Haiku
일반 지식 검색, 문서 요약 → Sonnet
비전 기능 – 이제 이미지를 읽는다
Claude 3 시리즈의 가장 큰 변화는 멀티모달 기능입니다.
단순히 텍스트만 처리하던 시대는 끝났습니다.
- 보고서 스크린샷 업로드 → 표 내용 추출 & 요약
- 차트·그래프 → 주요 인사이트 뽑아줌
- 수학 문제 이미지 → 단계별 풀이 제공
- 사진 → 설명 생성, 텍스트 인식(OCR)
Anthropic은 AI2D, MMMU, ChartQA 같은 벤치마크에서
높은 점수를 기록해 GPT-4V 수준의 이미지 이해력을 입증했습니다.
성능 – 벤치마크로 확인하는 Claude 3
Claude 3는 추론, 수학, 코딩, 멀티모달 모두에서
이전 Claude 2를 뛰어넘고 다른 프런티어 모델들과 경쟁합니다.
- GPQA Diamond: 0-shot CoT 50.4%, 5-shot CoT 53.3%
- MATH (Maj@32): 73.7% – 복잡한 수학 문제 해결력 ↑
- HumanEval (코딩): 84.9% – 코드 작성 및 디버깅에 강함
- 컨텍스트 길이: 200K 토큰 지원 (NIAH 테스트에서 98.3% 리콜)
- 멀티모달: AI2D 0-shot 89.2%, DocVQA·MathVista·ChartQA에서 높은 점수
즉, Claude 3는 “장문을 잘 읽고 이해하고, 단계별 reasoning을 잘 한다”에 최적화된 모델입니다.
주요 개선점
- 거절률 감소:
과거 Claude 2.1은 무해한 질문에도 “할 수 없다”고 거절하는 경우가 많았지만,
Claude 3는 XSTest에서 거절률이 35% → 9%로 대폭 감소. - 사실성(Factuality) 향상:
모르면 솔직히 “모르겠다”고 답하고, 잘못된 주장 빈도 줄어듦.
100Q Hard 평가에서 정확도 2배 향상. - 다국어 지원 강화:
독일어, 프랑스어, 스페인어 등 주요 유럽 언어에서 MMLU 80% 이상. - Function Calling 개선:
외부 앱·워크플로우와 연결 쉬워져 자동화에 적합.
안전성과 책임감
Anthropic은 모델을 “Helpful, Honest, Harmless”라는 철학으로 설계했습니다.
실시간 분류기로 정치 캠페인, 감시, 차별적 의사결정 등
금지된 사용 사례를 감지하고 차단합니다.
또한 Catastrophic Risk 평가(생물·사이버·자율 작업 위험)에서
Claude 3는 안전 수준 ASL-2로 분류되며,
고위험 사용 사례에 대해서는 추가 보호 장치를 적용합니다.
한계도 있다
- 실시간 검색 불가: 2023년 8월까지의 데이터만 학습
- 환각 가능성: 잘못된 정보 제공 가능성은 여전히 존재
- 저자원 언어 약점: 희귀 언어에서는 품질이 낮음
- 탈옥(jailbreak) 가능성: 프롬프트 엔지니어링으로 제약 회피 가능
오늘의 정리
- Claude 3는 AI 비서 특화 + 멀티모달 강화 모델
- Opus·Sonnet·Haiku로 용도별 선택 가능
- 200K 토큰까지 장문 이해 가능 → 리서치, 문서 분석 강점
- 거절률 ↓, 사실성 ↑, 다국어 지원 ↑ → GPT-4o와 경쟁 가능
- 안전 설계 철저하지만, 여전히 환각 가능 → 검증 필요
https://machineindeep.tistory.com/101
DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3
“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대
machineindeep.tistory.com
https://machineindeep.tistory.com/102
Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제
“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했
machineindeep.tistory.com
https://machineindeep.tistory.com/97
GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5
GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신
machineindeep.tistory.com
출처 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
'ML | DL > LLM 아는척좀 해보자' 카테고리의 다른 글
DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3 (1) | 2025.09.17 |
---|---|
Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리 (3) | 2025.09.17 |
GPT-5 알고 아는 척 좀 해보자 – 3편: 내부 아키텍처 & 설계 뜯어보기 (1) | 2025.09.16 |
GPT-5 알고 아는 척 좀 해보자 – 2편: 다른 프런티어 LLM들과의 비교 & 남은 과제 (1) | 2025.09.16 |
GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5 (2) | 2025.09.16 |