Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

ML | DL/LLM 아는척좀 해보자

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

Leeys 2025. 9. 17. 13:02

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”
“Claude는 글 잘 쓰는 AI 아니야?”

이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는
단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했습니다.

이번 글에서는 Claude 3의 모델 구성, 성능, 비전 기능, 안전성, 그리고
GPT-5·Gemini와 어떤 점에서 다른지까지 깊게 들어가 보겠습니다.

모델 패밀리 – Opus, Sonnet, Haiku

Claude 3 모델은 3가지 버전으로 제공됩니다:

Claude 3 Opus
가장 강력한 모델.
복잡한 수학, 추론, 장문 분석, 코딩에서 최고 성능을 보여줍니다.
GPQA, MMLU 같은 까다로운 벤치마크에서 SOTA(State-of-the-Art) 달성.
Claude 3 Sonnet
Opus보다 가볍지만 여전히 강력한 밸런스 모델.
빠른 응답 속도 + 높은 정확도로 업무용으로 많이 쓰입니다.
Claude 3 Haiku
가장 가볍고 저렴한 모델.
실시간 챗봇, 대량 호출, 단순 질의응답에 적합.

💡 현업 활용 팁:
복잡한 데이터 분석 → Opus
고객지원 챗봇, 자동화 → Haiku
일반 지식 검색, 문서 요약 → Sonnet

비전 기능 – 이제 이미지를 읽는다

Claude 3 시리즈의 가장 큰 변화는 멀티모달 기능입니다.
단순히 텍스트만 처리하던 시대는 끝났습니다.

보고서 스크린샷 업로드 → 표 내용 추출 & 요약
차트·그래프 → 주요 인사이트 뽑아줌
수학 문제 이미지 → 단계별 풀이 제공
사진 → 설명 생성, 텍스트 인식(OCR)

Anthropic은 AI2D, MMMU, ChartQA 같은 벤치마크에서
높은 점수를 기록해 GPT-4V 수준의 이미지 이해력을 입증했습니다.

성능 – 벤치마크로 확인하는 Claude 3

Claude 3는 추론, 수학, 코딩, 멀티모달 모두에서
이전 Claude 2를 뛰어넘고 다른 프런티어 모델들과 경쟁합니다.

GPQA Diamond: 0-shot CoT 50.4%, 5-shot CoT 53.3%
MATH (Maj@32): 73.7% – 복잡한 수학 문제 해결력 ↑
HumanEval (코딩): 84.9% – 코드 작성 및 디버깅에 강함
컨텍스트 길이: 200K 토큰 지원 (NIAH 테스트에서 98.3% 리콜)
멀티모달: AI2D 0-shot 89.2%, DocVQA·MathVista·ChartQA에서 높은 점수

즉, Claude 3는 “장문을 잘 읽고 이해하고, 단계별 reasoning을 잘 한다”에 최적화된 모델입니다.

주요 개선점

거절률 감소:
과거 Claude 2.1은 무해한 질문에도 “할 수 없다”고 거절하는 경우가 많았지만,
Claude 3는 XSTest에서 거절률이 35% → 9%로 대폭 감소.
사실성(Factuality) 향상:
모르면 솔직히 “모르겠다”고 답하고, 잘못된 주장 빈도 줄어듦.
100Q Hard 평가에서 정확도 2배 향상.
다국어 지원 강화:
독일어, 프랑스어, 스페인어 등 주요 유럽 언어에서 MMLU 80% 이상.
Function Calling 개선:
외부 앱·워크플로우와 연결 쉬워져 자동화에 적합.

안전성과 책임감

Anthropic은 모델을 “Helpful, Honest, Harmless”라는 철학으로 설계했습니다.
실시간 분류기로 정치 캠페인, 감시, 차별적 의사결정 등
금지된 사용 사례를 감지하고 차단합니다.

또한 Catastrophic Risk 평가(생물·사이버·자율 작업 위험)에서
Claude 3는 안전 수준 ASL-2로 분류되며,
고위험 사용 사례에 대해서는 추가 보호 장치를 적용합니다.

한계도 있다

실시간 검색 불가: 2023년 8월까지의 데이터만 학습
환각 가능성: 잘못된 정보 제공 가능성은 여전히 존재
저자원 언어 약점: 희귀 언어에서는 품질이 낮음
탈옥(jailbreak) 가능성: 프롬프트 엔지니어링으로 제약 회피 가능

오늘의 정리

Claude 3는 AI 비서 특화 + 멀티모달 강화 모델
Opus·Sonnet·Haiku로 용도별 선택 가능
200K 토큰까지 장문 이해 가능 → 리서치, 문서 분석 강점
거절률 ↓, 사실성 ↑, 다국어 지원 ↑ → GPT-4o와 경쟁 가능
안전 설계 철저하지만, 여전히 환각 가능 → 검증 필요

https://machineindeep.tistory.com/101

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대

machineindeep.tistory.com

https://machineindeep.tistory.com/102

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했

machineindeep.tistory.com

https://machineindeep.tistory.com/97

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신

machineindeep.tistory.com

출처 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

저작자표시 (새창열림)

'ML | DL > LLM 아는척좀 해보자' 카테고리의 다른 글

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3 (1)	2025.09.17
Gemini 알고 아는 척 좀 해보자 – 1편: Google의 최신 AI, Gemini 2.X 완전 정리 (3)	2025.09.17
GPT-5 알고 아는 척 좀 해보자 – 3편: 내부 아키텍처 & 설계 뜯어보기 (1)	2025.09.16
GPT-5 알고 아는 척 좀 해보자 – 2편: 다른 프런티어 LLM들과의 비교 & 남은 과제 (1)	2025.09.16
GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5 (2)	2025.09.16

현재글Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

나의 공부기록

Computer Vision 분야에 관심이 있습니다.

gemini, Quantization, deepseek, ONNX, DL, Python, CNN, machinelearning, LoRa, GPT, ML, 데이터분석, tensorflow, MLOps, VLM, pytorch, tensorrt, 머신러닝, llm, 딥러닝,

Today :
Yesterday :

나의 공부기록