ML | DL/LLM 아는척좀 해보자

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

Leeys 2025. 9. 17. 13:02
반응형

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”
“Claude는 글 잘 쓰는 AI 아니야?”

이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는
단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했습니다.

이번 글에서는 Claude 3의 모델 구성, 성능, 비전 기능, 안전성, 그리고
GPT-5·Gemini와 어떤 점에서 다른지까지 깊게 들어가 보겠습니다.


모델 패밀리 – Opus, Sonnet, Haiku

Claude가 뭐지..?

 

Claude 3 모델은 3가지 버전으로 제공됩니다:

  • Claude 3 Opus
    가장 강력한 모델.
    복잡한 수학, 추론, 장문 분석, 코딩에서 최고 성능을 보여줍니다.
    GPQA, MMLU 같은 까다로운 벤치마크에서 SOTA(State-of-the-Art) 달성.
  • Claude 3 Sonnet
    Opus보다 가볍지만 여전히 강력한 밸런스 모델.
    빠른 응답 속도 + 높은 정확도로 업무용으로 많이 쓰입니다.
  • Claude 3 Haiku
    가장 가볍고 저렴한 모델.
    실시간 챗봇, 대량 호출, 단순 질의응답에 적합.

💡 현업 활용 팁:
복잡한 데이터 분석 → Opus
고객지원 챗봇, 자동화 → Haiku
일반 지식 검색, 문서 요약 → Sonnet


비전 기능 – 이제 이미지를 읽는다

Claude 3 시리즈의 가장 큰 변화는 멀티모달 기능입니다.
단순히 텍스트만 처리하던 시대는 끝났습니다.

  • 보고서 스크린샷 업로드 → 표 내용 추출 & 요약
  • 차트·그래프 → 주요 인사이트 뽑아줌
  • 수학 문제 이미지 → 단계별 풀이 제공
  • 사진 → 설명 생성, 텍스트 인식(OCR)

Anthropic은 AI2D, MMMU, ChartQA 같은 벤치마크에서
높은 점수를 기록해 GPT-4V 수준의 이미지 이해력을 입증했습니다.


성능 – 벤치마크로 확인하는 Claude 3

Claude 3는 추론, 수학, 코딩, 멀티모달 모두에서
이전 Claude 2를 뛰어넘고 다른 프런티어 모델들과 경쟁합니다.

  • GPQA Diamond: 0-shot CoT 50.4%, 5-shot CoT 53.3%
  • MATH (Maj@32): 73.7% – 복잡한 수학 문제 해결력 ↑
  • HumanEval (코딩): 84.9% – 코드 작성 및 디버깅에 강함
  • 컨텍스트 길이: 200K 토큰 지원 (NIAH 테스트에서 98.3% 리콜)
  • 멀티모달: AI2D 0-shot 89.2%, DocVQA·MathVista·ChartQA에서 높은 점수

즉, Claude 3는 “장문을 잘 읽고 이해하고, 단계별 reasoning을 잘 한다”에 최적화된 모델입니다.


주요 개선점

  1. 거절률 감소:
    과거 Claude 2.1은 무해한 질문에도 “할 수 없다”고 거절하는 경우가 많았지만,
    Claude 3는 XSTest에서 거절률이 35% → 9%로 대폭 감소.
  2. 사실성(Factuality) 향상:
    모르면 솔직히 “모르겠다”고 답하고, 잘못된 주장 빈도 줄어듦.
    100Q Hard 평가에서 정확도 2배 향상.
  3. 다국어 지원 강화:
    독일어, 프랑스어, 스페인어 등 주요 유럽 언어에서 MMLU 80% 이상.
  4. Function Calling 개선:
    외부 앱·워크플로우와 연결 쉬워져 자동화에 적합.

안전성과 책임감

Anthropic은 모델을 “Helpful, Honest, Harmless”라는 철학으로 설계했습니다.
실시간 분류기로 정치 캠페인, 감시, 차별적 의사결정 등
금지된 사용 사례를 감지하고 차단합니다.

또한 Catastrophic Risk 평가(생물·사이버·자율 작업 위험)에서
Claude 3는 안전 수준 ASL-2로 분류되며,
고위험 사용 사례에 대해서는 추가 보호 장치를 적용합니다.


한계도 있다

  • 실시간 검색 불가: 2023년 8월까지의 데이터만 학습
  • 환각 가능성: 잘못된 정보 제공 가능성은 여전히 존재
  • 저자원 언어 약점: 희귀 언어에서는 품질이 낮음
  • 탈옥(jailbreak) 가능성: 프롬프트 엔지니어링으로 제약 회피 가능

오늘의 정리

  • Claude 3는 AI 비서 특화 + 멀티모달 강화 모델
  • Opus·Sonnet·Haiku로 용도별 선택 가능
  • 200K 토큰까지 장문 이해 가능 → 리서치, 문서 분석 강점
  • 거절률 ↓, 사실성 ↑, 다국어 지원 ↑ → GPT-4o와 경쟁 가능
  • 안전 설계 철저하지만, 여전히 환각 가능 → 검증 필요

 


https://machineindeep.tistory.com/101

 

DeepSeek 알고 아는 척 좀 해보자 – 단편: 671B 파라미터의 괴물, DeepSeek-V3

“요즘 오픈소스 LLM 중에 핫한 게 뭐야?”바로 그 중 하나 DeepSeek-V3입니다.이 글 하나로 DeepSeek-V3의 핵심 설계와 특징을 한 번에 이해해 봅시다.모델 개요 DeepSeek-AI는 총 671B 파라미터를 가진 초대

machineindeep.tistory.com

 

https://machineindeep.tistory.com/102

 

Claude 3 알고 아는 척 좀 해보자 – 단편: Opus·Sonnet·Haiku, 새로운 AI 비서 삼형제

“GPT-5랑 Gemini 얘기만 하다가 Claude는 뭐야?”“Claude는 글 잘 쓰는 AI 아니야?”이제는 아닙니다. Anthropic의 Claude 3 모델 패밀리는단순히 글 잘 쓰는 챗봇을 넘어서 멀티모달 reasoning 모델로 진화했

machineindeep.tistory.com

 

https://machineindeep.tistory.com/97

 

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

GPT-5가 드디어 등장했습니다.AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신

machineindeep.tistory.com

 

 

 

출처 : https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf

반응형