ML | DL/LLM 아는척좀 해보자

GPT-5 알고 아는 척 좀 해보자 – 1편: 처음 보는 사람도 5분 만에 이해하는 GPT-5

Leeys 2025. 9. 16. 22:30
반응형

그는 GPT5에 대해 알게되었다.

 

 

GPT-5가 드디어 등장했습니다.
AI 커뮤니티에서 가장 많이 들리는 말은 “이번엔 진짜 한 단계 진화했다”는 것.
그런데 구체적으로 뭐가 달라졌는지, 실제 업무에서 어떤 의미가 있는지 궁금하신 분들 많죠?

오늘은 OpenAI가 공개한 GPT-5 시스템 카드를 바탕으로
회의에서, 팀 브리핑에서, 심지어 술자리에서 “나 GPT-5 좀 아는 사람” 소리를 들을 수 있을 정도로 깊이 정리해 보겠습니다.


GPT-5 = 라우팅 듀오 (gpt-5-main + gpt-5-thinking)

GPT-5의 가장 큰 변화는 듀얼 모델 구조입니다.
이전 모델들(GPT-4o, o3)은 단일 모델이었지만, GPT-5는 두 모델이 짝을 이루어 돌아갑니다.

  • gpt-5-main
    • 빠르고 저렴
    • 일상 질의, 간단한 작업에 최적화
    • Latency(응답속도)가 매우 짧아 프로덕션 API 사용에 적합
  • gpt-5-thinking
    • 느리지만 Chain-of-Thought(CoT)를 적극 활용
    • 복잡한 문제 풀이, 수학 증명, 심층 분석, 멀티스텝 계획 등에 특화
    • hallucination(환각)·deception(기만) 방지 로직이 강화됨

그리고 라우터(router)가 질문을 보고 자동으로 모델을 선택합니다.
복잡한 질문이면 thinking 모델로, 간단한 질문이면 main 모델로 보내는 식이죠.
덕분에 사용자는 어떤 모델을 쓸지 고민할 필요 없이 속도·비용·사고 깊이의 균형을 자연스럽게 누릴 수 있습니다.

회의에서 던질 수 있는 한 줄
“GPT-5는 라우팅 시스템 덕분에 쉬운 질문은 빠르게, 어려운 질문은 깊게 생각하는 구조라 비용 효율이 훨씬 좋아졌어요.”


생각하는 AI – 더 깊고, 더 길게

GPT-5는 단순히 “빠른 모델”이 아니라 생각하는 모델입니다.
특히 gpt-5-thinking은 CoT를 적극적으로 활용해 복잡한 문제를 단계별로 풀어나갑니다.

  • 맥락 기억력 폭발
    • 최대 400k 토큰 컨텍스트 → 책 한 권 분량을 한 번에 처리 가능
    • 프로젝트 문서, 회의록, 코드베이스를 통째로 집어넣고 분석 가능
  • 성능 향상 수치
    • AIME 2025 수학 대회 94.6% → 사실상 인간 상위권
    • SWE-Bench Verified pass@1 74.9% → 코드 베이스 수정도 잘함
    • HealthBench-Hard에서 8배 낮은 의료 대화 오류율

실무 포인트
PM이나 리서치 팀은 이제 “이 모델은 짧은 프롬프트에 적합해?”보다
“이 모델은 긴 문서와 다단계 추론도 잘 소화해?”를 물어야 합니다.
GPT-5는 이 질문에 “YES”라고 답할 가능성이 높습니다.


안전성 대폭 강화 – 거부에서 안전한 완료로

OpenAI는 GPT-4에서 쓰던 Hard Refusal(강제 거부) 방식을 버리고,
GPT-5부터는 Safe-Completion(안전한 완료) 방식을 채택했습니다.

  • 단순히 “그건 할 수 없습니다” → ❌
  • 대신 안전하지만 유용한 답 → ✅

즉, 민감한 질문에도 완전히 침묵하지 않고,
도움이 되는 범위에서 최대한 답변을 제공합니다.

환각(Hallucination) 대폭 감소

  • gpt-5-main: GPT-4o 대비 26% 감소
  • gpt-5-thinking: o3 대비 65% 감소
  • 주요 사실 오류 78% 감소

아첨(Sycophancy) 감소

  • 사용자 허위 주장에 맞장구 치는 비율 70%↓
  • 더 솔직하고 독립적인 답변 제공

기만(Deception) 완화

  • 실패 가능성이 높은 문제에 대해 억지로 답을 꾸며내기보다 “모르겠다”라고 명확히 말함
  • 에이전트 모드에서 잘못된 도구 사용률 80%↓

고위험 도메인 2단계 모니터링

  • 생물/화학/보안 관련 질문은 빠른 분류기 → 세부 모니터링 모델 → 안전 필터
  • 위험한 요청은 계정 레벨에서 제어 가능 (API safety_identifier)

회의 멘트
“GPT-5는 거부 대신 Safe Completion을 써서, 안전하지만 유용한 답변을 주는 게 특징이에요. 환각률도 절반 이하로 떨어졌고요.”


성능 개선과 실전 활용 포인트

글쓰기

  • 보고서 작성 → 더 길고 일관성 있는 초안 생성
  • 블로그 포스팅, 이메일, 프레젠테이션 등 멀티모달 아웃풋 가능

코딩

  • 프론트엔드·백엔드 코드, 심지어 게임 데모까지 한 번에 생성
  • 버그 수정, 코드 리뷰, 테스트 코드 생성 지원

헬스케어

  • 의료 상담에서 실수율 낮아짐 → 의사 보조 도구로 가능성 ↑
  • 더 조심스럽고 근거 기반의 답변

다국어 & 멀티모달

  • 영어 외에도 한국어, 일본어, 프랑스어 등 성능 향상
  • 이미지 입력 → 안전성 점수 상향, 위험 콘텐츠 필터링 강화

협업 시 체크리스트

  • 모델 선택 시 gpt-5-main vs gpt-5-thinking 트레이드오프 이해
  • 프로젝트에 필요한 컨텍스트 길이(토큰 수) 확인
  • 모델 응답 속도·비용 예측 (라우팅 덕분에 최적화 가능)
  • 안전성 요건(생물/화학/보안 분야 포함) 사전 검토
  • 환각·아첨 감소가 중요한 도메인일수록 GPT-5 유리

회의에서 써먹을 멘트 모음

  • “GPT-5는 400k 컨텍스트 지원이라 프로젝트 전체 문서를 한 번에 넣어도 돼요.”
  • “gpt-5-thinking이 o3 대비 기만율 절반 이하로 떨어졌대요.”
  • “Safe-Completion 방식이라 예전처럼 무조건 ‘거절’하지 않고 도움 주는 답을 해줘요.”
  • “AIME 수학 대회 94.6%면 이제 고등 수학 문제는 사람보다 잘 푼다고 봐야죠.”

결론: GPT-5는 더 똑똑하고, 더 안전하고, 더 실용적

GPT-5는 단순히 GPT-4의 업그레이드가 아니라
“빠름 + 깊음 + 안전함” 이라는 세 가지를 동시에 잡은 진화형 모델입니다.

  • 라우팅 시스템 덕분에 효율적
  • 긴 문서와 복잡한 문제도 해결
  • 안전하지만 유용한 답변 제공
  • 환각·기만·아첨 모두 줄어듦

아직 완벽하지는 않지만,
독립 평가와 지속적인 모니터링을 통해 신뢰성을 더 높여가는 중입니다.


다음 편에서는 GPT-5 벤치마크 점수, 경쟁 모델(Claude, Gemini, Llama)와 비교,
그리고 기업이 GPT-5를 활용할 때 고려해야 할 전략 포인트
를 정리하겠습니다.

 

https://machineindeep.tistory.com/98

 

GPT-5 알고 아는 척 좀 해보자 – 2편: 다른 프런티어 LLM들과의 비교 & 남은 과제

GPT-5가 나왔다고 해서 모든 게 끝난 건 아니다.오늘은 GPT-5의 경쟁자들과의 차이점, 그리고 여전히 남아 있는 숙제를 이야기합니다.GPT-5 vs 다른 프런티어 LLM – 누가 더 강할까? GPT-5는 단순히 새

machineindeep.tistory.com

 

 

 

 

출처 : https://medium.com/@adnanmasood/openais-gpt-5-is-here-a-deep-dive-into-the-system-card-for-ai-that-s-smarter-safer-and-faster-bca6effe5a8d

반응형