ML | DL/LLM 아는척좀 해보자

GPT-5 알고 아는 척 좀 해보자 – 3편: 내부 아키텍처 & 설계 뜯어보기

Leeys 2025. 9. 16. 22:48
반응형

GPT-5 알고 아는 척 좀 해보자 표지

 

 

GPT-5는 단순히 GPT-4의 큰형 버전이 아닙니다.
이번 세대에서 OpenAI는 단일 모델(monolithic model) 방식에서 벗어나 다중 전문가 모델 + 라우터라는 새로운 패러다임으로 넘어갔습니다.
이번 편에서는 GPT-5의 아키텍처와 설계를 글로 길게 풀어보며, 이 모델이 어떻게 작동하는지 직관적으로 이해해 보겠습니다.


두 개의 두뇌, 하나의 팀

GPT-5는 하나의 모델이 아니라 두 개의 두뇌로 구성된 시스템입니다.
하나는 빠르고 효율적인 gpt-5-main, 다른 하나는 깊이 사고하는 gpt-5-thinking입니다.

gpt-5-main은 GPT-4o의 계보를 잇는 모델로, 일반 대화, 검색, 요약 같은 빠른 질의에 적합합니다.
응답 속도가 빠르고 비용도 낮아서, API나 ChatGPT에서 가장 많이 호출되는 모델이 바로 이 main입니다.

반면 gpt-5-thinking은 OpenAI의 고급 추론 라인(o3 계열)을 발전시킨 모델로,
질문을 단계별로 풀어내는 Chain-of-Thought(CoT)를 내부적으로 수행합니다.
답변하기 전에 "생각하기"를 먼저 학습했기 때문에 복잡한 문제 해결, 수학 증명, 코드 디버깅, 논리적 계획 수립에 매우 강합니다.

즉, GPT-5는 한쪽 뇌는 스피드를, 다른 쪽 뇌는 깊이를 담당하고,
이 둘이 협력해 가장 적합한 답을 내놓는 듀얼 브레인 시스템이라고 볼 수 있습니다.


라우터가 모든 걸 조율한다

사용자가 질문을 입력하면 가장 먼저 **라우터(router)**가 등장합니다.
라우터는 단순한 규칙 기반 분기기가 아니라, AI 기반 디스패처로 설계되어 있습니다.

라우터는 다음과 같은 정보를 종합해 어떤 모델을 쓸지 결정합니다:

  • 질문의 복잡도와 난이도
  • 모델이 스스로 추정한 불확실성
  • 비슷한 프롬프트에서 과거에 어떤 모델이 더 잘 맞았는지
  • 응답 속도나 비용에 대한 시스템 요구

예를 들어 "이 문장을 한국어로 번역해줘" 같은 단순한 요청은 main으로,
"이 논문 결과를 단계별로 해석하고, 관련 연구까지 연결해 정리해줘" 같은 복잡한 요청은 thinking으로 보냅니다.
사용자가 생각 모델의 토큰 할당량을 다 쓰면 라우터는 자동으로 mini나 nano 버전을 호출해 서비스를 지속합니다.

이 라우터는 시간이 갈수록 강화 학습을 통해 더 똑똑해집니다.
즉, 많이 쓸수록 사용자 맞춤형 라우팅이 정교해지고, 최적의 응답 경험을 제공합니다.


"생각"을 학습한 모델

GPT-5-thinking의 가장 큰 차별점은 추론 자체를 훈련시켰다는 점입니다.
기존 GPT-3.5/4 시절 모델은 답변을 바로 생성했지만, GPT-5는 답변 전에 내부에서 **스크래치패드(scratchpad)**를 만들어 단계별 reasoning을 수행합니다.

이 reasoning 단계는 단순히 보여주기용이 아니라, 훈련 과정에서 보상 신호로 사용됩니다.
사실적 정확성이 높은 reasoning 경로에 보상을 주고, 잘못된 경로나 정책 위반이 있는 경우 패널티를 부여했습니다.
그 결과 모델은 스스로 중간 단계를 검증하고, 오류가 있으면 수정하는 방향으로 발전했습니다.

결과적으로 GPT-5-thinking은 계획 → 추론 → 검증 → 답변이라는 프로세스를 갖춘 모델이 되었고,
이 덕분에 복잡한 문제나 모호한 질문에서도 더 신뢰성 있는 결과를 내놓습니다.


모델 크기와 변형

OpenAI는 파라미터 수를 공개하지 않았지만 GPT-4(약 180B 파라미터)보다 훨씬 큰 모델로 추정됩니다.
게다가 GPT-5는 full 모델뿐 아니라 mini, nano와 같은 경량 모델도 함께 제공합니다.
이런 변형 모델은 속도는 더 빠르지만 정확도를 조금 희생합니다.
덕분에 기업이나 개발자는 중요한 작업에는 full 모델,
프로토타입 제작이나 대규모 배치 작업에는 nano를 선택해 비용을 줄일 수 있습니다.


컨텍스트 길이와 멀티모달

GPT-5의 컨텍스트 윈도우는 최대 400,000 토큰입니다.
GPT-4의 32,000 토큰 한계에서 10배 이상 확장된 셈입니다.
이제 한 번의 프롬프트로 프로젝트 전체 문서, 코드베이스, 여러 권의 책을 넣어 분석할 수 있습니다.

또한 GPT-5는 멀티모달 기능을 이어받아 이미지 입력을 지원하고,
향후 오디오·음성까지 확장될 가능성이 높습니다.
OpenAI가 공개한 벤치마크에서 GPT-5는 이미지 이해 성능이 GPT-4 대비 큰 폭으로 개선된 것으로 나타났습니다.


오늘의 정리

  • GPT-5는 두 개의 두뇌(main + thinking)를 가진 하이브리드 모델
  • 라우터가 실시간으로 어떤 모델을 쓸지 결정 → 속도와 추론 깊이 모두 확보
  • thinking 모델은 “답변 전에 생각”하도록 훈련됨 → 복잡한 문제 해결에 강함
  • mini, nano 변형으로 다양한 비용·성능 옵션 제공
  • 컨텍스트 윈도우 400k, 멀티모달 입력 → 대규모 작업과 이미지 분석까지 가능

 

출처 : https://medium.com/@adnanmasood/openais-gpt-5-is-here-a-deep-dive-into-the-system-card-for-ai-that-s-smarter-safer-and-faster-bca6effe5a8d

반응형