ML | DL/딥러닝의 여러가지 학습 방법론

[5편] 강화학습 & RLHF – 알파고부터 ChatGPT까지, 스스로 배우는 AI의 비밀

Leeys 2025. 9. 18. 20:02
반응형

AI가 스스로 배우고 성장할 수 있다면 어떨까요?
2016년 알파고가 이세돌 9단을 이겼을 때,
저도 TV 앞에서 “와, 진짜 AI가 사람을 이길 수도 있구나…” 하고 놀랐던 기억이 있습니다. 😲
오늘은 AI가 스스로 시도·실패·보상을 통해 학습하는 방법,
강화학습(Reinforcement Learning) RLHF(Human Feedback)을 깊이 살펴봅니다.

 


지도·비지도와 뭐가 다를까?

강화학습이랑 무엇일까요?

 

지도학습은 정답 라벨이 있고,
비지도학습은 라벨 없이 패턴을 찾습니다.
강화학습은 정답조차 없습니다. 대신 보상(Reward)이 있습니다.

AI는 행동을 시도하고 → 결과를 얻고 → 보상을 계산해 → 다음 행동을 더 잘하도록 학습합니다.
마치 반려견이 간식을 먹기 위해 훈련하는 것과 비슷합니다. 🐶


Reinforcement Learning – 시도와 보상의 끝없는 순환

강화학습의 기본 구조는 다음과 같습니다.

  • Agent (행동 주체) : 학습하는 모델
  • Environment (환경) : 모델이 행동을 시도하는 공간
  • Action (행동) : 모델이 취하는 선택
  • Reward (보상) : 행동의 결과로 얻는 점수
  • Policy (정책) : 어떤 행동을 할지 결정하는 규칙

💡 실생활 예시

  • 알파고 : 바둑에서 한 수 둘 때마다 승리 확률이 높아지는 방향으로 학습
  • 로봇 청소기 : 방 안을 탐색하며 청소 효율이 높아지는 경로 학습
  • 게임 AI : 점수(Reward)를 최대화하는 방향으로 행동

제가 참여한 프로젝트 중에는 공장 로봇 팔 경로 최적화가 있었는데,
로봇이 여러 경로를 시도해보며 가장 빠르고 안전한 경로를 찾아가는 방식으로
강화학습을 적용해 성공했습니다.


Exploration vs Exploitation – 모험과 활용의 균형

강화학습에서 중요한 개념이 탐험(Exploration)활용(Exploitation)입니다.
모델은 새로운 행동을 시도해 더 좋은 보상을 얻을지 탐험하고,
이미 알고 있는 최적의 행동을 반복해 보상을 얻는 활용 사이에서 균형을 맞춰야 합니다.

이 부분이 사람과도 닮았습니다.
새로운 시도를 할지, 아니면 익숙한 방법을 쓸지 늘 고민하잖아요. 😉


RLHF (Reinforcement Learning with Human Feedback)

RLHF는 사람의 피드백을 보상 신호로 활용하는 방식입니다.
ChatGPT 같은 대형 언어 모델이 사람의 의도에 맞게 동작하는 이유가 바로 이것입니다.

RLHF 학습 과정

  1. 사전학습(Pretraining) : 인터넷 텍스트로 언어 모델 학습
  2. 감독학습(Supervised Fine-Tuning) : 사람이 만든 예시로 모델 미세 조정
  3. 보상 모델 학습(Reward Model) : 사람이 모델 출력에 점수를 매김
  4. 강화학습 단계 : 모델이 더 높은 보상을 받는 방향으로 업데이트

결과적으로 모델은 사람이 좋아하는 답변 스타일을 학습하게 됩니다.
제가 GPT 모델을 사용할 때도, 초창기보다 훨씬 사람같이 대화한다는 느낌을 받았어요.


💡 강화학습 & RLHF 장점과 한계

장점

  • 라벨 데이터가 부족한 상황에서도 스스로 학습 가능
  • 시뮬레이션 환경에서 무한히 데이터 생성 가능
  • 장기적인 보상을 고려한 의사결정 가능

한계

  • 학습 속도가 느리고, 많은 시뮬레이션 필요
  • 잘못된 보상 설계 → 엉뚱한 행동 학습 가능
  • RLHF는 사람의 주관적 판단이 개입 → 편향 가능성

스토리로 다시 정리

강화학습은 아이가 시행착오를 거쳐 성장하는 과정과 비슷하고,
RLHF는 사람이 옆에서 코치처럼 피드백을 주며 방향을 잡아주는 과정입니다.
이 조합으로 모델은 더 똑똑하고 사람 친화적인 결과를 내게 됩니다.


결론 – AI가 사람처럼 배우는 순간

오늘은 강화학습RLHF를 통해
AI가 어떻게 스스로 배우고, 사람의 의도에 맞춰 행동하도록 진화하는지 살펴봤습니다.
이 개념만 이해해도 알파고, ChatGPT 같은 AI의 작동 원리가 훨씬 잘 보입니다. 🔥

다음 편에서는 Active Learning, Data Augmentation, Synthetic Data를 다뤄
데이터 효율과 품질을 높이는 전략을 공유할 예정입니다.

여러분은 강화학습을 직접 적용해 본 경험이 있나요?
게임 AI, 로봇, 추천 시스템 등에서 시도해본 경험을 댓글로 남겨 주세요.👇

 

 

 

다음 편은 아래에 있습니다!

https://machineindeep.tistory.com/118

 

[6편] Active Learning · Data Augmentation · Synthetic Data – 데이터 효율 극대화 전략

AI 모델의 성능은 데이터에서 결정됩니다.하지만 현실에서는 데이터가 부족하거나, 라벨링 비용이 너무 비싸거나,희귀 케이스가 부족해 모델이 편향될 때가 많습니다.오늘은 이런 문제를 해결

machineindeep.tistory.com

 

 

반응형