ML | DL/딥러닝 논문

5분 컷 논문 리뷰: 왜 언어 모델은 환각을 일으킬까?

Leeys 2025. 9. 15. 23:46
반응형

Why Language Models Hallucinate
논문을 요악한 내용 입니다.


연구 배경 & 문제의식

LLM이 생성하는 **환각(hallucination)**은 실제 응용에서 가장 큰 문제 중 하나입니다.
환각이란 모르면서 아는 척하고, 그럴듯하지만 사실과 다른 응답을 내놓는 현상입니다.
이 논문은 환각을 “모델의 실수”로만 보지 않고,
훈련·평가 절차 자체가 ‘추측’을 보상하도록 설계된 구조적 문제라고 분석합니다.
즉, LLM은 “모른다”라고 말하는 것보다 “틀려도 찍는다”가 더 높은 점수를 받기 때문에
학습과정에서 점점 자신감 있는 추측을 하도록 진화한다는 것이 핵심 주장입니다.


환각의 통계적 원인 (Pretraining 단계)

저자들은 환각을 이진 분류 문제로 환원해 설명합니다.
훈련 데이터는 (+) 유효 출력과 (−) 오류 출력이 섞여 있고,
모델은 임계값을 기준으로 이들을 분류하도록 학습됩니다.

핵심 관계식

  • err: 언어 모델의 생성 오류율
  • erriiv: "이것이 유효한가?" 이진 분류에서의 오류율
  • δ: 모델의 확률 보정(calibration) 정도

이 관계는 IIV misclassification이 높으면 generative error도 커질 수밖에 없음을 보여줍니다.


환각을 유발하는 주요 요인

  • Arbitrary Facts (임의의 사실)
    • 학습 데이터에서 단 1번 등장하는 프롬프트(singleton rate)가 많을수록 환각 ↑
    • Good-Turing의 missing mass 개념과 유사
  • Poor Models (부적합한 모델)
    • 모델 용량·아키텍처 부족 → 긴 문맥 의존성 학습 실패
  • Computational Hardness (계산 난이도)
    • 계산적으로 어려운 문제(예: 암호 해독, 수학 문제)에서 발생
  • Distribution Shift (분포 변화)
    • 훈련 데이터와 크게 다른 OOD 프롬프트에서 발생
  • GIGO (Garbage In, Garbage Out)
    • 데이터셋 자체에 오류가 많을 때 모델도 오류를 그대로 학습

환각의 지속 원인 (Post-training 단계)

post-training 단계(RLHF, SFT 등)는 환각을 줄이려 하지만,
대부분의 벤치마크는 **이진 점수(0-1)**를 사용 →

  • IDK 응답: 0점
  • 틀린 답: 0점
    따라서 기대 점수를 최대화하려면 모른다고 말하기보다 찍는 게 유리합니다.
    결과적으로 사후 훈련 이후에도 환각은 지속됩니다.

제안된 해결책

  1. 명시적 신뢰도 목표 (Explicit Confidence Targets)
    • 평가 지침에 확률 임계값 tt 포함
    • 예: 확신도 ≥ t일 때만 답변, 그렇지 않으면 "모르겠습니다"
    • 이렇게 하면 behavioral calibration 달성 → 불확실할 때 IDK 선택이 최적 행동
  2. 주류 벤치마크에 통합 (Mainstream Integration)
    • 별도의 환각 평가를 만드는 것이 아니라
    • SWE-bench, MMLU 등 주요 벤치마크에 IDK 보상을 추가 →
      모델이 "아는 것만 말하는" 방향으로 학습 유도

주요 인사이트

  • 환각은 우연한 버그가 아니라 구조적 산물
  • 데이터 편향, 분포 변화, 모델 용량, 계산 난이도 등
    다양한 통계적 요인이 합쳐져 발생
  • 훈련/평가 메트릭이 찍기를 보상 → 시스템적으로 강화

비판점 & 한계

  • 이론 중심 분석 → 실제 대규모 모델의 실험적 검증은 제한적
  • IDK 보상 도입이 실제 사용자 경험에서 유용한지 (너무 자주 “모르겠다” 할 위험)
  • 평가 변경이 생태계 전체에 미치는 영향 고려 필요
    (벤치마크 간 비교 가능성 저하)

앞으로의 연구 방향

  • Uncertainty-Aware Training
    • 모델이 확신도를 스스로 예측하고 calibrate하도록 학습
  • Fine-grained Hallucination Benchmarks
    • 단순 정답/오답이 아니라
      • 사실 오류 / 과도한 일반화 / 무근거 추측 등 세분화 평가
  • Human Preference Alignment
    • 사람은 “정확 + 정직” 모델을 선호
    • RLHF 시 IDK 응답에도 긍정 보상 제공 → 정직성 강화
  • Multi-Stage Mitigation
    • Pretraining + SFT + RLHF + Online Evaluation에서
      전 단계에 걸친 환각 관리 전략 필요

한줄 코멘트

환각은 모델이 “몰라서”가 아니라 “점수를 최대화”하려고 생기는 부작용
평가 기준부터 바꾸지 않으면 LLM은 계속 자신감 있게 틀릴 것이다.
정답뿐 아니라 정직한 불확실성 표현에도 보상을 주는 생태계가 필요하다.

 
 
 
자세한 논문 내용은
https://arxiv.org/pdf/2509.04664

반응형