
AI 프로젝트 회의에서 흔히 듣는 말:
“이번 모델은 정확도 95% 나왔습니다.”
그리고 보통 그 자리에 있는 누군가는 이렇게 말하죠.
“95%면 거의 완벽한 거 아니야? 배포하자!”
그런데 옆에 앉아 있던 엔지니어가 표정이 시큰둥해집니다.
왜 그럴까요? 오늘은 이 정확도(Accuracy)라는 숫자가
모든 걸 말해주지 않는 이유와,
우리가 함께 챙겨야 하는 다른 성능 지표들에 대해 이야기합니다.
정확도(Accuracy) – 전체 중 몇 개 맞췄나
정확도는 가장 직관적인 지표입니다.
전체 중에서 맞춘 비율이죠.
예시: 100개의 이메일 중에서
- 스팸 80개, 정상 메일 20개
- 모델이 스팸 95개로 예측했는데 그중 75개가 진짜 스팸이었다면?

겉으로 보기엔 좋아 보이지만, 문제가 있습니다.
정확도의 함정 – 불균형 데이터
만약 스팸 메일이 전체의 99%라고 해봅시다.
그냥 무조건 “스팸”이라고만 예측해도 정확도 99%입니다.
그런데 정상 메일 1%가 죄다 스팸함으로 가버리면?
고객 불만 폭주 → 프로젝트 실패.
이게 바로 엔지니어들이 "정확도만 보면 안 된다"고 말하는 이유예요.
데이터가 불균형할수록, 정밀도(Precision)와 재현율(Recall) 같은 지표가 더 중요해집니다.
정밀도(Precision) – 맞다고 한 것 중에 진짜 맞은 비율
정밀도는 이렇게 생각하면 쉽습니다.
"내가 YES라고 말한 것 중에서, 진짜 YES인 건 몇 개야?"
예시:
모델이 100개를 스팸이라고 예측 → 그중 80개만 진짜 스팸
→ 정밀도 = 80 / 100 = 80%
정밀도가 높을수록 "헛다리"를 덜 짚는다는 뜻입니다.
즉, 불필요한 경보(False Alarm)가 줄어듭니다.
재현율(Recall) – 진짜 맞는 걸 얼마나 잘 잡아냈나
재현율은 이렇게 생각하세요.
"세상에 있는 진짜 YES 중에서 내가 몇 개나 맞췄어?"
예시:
전체 스팸이 120개인데 모델이 그중 80개만 잡았다면
→ 재현율 = 80 / 120 = 66.7%
재현율이 높을수록 놓치는 게 적습니다.
즉, 빠뜨리는 케이스를 줄이고 싶을 때 중요한 지표입니다.
F1-Score – 정밀도와 재현율의 균형
F1-Score는 정밀도와 재현율의 조화 평균입니다.
둘 중 하나가 너무 낮으면 점수가 떨어집니다.
즉, 균형 잡힌 성능을 보여주는 지표입니다.
실무에서는 정밀도·재현율이 트레이드오프 관계일 때
F1-Score로 모델의 전반적인 “균형”을 판단합니다.
현실 프로젝트 예시
고객센터 챗봇
- 정밀도 ↑ = 불필요한 응답 줄이기 → 고객 만족 ↑
- 재현율 ↑ = 모든 문의 잘 캐치 → 놓치는 케이스 ↓
보안/이상행위 탐지
- 재현율 ↑ = 모든 이상 징후 잡기 (놓치면 사고!)
- 정밀도 ↓ = 다소 오탐 많아도 괜찮음 (사람이 확인 가능)
물류 불량 검출
- 정밀도 ↑ = 괜히 정상 제품 폐기 줄이기
- 재현율 ↑ = 불량 놓치면 고객 클레임 → 둘 다 중요!
협업 회의에서 바로 써먹는 질문
- “이번 모델의 정밀도/재현율은 각각 얼마인가요?”
- “어떤 지표를 기준으로 배포 여부를 결정하고 있나요?”
- “지표가 올라갔다는 건 어떤 케이스에서 개선됐다는 뜻인가요?”
- “F1-Score 기준으로 봤을 때 균형은 괜찮나요?”
이런 질문을 던지면 단순히 “정확도 몇 %”로 끝나는 대화가
훨씬 현실적이고 생산적인 논의로 바뀝니다.
협업 실무 체크리스트
✅ 모델의 정확도뿐 아니라 정밀도·재현율·F1-Score 확인
✅ 데이터 불균형 있는지 확인 (특히 희귀 이벤트 탐지)
✅ 프로젝트 목표에 맞는 지표 우선순위 설정
✅ 운영 단계에서 지표 모니터링할 계획 세우기
오늘의 정리
- 정확도만 보면 안 된다 → 데이터 불균형에 취약
- 정밀도(Precision) = 내가 YES라고 한 것 중 맞춘 비율
- 재현율(Recall) = 진짜 YES 중에서 내가 맞춘 비율
- F1-Score = 정밀도·재현율 균형
- 회의에서는 반드시 정밀도·재현율을 함께 물어볼 것
다음 편 예고
다음 글에서는 모델 배포와 운영(Serving & MLOps) 이야기를 다룹니다.
모델이 완성된 뒤 어떻게 실제 서비스에 들어가는지,
왜 엔지니어들이 “배포 전에 테스트 더 해야 한다”고 말하는지,
그리고 운영 단계에서 어떤 문제가 자주 발생하는지 알려드립니다.
https://machineindeep.tistory.com/94
[AI 협업 용어정리 4편] 모델 배포 & 운영 – 모델은 만들었는데, 이제 뭐하지?
지난 편에서 모델 성능 지표를 꼼꼼히 살펴봤습니다.모델이 충분히 똑똑해졌다면 이제 고객이 쓰도록 해야겠죠?하지만 여기서부터 또 다른 전쟁이 시작됩니다.“배포(Deployment)”와 “운영(Servin
machineindeep.tistory.com
'ML | DL > 딥러닝은 무슨 일을 할 수 있을까?' 카테고리의 다른 글
| [AI 협업 용어정리 6편] AI 프로젝트 ROI – 돈 되는 AI, 안 되는 AI 구별법 (2) | 2025.09.16 |
|---|---|
| [AI 협업 용어정리 5편] 최신 AI 트렌드 키워드 – 이 말만 알면 회의에서 안 밀린다 (1) | 2025.09.16 |
| [AI 협업 용어정리 4편] 모델 배포 & 운영 – 모델은 만들었는데, 이제 뭐하지? (1) | 2025.09.16 |
| [AI 협업 용어정리 2편] 데이터셋·전처리·라벨링 – AI 프로젝트가 데이터에 목숨 거는 이유 (2) | 2025.09.16 |
| [AI 협업 용어정리 1편] 모델(Model)과 학습(Training), 추론(Inference) – 이 말이 대체 뭔 뜻이야? (1) | 2025.09.16 |