[AI 협업 용어정리 3편] 성능 지표 – 정확도 95%인데 왜 다들 불만이지?

ML | DL/딥러닝은 무슨 일을 할 수 있을까?

[AI 협업 용어정리 3편] 성능 지표 – 정확도 95%인데 왜 다들 불만이지?

Leeys 2025. 9. 16. 22:02

AI 프로젝트 회의에서 흔히 듣는 말:
“이번 모델은 정확도 95% 나왔습니다.”
그리고 보통 그 자리에 있는 누군가는 이렇게 말하죠.
“95%면 거의 완벽한 거 아니야? 배포하자!”

그런데 옆에 앉아 있던 엔지니어가 표정이 시큰둥해집니다.
왜 그럴까요? 오늘은 이 정확도(Accuracy)라는 숫자가
모든 걸 말해주지 않는 이유와,
우리가 함께 챙겨야 하는 다른 성능 지표들에 대해 이야기합니다.

정확도(Accuracy) – 전체 중 몇 개 맞췄나

정확도는 가장 직관적인 지표입니다.
전체 중에서 맞춘 비율이죠.

예시: 100개의 이메일 중에서

스팸 80개, 정상 메일 20개
모델이 스팸 95개로 예측했는데 그중 75개가 진짜 스팸이었다면?

겉으로 보기엔 좋아 보이지만, 문제가 있습니다.

정확도의 함정 – 불균형 데이터

만약 스팸 메일이 전체의 99%라고 해봅시다.
그냥 무조건 “스팸”이라고만 예측해도 정확도 99%입니다.
그런데 정상 메일 1%가 죄다 스팸함으로 가버리면?
고객 불만 폭주 → 프로젝트 실패.

이게 바로 엔지니어들이 "정확도만 보면 안 된다"고 말하는 이유예요.
데이터가 불균형할수록, 정밀도(Precision)와 재현율(Recall) 같은 지표가 더 중요해집니다.

정밀도(Precision) – 맞다고 한 것 중에 진짜 맞은 비율

정밀도는 이렇게 생각하면 쉽습니다.

"내가 YES라고 말한 것 중에서, 진짜 YES인 건 몇 개야?"

예시:
모델이 100개를 스팸이라고 예측 → 그중 80개만 진짜 스팸
→ 정밀도 = 80 / 100 = 80%

정밀도가 높을수록 "헛다리"를 덜 짚는다는 뜻입니다.
즉, 불필요한 경보(False Alarm)가 줄어듭니다.

재현율(Recall) – 진짜 맞는 걸 얼마나 잘 잡아냈나

재현율은 이렇게 생각하세요.

"세상에 있는 진짜 YES 중에서 내가 몇 개나 맞췄어?"

예시:
전체 스팸이 120개인데 모델이 그중 80개만 잡았다면
→ 재현율 = 80 / 120 = 66.7%

재현율이 높을수록 놓치는 게 적습니다.
즉, 빠뜨리는 케이스를 줄이고 싶을 때 중요한 지표입니다.

F1-Score – 정밀도와 재현율의 균형

F1-Score는 정밀도와 재현율의 조화 평균입니다.
둘 중 하나가 너무 낮으면 점수가 떨어집니다.
즉, 균형 잡힌 성능을 보여주는 지표입니다.

실무에서는 정밀도·재현율이 트레이드오프 관계일 때
F1-Score로 모델의 전반적인 “균형”을 판단합니다.

현실 프로젝트 예시

고객센터 챗봇

정밀도 ↑ = 불필요한 응답 줄이기 → 고객 만족 ↑
재현율 ↑ = 모든 문의 잘 캐치 → 놓치는 케이스 ↓

보안/이상행위 탐지

재현율 ↑ = 모든 이상 징후 잡기 (놓치면 사고!)
정밀도 ↓ = 다소 오탐 많아도 괜찮음 (사람이 확인 가능)

물류 불량 검출

정밀도 ↑ = 괜히 정상 제품 폐기 줄이기
재현율 ↑ = 불량 놓치면 고객 클레임 → 둘 다 중요!

협업 회의에서 바로 써먹는 질문

“이번 모델의 정밀도/재현율은 각각 얼마인가요?”
“어떤 지표를 기준으로 배포 여부를 결정하고 있나요?”
“지표가 올라갔다는 건 어떤 케이스에서 개선됐다는 뜻인가요?”
“F1-Score 기준으로 봤을 때 균형은 괜찮나요?”

이런 질문을 던지면 단순히 “정확도 몇 %”로 끝나는 대화가
훨씬 현실적이고 생산적인 논의로 바뀝니다.

협업 실무 체크리스트

✅ 모델의 정확도뿐 아니라 정밀도·재현율·F1-Score 확인
✅ 데이터 불균형 있는지 확인 (특히 희귀 이벤트 탐지)
✅ 프로젝트 목표에 맞는 지표 우선순위 설정
✅ 운영 단계에서 지표 모니터링할 계획 세우기

오늘의 정리

정확도만 보면 안 된다 → 데이터 불균형에 취약
정밀도(Precision) = 내가 YES라고 한 것 중 맞춘 비율
재현율(Recall) = 진짜 YES 중에서 내가 맞춘 비율
F1-Score = 정밀도·재현율 균형
회의에서는 반드시 정밀도·재현율을 함께 물어볼 것

다음 편 예고

다음 글에서는 모델 배포와 운영(Serving & MLOps) 이야기를 다룹니다.
모델이 완성된 뒤 어떻게 실제 서비스에 들어가는지,
왜 엔지니어들이 “배포 전에 테스트 더 해야 한다”고 말하는지,
그리고 운영 단계에서 어떤 문제가 자주 발생하는지 알려드립니다.

https://machineindeep.tistory.com/94

[AI 협업 용어정리 4편] 모델 배포 & 운영 – 모델은 만들었는데, 이제 뭐하지?

지난 편에서 모델 성능 지표를 꼼꼼히 살펴봤습니다.모델이 충분히 똑똑해졌다면 이제 고객이 쓰도록 해야겠죠?하지만 여기서부터 또 다른 전쟁이 시작됩니다.“배포(Deployment)”와 “운영(Servin

machineindeep.tistory.com

저작자표시 (새창열림)

'ML | DL > 딥러닝은 무슨 일을 할 수 있을까?' 카테고리의 다른 글

[AI 협업 용어정리 6편] AI 프로젝트 ROI – 돈 되는 AI, 안 되는 AI 구별법 (2)	2025.09.16
[AI 협업 용어정리 5편] 최신 AI 트렌드 키워드 – 이 말만 알면 회의에서 안 밀린다 (1)	2025.09.16
[AI 협업 용어정리 4편] 모델 배포 & 운영 – 모델은 만들었는데, 이제 뭐하지? (1)	2025.09.16
[AI 협업 용어정리 2편] 데이터셋·전처리·라벨링 – AI 프로젝트가 데이터에 목숨 거는 이유 (2)	2025.09.16
[AI 협업 용어정리 1편] 모델(Model)과 학습(Training), 추론(Inference) – 이 말이 대체 뭔 뜻이야? (1)	2025.09.16

현재글[AI 협업 용어정리 3편] 성능 지표 – 정확도 95%인데 왜 다들 불만이지?

나의 공부기록

Computer Vision 분야에 관심이 있습니다.

pytorch, 데이터분석, tensorrt, ONNX, deepseek, gemini, Quantization, ML, llm, CNN, MLOps, Python, DL, GPT, 머신러닝, machinelearning, tensorflow, LoRa, VLM, 딥러닝,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

나의 공부기록