[AI 협업 용어정리 2편] 데이터셋·전처리·라벨링 – AI 프로젝트가 데이터에 목숨 거는 이유

ML | DL/딥러닝은 무슨 일을 할 수 있을까?

[AI 협업 용어정리 2편] 데이터셋·전처리·라벨링 – AI 프로젝트가 데이터에 목숨 거는 이유

Leeys 2025. 9. 16. 18:17

지난 편에서 모델과 학습, 추론을 살펴봤죠.
“오케이, 이제 모델만 잘 만들면 되겠네?” 라고 생각했다면, 아직 진짜 난관은 시작도 안 한 겁니다.
AI 프로젝트에서 가장 많이 일정이 밀리고, 예산이 새어 나가고, 사람들 멘탈이 무너지는 구간이 바로 데이터 단계예요.

데이터셋 = AI의 식재료 + 교재

AI 엔지니어가 말하는 데이터셋은 단순한 데이터 모음이 아닙니다.
이건 AI가 공부할 교재이자, 셰프가 요리할 식재료입니다.
좋은 모델을 만들려면 좋은 데이터셋이 필요하다는 말은,
"미슐랭 셰프한테 썩은 재료 주고 맛있는 요리 기대하지 말라"는 말과 같습니다.

현실 예시

챗봇 만들기: 고객 문의 텍스트 수십만 건이 필요
불량 감지: 불량 이미지와 정상 이미지가 골고루 필요
음성 인식: 다양한 사람 목소리, 발음, 잡음 환경 데이터 확보 필요

여기에 **라벨(정답)**도 필요합니다.
“이건 환불 문의다”, “이건 정상 이미지다” 같은 정답이 없으면
AI는 아무리 공부해도 뭘 배워야 하는지 모릅니다.

엔지니어들이 회의에서 “데이터부터 준비해야죠”를 무한 반복하는 이유가 바로 여기에 있어요.
Garbage In, Garbage Out(GIGO) – 쓰레기 데이터 넣으면 쓰레기 모델 나옵니다.

전처리(Preprocessing) = 재료 손질 + 부엌 정리

데이터셋이 모였다고 끝이 아닙니다.
그 데이터는 대부분 엉망입니다.

고객 문의 텍스트에는 오타와 이모티콘, 욕설, 쓸모없는 광고 메시지가 섞여 있고,
이미지에는 너무 어둡거나 잘린 사진이 섞여 있고,
센서 데이터에는 갑자기 99999 같은 이상한 값이 들어 있습니다.

전처리 단계에서는 이 데이터를 AI가 먹기 좋은 형태로 다듬습니다.

구체적 작업

텍스트: 특수문자 제거, 대소문자 통일, 불필요한 공백 삭제
이미지: 크기 통일, 밝기·대비 보정, 배경 노이즈 제거
숫자 데이터: 이상치(outlier) 제거, 값 범위를 0~1로 스케일링

비유하자면 셰프가 요리를 시작하기 전에
야채 씻고, 다듬고, 껍질 벗기고, 칼도 갈아 놓는 과정입니다.
이 과정이 제대로 안 되면 모델은 엉뚱한 패턴을 배웁니다.

라벨링(Labeling) = 정답 달기 + 교재 정리

라벨링은 데이터를 보고 "이건 뭐다"라고 알려주는 과정입니다.
사람이 직접 데이터를 보고 하나씩 라벨을 붙이는 경우가 많아요.
(이 작업이 생각보다 재미없고 오래 걸립니다.)

예시

고양이/강아지 이미지 분류: “고양이”, “강아지” 라벨 붙이기
고객 불만 분류: “배송 문제”, “환불 요청”, “서비스 불만”
CCTV 분석: “사람”, “쓰러짐”, “침입”

라벨이 틀리면 모델은 틀린 걸 열심히 배워 망합니다.
라벨 품질 관리(QA)가 중요한 이유입니다.

실제 프로젝트에서 흔히 터지는 문제들

문제 1: 데이터 편향 (Bias)

고객 불만 데이터 1만 건 중 80%가 “배송 문제”라면,
모델은 어떤 입력이 와도 “배송 문제!”라고 답할 가능성이 높습니다.
→ 회의에서 체크: 데이터 균형 맞췄는지 물어보세요.

문제 2: 라벨 불일치

라벨링 작업자마다 기준이 다르면 같은 데이터가 서로 다른 라벨을 달고 들어옵니다.
→ 체크: 라벨 가이드라인 문서가 있는지, QC 프로세스가 있는지 확인하세요.

문제 3: 최신 데이터 미반영

6개월 전 데이터로 학습한 모델은 최근 유행어나 신상품을 모릅니다.
→ 체크: 학습 데이터가 최신인지, 정기적으로 업데이트되는지 물어보세요.

문제 4: 데이터 보안 & 프라이버시

실제 고객 데이터에는 민감 정보(전화번호, 이메일)가 들어 있을 수 있습니다.
→ 체크: 데이터 익명화(마스킹) 정책이 있는지 확인하세요.

협업 시 실무 체크리스트

✅ 데이터셋이 실제 현업 데이터를 충분히 반영했는가?
✅ 라벨 가이드라인과 QC 프로세스가 문서화되어 있는가?
✅ 학습/검증/테스트 데이터셋이 제대로 분리되어 있는가?
✅ 최신 데이터까지 포함되었는가?
✅ 전처리 방식이 비즈니스 규칙을 깨지 않는가?
✅ 개인정보 마스킹·보안 정책이 지켜지고 있는가?

오늘의 정리

데이터셋 = AI의 교재 & 식재료
전처리 = 재료 손질, 품질 관리
라벨링 = 정답 붙이기 (사람 손 많이 타는 과정)
데이터 품질이 모델 성능을 결정 → 협업에서 가장 중요한 포인트
PM은 데이터 단계 일정 여유를 충분히 잡아야 함 (실무에서 항상 가장 많이 지연되는 단계)

다음 편 예고

다음 편에서는 AI 성능 지표를 다룹니다.
왜 "정확도 95%"라는 말에 엔지니어가 시큰둥한지,
Precision·Recall·F1-score 같은 용어가 왜 중요한지,
그리고 회의에서 어떤 지표를 보고 의사결정을 내려야 하는지 알려드릴 거예요.

https://machineindeep.tistory.com/93

[AI 협업 용어정리 3편] 성능 지표 – 정확도 95%인데 왜 다들 불만이지?

AI 프로젝트 회의에서 흔히 듣는 말:“이번 모델은 정확도 95% 나왔습니다.”그리고 보통 그 자리에 있는 누군가는 이렇게 말하죠.“95%면 거의 완벽한 거 아니야? 배포하자!”그런데 옆에 앉아 있

machineindeep.tistory.com

저작자표시 (새창열림)

'ML | DL > 딥러닝은 무슨 일을 할 수 있을까?' 카테고리의 다른 글

[AI 협업 용어정리 6편] AI 프로젝트 ROI – 돈 되는 AI, 안 되는 AI 구별법 (2)	2025.09.16
[AI 협업 용어정리 5편] 최신 AI 트렌드 키워드 – 이 말만 알면 회의에서 안 밀린다 (1)	2025.09.16
[AI 협업 용어정리 4편] 모델 배포 & 운영 – 모델은 만들었는데, 이제 뭐하지? (1)	2025.09.16
[AI 협업 용어정리 3편] 성능 지표 – 정확도 95%인데 왜 다들 불만이지? (1)	2025.09.16
[AI 협업 용어정리 1편] 모델(Model)과 학습(Training), 추론(Inference) – 이 말이 대체 뭔 뜻이야? (1)	2025.09.16

현재글[AI 협업 용어정리 2편] 데이터셋·전처리·라벨링 – AI 프로젝트가 데이터에 목숨 거는 이유

나의 공부기록

Computer Vision 분야에 관심이 있습니다.

데이터분석, llm, tensorrt, ONNX, deepseek, ML, pytorch, MLOps, Python, 머신러닝, DL, GPT, machinelearning, 딥러닝, tensorflow, gemini, CNN, Quantization, LoRa, VLM,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

나의 공부기록