AI 모델의 성능은 데이터에서 결정됩니다.하지만 현실에서는 데이터가 부족하거나, 라벨링 비용이 너무 비싸거나,희귀 케이스가 부족해 모델이 편향될 때가 많습니다.오늘은 이런 문제를 해결하는 세 가지 전략,액티브 러닝, 데이터 증강, 합성 데이터 생성을 살펴봅니다. 🚀왜 데이터 효율이 중요한가? 딥러닝 모델의 학습 성능은 결국 데이터의 양과 질에 달려 있습니다.하지만 라벨링 예산은 한정적이고,실무에서는 매번 새로운 데이터가 쏟아지기 때문에어떤 데이터를 우선 라벨링할지,어떻게 데이터셋을 다양하게 만들지 고민해야 합니다.저도 실제로 프로젝트에서 불량 데이터는 1%뿐이고,나머지는 대부분 정상 데이터였던 상황이 있었습니다.이때 라벨링 전략과 데이터 증강을 잘못 세우면모델은 정상 데이터만 잘 맞추고 불량은 못 잡는..