Easy Dataset: A Unified and Extensible Framework for Synthesizing LLMFine-Tuning Data from Unstructured Document논문을 요약한 내용 입니다. 왜 Easy Dataset인가?최근 대규모 언어 모델(LLM)의 도메인 적응(domain adaptation) 수요가 폭발적으로 증가하고 있습니다.의료, 금융, 법률, 제조 등 각 산업마다 전문 지식이 필요한데,이런 지식은 대부분 비정형 문서에 담겨 있고, 데이터셋으로 바로 쓰기 어렵습니다.기존 접근은PDF → OCR → 텍스트 추출 → 수동 QA 작성 → 모델 학습이런 식으로 비효율적이고, 사람 손이 많이 갔습니다.Easy Dataset은 이 과정을 엔드투엔드 자동화하면서사용자..