Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM
Fine-Tuning Data from Unstructured Document
논문을 요약한 내용 입니다.
왜 Easy Dataset인가?
최근 대규모 언어 모델(LLM)의 도메인 적응(domain adaptation) 수요가 폭발적으로 증가하고 있습니다.
의료, 금융, 법률, 제조 등 각 산업마다 전문 지식이 필요한데,
이런 지식은 대부분 비정형 문서에 담겨 있고, 데이터셋으로 바로 쓰기 어렵습니다.
기존 접근은
- PDF → OCR → 텍스트 추출 → 수동 QA 작성 → 모델 학습
이런 식으로 비효율적이고, 사람 손이 많이 갔습니다.
Easy Dataset은 이 과정을 엔드투엔드 자동화하면서
사용자가 **품질 개입(Human-in-the-loop)**을 통해 중간중간 확인하고 보정할 수 있게 만든
통합 데이터 합성 프레임워크입니다.
Easy Dataset의 전체 파이프라인
적응형 문서 처리 (Adaptive Document Processing)
Easy Dataset은 문서 형식에 맞는 스마트 파싱을 수행합니다.
- 문서 구문 분석
- TXT, Markdown → 거의 원본 유지
- DOCX → Mammoth 라이브러리로 Markdown 변환
- PDF → pdf2md + 레이아웃 분석으로 텍스트/이미지 분리
- 텍스트 영역 → 직접 추출
- 시각적 영역 → VLM(MinerU 등)으로 구문 분석
이 과정을 거치면 문서 의미 손상 없이 깔끔한 텍스트만 확보됩니다.
- 하이브리드 청킹 (Hybrid-Chunking)
- 라인 브레이크 기반 초벌 분할
- 짧은 세그먼트 병합, 긴 세그먼트 분할
- 사용자 GUI로 수동 미세조정 가능 →
**“문서 한 덩어리 = 의미 있는 질문 하나”**라는 조건 만족
이 과정이 잘 되어야 이후 QA 품질이 높아집니다.
잘못 청킹하면 질문이 중간에 끊기거나, 답변이 문맥을 잃을 수 있음.
페르소나 기반 데이터 합성 (Persona-Driven Data Synthesis)
Easy Dataset의 차별점은 Persona-driven QA Generation입니다.
단순히 문장에서 질문을 뽑는 게 아니라,
**질문자(페르소나)**와 **의도(Genre)**를 고려해 질문 스타일을 바꿉니다.
- 질문 생성 단계
- 시스템 프롬프트로 질문의 톤/대상 독자/난이도를 지정 가능
- 랜덤 구두점 제거로 모델의 문장 패턴 의존성을 줄임
- 답변 생성 단계
- 원문 + 질문을 함께 프롬프트 → 사실적 일관성 유지
- CoT 모델 사용 시 reasoning step까지 QA에 포함 →
투명한 학습 데이터 생성 가능
- 페르소나 합성 단계
- LLM이 스스로 Genre & Audience 세트를 생성
- 예) “투자 초보자를 위한 쉬운 설명” / “CFO 관점의 깊이 있는 분석”
- 이렇게 다양한 시각의 질문을 뽑아 QA 다양성을 확보
모델 구성 & 데이터셋 내보내기
GUI에서
- API 기반 모델 (GPT, Claude, Gemini 등)
- 로컬 모델(Ollama, Llama.cpp)
을 선택 가능.
온도(temperature), Top-P, max tokens까지 직접 조정할 수 있어
데이터 스타일을 fine-tuning 목적에 맞게 세밀 조정할 수 있습니다.
완성된 QA는 JSON, JSONL, CSV로 내보내고,
Alpaca/ShareGPT 포맷 호환 + LlamaFactory config 파일까지 자동 생성해
학습 준비 과정을 원클릭으로 마무리할 수 있습니다.
실험 결과 & 정량적 성과
- 실험 세팅
- 금융 보고서 5개 → Easy Dataset으로 QA 합성
- Qwen2.5-7B-Instruct로 fine-tuning 수행
- 결과
- 일반 지식 벤치마크(MMLU, CMMLU, HellaSwag, MATH, HumanEval) 유지
- 금융 QA 성능 크게 향상 (57.0 → 59.6점)
- 페르소나 기반 합성 → 단순 합성 대비 일반화 잠재력 개선
주요 강점 & 인사이트
- 완전 자동화 + 수동 개입 절묘한 밸런스
- 완전 자동화만 하면 품질 낮음
- Easy Dataset은 GUI로 중간 개입 가능 → 데이터 품질 관리 용이
- 다양성 확보
- 페르소나 기반 QA 합성으로 스타일·어조 다양성 확보
- 데이터 편향 방지 → 모델 일반화 능력 ↑
- Chain-of-Thought 포함
- reasoning trace를 남겨 LLM이 학습 시
추론 과정까지 학습 가능 → 해석 가능성 증가
- reasoning trace를 남겨 LLM이 학습 시
비판점 & 한계
- 완전 자동화 한계
- 사람 검수(Human-in-the-loop)가 필요 → 대규모 데이터셋 생성 시 시간 부담
- 멀티모달 지원 부족
- 현재는 주로 텍스트 기반 → 표, 차트, 이미지 QA는 제한적
- 프롬프트 품질 의존성
- 질문 프롬프트를 잘못 설계하면 QA 품질 급격히 하락
- 리소스 소모
- LLM API 호출 비용이 커질 수 있음 (특히 대형 문서 + 다중 페르소나 조합 시)
앞으로의 연구 방향
- SQL/테이블/멀티모달 지원 → 기업 데이터셋(ERP, BI 리포트)까지 자동 처리
- 자동 품질 모니터링 → 잘못 생성된 QA를 자동 필터링 & 재생성
- 데이터 다양성 강화 → 동일 문장에서 paraphrase 질문·답변 생성
- RLHF 기반 데이터 개선 → 사용자 피드백을 통한 reward 모델 훈련
- 대규모 도메인 벤치마크 제공 → 커뮤니티가 재현 가능하게 공개
한줄 코멘트
Easy Dataset은 데이터 생성 파이프라인의 “자동화 + 품질관리” 두 마리 토끼를 잡은 툴
GUI 기반으로 누구나 쉽게 QA 데이터셋을 만들고,
페르소나 다양성 + Human-in-the-loop 검증으로 일반화 가능성을 확보.
도메인 LLM 개발의 데이터 부트스트랩 단계를 혁신할 수 있는 솔루션.
정확한 내용은 아래 논문에서
'ML | DL > 딥러닝 논문' 카테고리의 다른 글
| 5분 컷 논문 리뷰: IntrEx – L2 학습자 참여도(Engagement) 모델링을 위한 대규모 교육 대화 데이터셋 (1) | 2025.09.16 |
|---|---|
| 5분 컷 논문 리뷰: 왜 언어 모델은 환각을 일으킬까? (2) | 2025.09.15 |
| 5분 컷 논문 리뷰: VLM-R1 – R1 스타일 RL로 시각적 추론 강화하기 (1) | 2025.09.15 |
| 5분 컷 논문 리뷰: Are VLMs Ready for Autonomous Driving? (1) | 2025.09.15 |
| 5분 컷 논문 리뷰: FastVLM으로 VLM 85배 빠르게 만들기 (1) | 2025.09.15 |