Beyond Real Data: Synthetic Data through the Lens of Regularization
Summary
실제 데이터가 부족한 상황에서 합성 데이터와 실제 데이터의 최적 비율을 정량화하는 학습 이론 프레임워크를 제안한 Apple Machine Learning Research 논문.
Key Points
- 합성 데이터는 실제 데이터가 희소할 때 일반화 성능을 향상시킬 수 있지만, 과도한 의존은 분포 불일치(distributional mismatch)로 성능 저하를 초래할 수 있음
- 알고리즘 안정성(algorithmic stability)을 활용하여 일반화 오차 경계를 도출하고, Wasserstein 거리 기반으로 최적 합성-실제 데이터 비율을 제시
- 테스트 오차는 합성 데이터 비율에 따라 U자형(U-shaped) 곡선을 보임 — 특정 비율이 최적
- CIFAR-10 및 임상 뇌 MRI 데이터셋에서 이론 예측을 실증적으로 검증
- 도메인 적응(domain adaptation) 시나리오에도 확장 적용 가능하며, 합성 타겟 데이터와 제한적 소스 데이터를 혼합하면 도메인 시프트 완화에 도움
Notable Quotes & Details
Notable Data / Quotes
- 검증 데이터셋: CIFAR-10, 임상 뇌 MRI 데이터셋
- 핵심 지표: Wasserstein distance (실제 분포와 합성 분포 간 거리)
- 저자: Amitis Shidani†, Tyler Farghly†, Yang Sun‡, Habib Ganjgahi†‡, George Deligiannidis†
Intended Audience
AI/ML 연구자, 데이터 증강 및 합성 데이터 활용을 연구하는 엔지니어