Optimal Splitting of Language Models from Mixtures to Specialized Domains
Summary
사전 학습된 언어 모델을 전문 도메인으로 분할할 때 최적의 컴퓨팅 자원을 배분하는 방법을 스케일링 법칙 기반으로 제안하는 연구
Key Points
- 일반 사전 학습 후 전문 도메인으로 continued pretraining하는 2단계 학습 패러다임을 개선하는 split model training 방법 제안
- 스케일링 법칙을 활용해 모델 크기 N, 사전 학습 토큰 D, 전문화 토큰 D'로 모델 손실을 정확히 예측
- 더 큰 모델 크기와 토큰 수로의 외삽(extrapolation)이 가능하도록 설계
- 상식 지식 및 추론 벤치마크에서 다양한 모델 크기와 컴퓨팅 예산에 걸쳐 일관된 성능 향상 확인
- 다중 도메인 설정에서 각 전문 도메인별 최적 컴퓨팅 할당량을 사전에 결정하는 방법 제공
Notable Quotes & Details
Notable Data / Quotes
- ICLR 2026 'Workshop on Navigating and Addressing Data Problems for Foundation Models' 채택
- 저자: Skyler Seto, Pierre Ablin, Anastasiia Filippova, Jiayuan Ye(National University of Singapore), Louis Bethune, Angelos Katharopoulos, David Grangier
Intended Audience
AI 연구자, 머신러닝 엔지니어