구글 딥마인드가 “JEST(Joint Example Selection Training)“라는 새로운 기계학습 방법론에 대해 논문을 발표했습니다. 해당논문은 arxiv에서 검색할 수 있습니다. 이 방법은 대규모 데이터를 활용한 학습(pretraining)의 효율을 향상시키기 위해 개발되었습니다. 기존에는 데이터를 개별적으로 선택하는 방식이 일반적이었지만, JEST는 데이터 배치(batch)를 공동으로 선택하고 평가하는 접근 방식을 취합니다. 이를 통해 학습 과정이 더 빠르고 효율적으로 진행될 수 있음을 보여주고 있죠.
제스트 작동 원리
제스트는 개별 데이터 포인트 대신 고품질의 데이터 ‘배치’를 선택하는 방식으로 훈련 과정을 최적화합니다. 이 배치 선택 방법은 데이터의 관련성과 품질을 최대화하는 데 중점을 둡니다. 사전 훈련된 소형 모델이 전체 배치의 데이터 품질을 평가하고 순위를 매기는 역할을 합니다.
그림 설명
- 왼쪽 그림: 대규모 슈퍼배치를 점수 매기는 과정에서의 계산 비용을 나타냅니다. 참조 모델 점수를 데이터셋에 캐싱함으로써 이러한 비용을 절반으로 줄일 수 있으며, 효율적인 점수 매기기와 다중 해상도 훈련을 통해 표준 IID 훈련과 비슷한 수준으로 비용을 낮출 수 있습니다.
- 가운데 그림: Flexi-JEST가 JEST에 비해 전체 FLOP 효율성을 얼마나 개선하는지 보여줍니다. 이는 변형된 JEST 모델이 어떻게 전반적인 계산 비용을 절감하면서도 학습 효율성을 높이는지를 시각적으로 설명합니다.
- 오른쪽 그림: 다중 해상도 훈련이 Flexi-JEST의 성능을 어떻게 향상시키는지를 보여줍니다. 초기에는 기본 IID 베이스라인보다 성능이 낮지만, 조금의 공동 훈련만으로도 빠르게 성능이 개선됩니다.
배치의 이해와 중요성
기계 학습에서 배치는 일련의 데이터 샘플들로 구성된 그룹입니다. 모델은 이 배치에 포함된 데이터를 바탕으로 학습하며, 각 배치가 학습에 미치는 영향은 그 내용에 따라 다릅니다. 일반적으로, 배치 내 데이터는 다양하고 대표적인 특징들을 포함하도록 선택됩니다. 이러한 다양성은 모델이 실제 세계의 다양한 상황을 잘 일반화하고 이해할 수 있도록 돕습니다.
학습 가능성 평가
JEST에서는 단순히 데이터를 무작위로 선택하는 대신, ‘학습 가능성’이라는 기준을 사용하여 배치를 평가합니다. 학습 가능성은 해당 배치가 모델 학습에 얼마나 유용할지를 나타내는 지표입니다. 예를 들어, 어떤 배치가 모델이 현재 약한 부분을 개선하는 데 특히 도움이 될 수 있는 데이터를 많이 포함하고 있다면, 그 배치의 학습 가능성이 높다고 평가할 수 있습니다.
미리 학습된 모델의 활용
JEST는 미리 학습된 모델, 즉 이미 다른 데이터셋으로 트레이닝된 모델을 사용하여 각 배치의 학습 가능성을 평가합니다. 이 모델은 각 데이터 포인트나 배치가 가진 특성을 분석하여, 해당 배치가 전체 학습 과정에서 얼마나 중요할지를 판단하는 데 도움을 줍니다. 미리 학습된 모델은 또한 배치 내 데이터가 기존에 학습된 데이터와 얼마나 잘 일치하는지, 혹은 새로운 통찰을 제공하는지 등을 평가하는 데 사용됩니다.
가장 유용한 배치의 선택
이러한 평가를 통해, JEST는 각 배치의 가치를 정량적으로 측정하고, 가장 학습에 유용할 것으로 예상되는 배치를 선택합니다. 이 과정은 학습 효율을 크게 향상시키며, 필요 없는 데이터 처리를 줄여 계산 자원을 절약합니다. 따라서 모델은 더 빠르게, 더 적은 데이터로도 더 높은 성능을 달성할 수 있게 됩니다.
학습 효율성 증가: 이 방법은 기존 방식에 비해 훨씬 적은 계산과 학습 반복을 통해 높은 성능을 달성합니다. 예를 들어, 일반적인 방법에 비해 최대 13배 적은 반복과 10배 적은 계산으로 같은 성과를 낼 수 있다고 합니다.
컴퓨팅 비용 절감: JEST는 ‘Flexi-JEST’라는 변형을 통해 배치 평가 비용도 크게 줄입니다. 이는 데이터 선택과 학습 과정에서 필요한 계산량을 대폭 줄여줍니다.
데이터 품질 부스트: JEST 방식은 소규모로 잘 관리된 데이터셋에서 학습된 모델을 사용하여, 훨씬 큰 규모의 데이터셋을 효과적으로 관리하고 선택하는 데 도움을 줍니다. 이로 인해 최종적으로는 참조 모델보다 뛰어난 성능을 갖는 모델을 학습할 수 있습니다.
<이하 광고>