최근 연구에서 모델의 매개변수 수, 훈련 데이터의 양 또는 계산 예산을 증가시키는 것이 모델 성능을 향상시키는 데 신뢰할 수 있는 방법임이 입증되었습니다. 특히 피드포워드(FFW) 층은 트랜스포머에서 전체 매개변수의 약 3분의 2를 차지합니다. 그러나 이러한 FFW 층의 단점은 그들의 매개변수 수에 비례하여 계산 비용이 선형적으로 증가한다는 것입니다.
딥마인드 Hu 연구원의 논문
딥마인드의 Hu 연구원이 발표한 논문(https://arxiv.org/pdf/2407.04153)에서는 매개변수 효율 전문가 검색(PEER)이라는 새로운 층 디자인을 도입하여 백만이상의 전문 분야의 전문가가 활동하는 시스템이 성능의 저하가 떨어지지 않도록 했습니다. PEER 시스템은 제품 키 기술을 사용하여 방대한 수의 작은 전문가(백만 명 이상)에서 성능을 발휘합니다. PEER 층은 입력 벡터를 쿼리 벡터로 매핑하고, 이 쿼리를 사용하여 상위의 어떤 전문가를 검색합니다. 이 전문가들의 출력은 라우터 점수에 의해 가중치가 부여되어 선형적으로 결합됩니다.
‘Figure 3’는 PEER 모델 설정에서 다양한 구성을 시험한 두 가지 주요 실험을 보여줍니다. 이 그림은 두 개의 그래프로 각각 전문가의 총 수와 활성 전문가 수를 변경할 때 모델의 성능에 미치는 영향을 시각화합니다.
전문가의 총 수 변화: 왼쪽 그래프는 전문가의 총 수(N)를 변경하면서, 활성 전문가 수는 동일하게 유지했을 때의 성능 변화를 보여줍니다. 전문가 수가 증가함에 따라 모델의 성능이 향상되는 경향을 보여줍니다. 이는 더 많은 전문가가 더 다양한 기능을 학습할 수 있기 때문입니다.
활성 전문가 수의 변화: 오른쪽 그래프는 활성 전문가 수(hk)를 변화시켜 가면서 성능을 측정합니다. 이 그래프는 hk의 값이 증가함에 따라 성능이 개선되지만, 특정 지점 이후에는 성능이 포화 상태에 이르고 추가적인 활성 전문가 수의 증가가 성능 향상에 미치는 영향이 감소함을 보여줍니다. 이는 메모리 소비와 계산 비용을 고려할 때 최적의 hk 값을 선택하는 데 중요한 정보를 제공합니다.
PEER 모델에 대한 상세 설명
PEER(Peer Efficient Expert Retrieval)는 매우 큰 수의 전문가(백만 명 이상)에서 효율적인 라우팅을 가능하게 하는 새로운 층 설계입니다. 이 모델은 제품 키 검색 기술을 사용하여 최고의 전문가를 선택합니다. 각 전문가는 단일 뉴런 MLP(다층 퍼셉트론)로 구성되어 있으며, 이는 매우 경제적인 매개변수 사용을 가능하게 합니다 (ar5iv).
PEER 모델은 입력 벡터를 쿼리 벡터로 매핑하고, 이를 제품 키와 비교하여 최상위 k 전문가를 검색합니다. 검색된 전문가들은 각기 다른 예측을 하고, 이들의 출력은 라우터 점수에 따라 가중 평균으로 결합됩니다. 이 과정은 매우 효율적으로 계산 자원을 사용하며, 대규모 트랜스포머 모델의 확장 가능성을 크게 향상시킵니다 (ar5iv)
관련 연구 및 키워드
PEER 기술은 MoE(전문가의 혼합) 아키텍처에 기반하고 있으며, 기존의 FFW(피드포워드) 층을 대체하는 데 사용됩니다. 이 기술은 모델 크기와 계산 비용을 분리하며, 더욱 세밀하게 모델을 조정할 수 있는 가능성을 제공합니다. 이 연구는 머신 러닝과 인공 지능 분야에서 중요한 진전을 나타내며, 향후 연구의 방향성에 중요한 영향을 미칠 것입니다 (ar5iv)
<이하 광고>