LG가 오픈소스 형태로 새로운 AI 모델 ‘엑사원(EXAONE) 3.0’을 공개했습니다. 이 모델은 7.8억 매개변수를 가진 소형언어모델(sLM)로, 비슷한 크기의 다른 글로벌 모델들보다 우수한 성능을 제공합니다.
LG는 엑사원의 처리 시간, 메모리 사용량, 구동 비용을 대폭 줄였으며, 모델의 크기도 매우 줄였습니다. 이에 따라 다양한 벤치마크에서 높은 성능을 기록했고, 특히 한국어 및 영어 추론에서 우수한 결과를 보였습니다. 다음은 LG가 자체 블로그에서 밝힌 성능비교에 관한 도표입니다
이 그림의 도표는 LG의 새로운 AI 모델, 엑사원(EXAONE) 3.0의 성능을 다른 오픈 소스 소형언어모델(sLM)과 비교한 결과를 나타내고 있습니다. 비교된 모델들은 라마(Llama) 3.1 8B, 젬마(Gemma) 2 9B, 큐원(QWEN) 2 7B, 파이(Phi) 3 7B, 미스트랄(Mistral) 7B입니다.
도표해설
- 평균 성능: 엑사원 3.0은 모든 모델 중 가장 높은 평균 성능을 기록했습니다(8.77), 라마 3.1 (8.62)과 젬마 2 (8.92)를 포함한 다른 모델들과 비교해 볼 때 이 모델은 매우 경쟁력 있는 성능을 보여줍니다.
- 개별 벤치마크 성능: 엑사원 3.0은 대부분의 벤치마크에서 높은 점수를 얻었습니다. 특히 KoBEST-BoolQ (91.5), KoBEST-CPQA (85.0), KoBEST-SentiNeg (98.7)에서 높은 점수를 기록하며, 특정 영역에서 강점을 보였습니다.
- 평균 벤치마크 점수: 하단 표에서 엑사원 3.0은 평균 74.1로, 다른 모델들과 비교했을 때 가장 높은 평균 점수를 기록했습니다. 이는 일관되게 높은 성능을 나타냄을 보여줍니다.
- 성능 일관성: 엑사원 3.0은 다양한 평가 항목에서 일관되게 높은 성능을 보여주며, 특히 한국어 영역에서 우수한 성능을 보이고 있습니다. 이는 한국어 자연어 처리에 특화된 모델임을 시사합니다.
- 다양한 사용 사례 평가: 벤치마크에는 다양한 자연어 처리 작업이 포함되어 있으며, 엑사원 3.0은 이러한 다양한 작업에서 우수한 성능을 보임으로써 실제 세계의 다양한 사용 사례에 적합한 AI 모델임을 증명합니다.
이 도표는 엑사원 3.0이 한국어를 포함한 다양한 언어 작업에서 높은 성능을 제공하며, 국내외 경쟁 모델을 능가하는 AI 모델로서의 가능성을 보여주고 있습니다. 이는 LG가 AI 연구 및 개발에 있어 중요한 이정표를 세웠음을 나타냅니다.
**용어 해설
- KoBEST-BoolQ (91.5): 이 테스트는 질문에 대해 ‘예’ 또는 ‘아니오’로 답할 수 있는지를 평가합니다. ‘91.5’라는 점수는 이 벤치마크에서 엑사원 모델이 매우 정확하게 답변을 했다는 것을 나타냅니다.
- KoBEST-CPQA (85.0): 이는 복잡한 질문에 대한 답변을 평가하는 테스트로, 엑사원 모델이 85점을 받았다는 것은 매우 높은 수준의 성능을 보였다는 의미입니다.
- KoBEST-SentiNeg (98.7): 이 테스트는 특히 문장의 부정적 감정을 얼마나 잘 감지하는지를 평가합니다. 98.7이라는 매우 높은 점수는 이 모델이 부정적인 감정을 매우 정확하게 파악한다는 것을 보여줍니다.
이러한 결과는 엑사원 3.0 모델이 한국어를 이해하고 처리하는 데 있어서 매우 뛰어난 능력을 가지고 있음을 의미하며, 특정 언어 처리 작업에서 강한 성능을 보이고 있다는 것을 나타냅니다.
<이하 광고>