메타, GPT-4옴니에 필적할 LLM으로 ‘카멜레온’ 발표

메타가 openAI의 ‘GPT-4옴니’와 구글의 ‘제미나이’에 필적하는 LLM ‘카멜레온‘을 발표했습니다. 메타는 ’온라인 아카이브‘에 게재한 카멜레온이 ‘GPT-4옴’와 제미나이 처럼 개발의 시작부터 단일 모델에서 이미지, 텍스트, 코드 등 다중 양식이 혼합된 데이터로 훈련하는 ‘초기 융합 토큰 기반 혼합 모달(early-fusion token-based mixed-moda)’ 방식을 사용한다고 전했습니다.

기존 LMM들은 다양한 양식이 입력되면 이를 텍스트나 이미지를 처리하는 개별 모델로 인코딩한 뒤 추론을 위해 인코딩을 융합하는 ‘후기 융합(late fusion)’ 방식을 사용하는 것으로 알려졌습니다.

카멜레온은 이미지도 단어를 처리하는 방식처럼 개별 토큰으로 변환합니다. 또 텍스트, 코드, 이미지 토큰이 통합된 단일 체계의 어휘를 사용합니다. 이를 통해 텍스트, 코드, 이미지 토큰이 모두 포함된 시퀀스에 동일한 ‘트랜스포머’ 아키텍처를 적용할 수 있습니다. 예를들어 발표된 논문을 보면,

유저의 프롬프트:
1. 주어진 STOP 사인의 이미지의 색상, 패턴, 질감을 분석하고, 카멜레온이 섞이기 가장 어려운 지점을 찾아내시요.

2. 그런 다음 최적의 패턴으로 카멜레온 이미지를 생성하고

3. 그런 다음 각 위장 시도시 성공 여부를 1~10점으로 평가하고 설명해주시오.

LLM 카멜레온의 대답:

 

응답: 이미지는 나무 사이로 약간의 햇빛이 비치는 숲이 우거진 지역의 정지 신호입니다. 표지판은 흰색 테두리가 있는 빨간색 팔각형 모양이며 흰색 글자로 “STOP”이라는 단어가 적혀 있습니다. 배경에는 녹색 잎과 나무가 있습니다.

카멜레온에게 도전적인 장소: STOP 사인은 숲속에서 눈에 띄는 밝은 빨간색과 굵은 흰색 글자로 인해 조화를 이룹니다.

위장을 위한 최적의 패턴은 다음과 같습니다: 정지 신호에서 자신을 위장하려면 카멜레온이 필요합니다. 윤곽선을 깨뜨려 눈에 띄지 않게 만드는 패턴을 갖는 것입니다. 갈색과 빨간색의 조합은 카멜레온이 더 효과적으로 조화를 이루는 데 도움이 될 것입니다. 또한, 얼룩덜룩하거나 얼룩덜룩한 패턴은 분산에 도움이 됩니다. 빛을 줄이고 카멜레온의 가시성을 더욱 감소시켜야 합니다.

등급 및 설명: 2/10 등급이 부여됩니다. 왜냐하면 카멜레온의 녹색과 갈색 패턴은 윤곽을 무너뜨리는 데 도움이 되지만, 정지 신호의 밝은 빨간색은 여전히 ​​눈에 띄게 만듭니다.

위 사례에서 보듯이 메타의 LLM인 카멜레온은 그림과 글씨가 섞인 것을 구별해내고, 카멜레온의 색상을 분석한 뒤, 혼합이 가능한지 불가능한지를 찾아내며, 등급을 부여하는 추론과 판정의 기능까지 잘 보여주고 있습니다.

메타는 4.4조개의 토큰으로 구성된 텍스트, 이미지-텍스트 쌍, 텍스트와 이미지가 혼합된 시퀀스를 포함하는 데이터셋으로, 엔비디아 ‘A100’ 80GB GPU를 사용해 7억 및 340억 매개변수 버전의 카멜레온을 500만 시간 이상 훈련했습니다.

그 결과 인간 선호도 평가에서 제미나이 프로나 GPT-4V 등 훨씬 모델과 일치하거나 그 이상의 점수를 받았다고 강조했습니다.

<이하 광고>

© 2023 나의 웹 페이지

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다