애플이 혁신이라기 보다는 개선에 초점을 맞춘 고성능의 이미지-텍스트 멀티모달 모델을 공개했다. 애플은 퓨샷 CoT 프롬프트(few-shot chain-of-thought prompting)기술을 이용해 고작 300억 매개변수 모델로 이미지를 읽고 자연어로 설명하는 능력을 갖추고 있어서 성능면에서는 오픈AI ‘GPT-4V’나 구글 ‘Gemini’를 추월한다고 밝혔다.
애플의 관련 논문은 온라인 아카이브(https://arxiv.org/abs/2403.09611)를 통해 발표되었다.
연구진이 발표한 논문의 제목은 ‘MM1: 멀티모달 LLM 사전 교육의 방법, 분석 및 통찰력'(MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)이다. 여기에서는 고성능 LMM을 구축하기 위해 다양한 아키텍처의 구성과 학습용 데이터셋 선별 등을 집중 실험했다고 전했다.
이를 통해 단일 모델이 아닌, 사전 훈련을 통해 상황별로 SOTA(‘State-of-the-art, 현 최고 수준)를 기록한 모델 여럿을 구축하고, 이를 ‘전문가 혼합(MoE)’ 방식으로 조합했다. 그리고 이를 통해 매개변수 30억개(3B), 70억개(7B), 300억개(30B) 등 제품군을 구성했다. 아래의 그림은 애플이 생성한 이미지가 OCR등을 거쳐 사과나 오렌지의 갯수를 알아내는 법과 글자를 인식하는 능력 등을 보여주고 있다.
애플의 연구진이 발표한 전문가 혼합방식(Mixture-of-Experts (MoE))은 머신러닝에서 사용되는 고급 기법 중 하나로, 다수의 ‘전문가'(experts) 모델을 조합하여 사용하는 방식이다. 이 방법은 특히 대규모 모델을 효율적으로 확장하고 성능을 향상시키기 위해 사용된다. 각 ‘전문가’ 모델은 데이터의 특정 부분이나 특징을 학습하는 데 특화되어 있으며, 모델 전체는 이러한 전문가들의 조합을 통해 다양한 종류의 데이터나 복잡한 문제를 보다 잘 처리할 수 있게 된다. 애플이 이번에 공개한 기술은 이미 LLM분야에서 알려진 기술 4가지다.
1. 전문가 혼합방식(MoE )
MoE 모델의 핵심 요소로는 다음의 2가지가 필요하다.
전문가(Experts): 독립적인 작은 네트워크들로, 각각이 데이터의 다른 부분을 학습한다. 예를 들어, 이미지 처리에서는 한 전문가가 객체를 인식하는 데 특화될 수 있고, 다른 전문가는 배경을 분석하는 데 특화될 수 있다.
게이트(Gating) 네트워크: 입력 데이터가 주어졌을 때, 어떤 전문가에게 해당 작업을 할당할지 결정하는 역할을 한다. 이는 각 입력에 대해 가장 적합한 전문가(또는 전문가들의 조합)를 동적으로 선택하여 효율성과 성능을 극대화한다.
MoE 모델의 장점:
확장성(Scalability): MoE 모델은 많은 수의 전문가를 추가함으로써 모델의 용량을 쉽게 확장할 수 있다. 이를 통해 더 복잡한 문제를 처리하고 더 많은 데이터를 학습할 수 있다.
효율성(Efficiency): 모든 전문가가 모든 입력에 대해 활성화되는 것이 아니라, 각 입력에 대해 가장 적합한 전문가만이 선택되어 계산된다. 이로 인해 자원 사용을 최적화하고 처리 속도를 개선할 수 있다.
유연성(Flexibility): 다양한 종류의 문제와 데이터에 적용할 수 있는 유연성을 제공한다. 각 전문가를 특정 작업이나 데이터 유형에 맞게 특화시킬 수 있기 때문에, 복잡한 다중 작업 학습이나 다양한 데이터 소스로부터의 학습에 효과적이다.
MoE 모델은 이러한 이점 덕분에 자연어 처리(NLP), 컴퓨터 비전, 추천 시스템 등 다양한 분야에서 활용될 수 있으며, 특히 대규모 모델의 성능을 향상시키는 데 유용하다.
- 3. 컨텍스트 학습과 사슬추론 능력
애플이 채택한 또 다른 성능개선의 기술 컨텍스트 학습(in-context learning)과 사슬 추론(chain-of-thought prompting)능력
이 두 기술은 인공 지능과 대규모 언어 모델의 두 가지 중요한 능력이다. 이 두 능력은 모델이 복잡한 문제를 해결하고 자연스러운 대화를 생성하는 데 필수적이다.
컨텍스트 학습(In-context Learning)
컨텍스트 학습은 모델이 주어진 정보나 지시사항을 현재의 상황이나 문맥에 맞게 이해하고 적용하는 능력을 말한다. 예를 들어, 인공 지능이 이야기나 대화를 이어나갈 때 이전의 대화 내용을 기억하고 그것을 바탕으로 적절한 응답을 생성하는 것이 이에 해당한다. 컨텍스트 학습을 통해 모델은 더욱 정확하고 자연스러운 응답을 생성할 수 있으며, 문맥을 고려하여 정보를 해석하고 적용하는 능력을 갖추게 된다.
사슬 추론(Chain-of-Thought Prompting)
사슬 추론은 모델이 복잡한 문제를 해결하기 위해 여러 단계의 추론 과정을 거치는 능력을 말한다. 이는 단순히 최종 답변을 제시하는 것이 아니라, 문제를 해결하기 위한 사고 과정을 순차적으로 보여주는 것을 포함한다. 예를 들어, 복잡한 수학 문제를 해결할 때, 모델이 단계별로 문제를 분해하고 각 단계에서 필요한 계산을 수행하여 최종 답변에 도달하는 과정을 보여준다. 사슬 추론을 통해 모델은 더 복잡한 문제를 효과적으로 해결할 수 있으며, 사용자에게 모델의 사고 과정을 이해할 수 있는 기회를 제공한다.
이 두 능력은 모델이 인간과 더 자연스럽고 효과적으로 소통하게 하며, 복잡한 문제 해결과정에서 더 깊은 이해를 가능하게 합니다. 컨텍스트 학습과 사슬 추론 능력을 갖춘 모델은 다양한 상황에서 유용하게 활용될 수 있으며, 이는 인공 지능 기술의 발전에 있어 중요한 단계를 나타냅니다.
4. 적은 자료로 놀라운 능력을 발휘하는 퓨삿 러닝
퓨샷 러닝(few-shot learning)은 인공지능(AI) 분야에서 매우 적은 양의 학습 데이터를 사용하여 모델이 새로운 작업이나 분류를 빠르게 학습할 수 있도록 하는 기법이다. 전통적인 머신러닝이나 딥러닝 모델은 종종 대량의 데이터를 필요로 하며, 이는 학습 데이터를 수집하고 라벨링하는 데 많은 시간과 비용이 드는 작업이다. 반면, 퓨샷 러닝은 이러한 제약을 극복하고자 적은 수의 예시만을 사용해도 좋은 성능을 낼 수 있도록 설계되었다.
푸샷러닝의 종류
원샷 러닝(One-shot learning): 단 하나의 예시로부터 학습하는 방법.
제로샷 러닝(Zero-shot learning): 학습 과정에서 본 적 없는 새로운 카테고리를 인식할 수 있도록 학습하는 방법이다. 이는 일반적으로 고급 지식 전이 및 추론 능력을 필요로 한다.
퓨샷 러닝의 응용 분야는 먼저 이미지 인식 분야이다. 적은 수의 이미지 예시를 통해 새로운 객체를 식별하는 데 사용된다. 그리고 소량의 텍스트 데이터를 사용하여 새로운 언어적 개념이나 작업을 이해하도록 모델을 학습시킬 수 있다. 또한 적은 수의 음성 샘플을 통해 새로운 단어나 발음을 인식하는 데 활용된다.
***애플이 채택한 퓨샷 러닝의 도전 과제**
일반화 능력의 문제: 매우 제한된 데이터로부터 학습하는 것은 모델이 과적합(overfitting)될 위험이 있으며, 이는 모델의 일반화 능력을 저하시킬 수 있다.
데이터 품질의 문제: 적은 수의 학습 데이터는 해당 데이터의 품질이 매우 중요하다는 것을 의미한다. 잘못된 정보나 노이즈가 있는 데이터는 모델 성능에 부정적인 영향을 미칠 수 있다.
퓨샷 러닝은 인공지능 분야에서 중요한 연구 주제로, 효율적인 학습 방법을 개발하고자 하는 많은 노력이 진행되고 있다. 이를 통해 AI 모델의 학습 과정을 더욱 효율적이고 실용적으로 만들 수 있는 새로운 가능성을 탐색하고 있다. 애플의 연구진은 이번에 이러한 논문을 발표한 것은 애플이 인공지능분야에서 뒤처지게 됨에 따라 이를 따라잡기 위해 메모리 등 자원이 적게 드는 고성능의 ‘AI 텍스트-이미지 기술’을 들고 나온 것으로 보인다.
<이하 광고>
- AI 칩 전쟁 (3) : 스핀 트랜지스터
- AI 칩 전쟁 (2) : 그래프코어 IPU, 그래프 구조 최적화와 저지연 처리로 AI 연산 혁신
- AI 칩 전쟁 (1) : 웨이퍼 하나를 하나의 칩으로 사용하는 세레브라스의 혁신 전략
- 제철소 용광로에도 AI 기술이
- EU의 AI 법, 중소 AI 기업엔 규제의 턱이 될 가능성이 높아
- AI 칩 전쟁 (3) : ‘디지털 딥러닝’을 뒤쫒는 ‘아나로그 딥러닝’기술
- AI 기업 분석 (1) : Palantir
- 지구상의 ‘AI chip’ 전쟁
- 세상에서 가장 인기있는 AI WEB 사이트 50개
- 캐릭터 사이의 상호작용마저 자동으로 생성하는 ‘Show Runner’ 플랫폼
- 제디터로 상세페이지 고민 끝
- WAFOUR, 동영상의 일관성 문제 해결할 snowpea AI
- chatGPT, 잦은 먹통에 성장통
- AI 사업 아이디어 (29) : 건설 현장에서 맹활약 중인 AI… DL이엔씨
- 의료와 재난 상황에 깊숙이 투입되고 있는 AI
- FIFO-Diffusion 기술, 컨베이어 벨트방식으로 무한한 길이의 고품질 동영상 생성
- AI 생성 음악도 마켓팅이 필요하다
- 생성 AI로 경험해 보지 못한 무한대의 소리까지..가우디오랩
- 현재 우리나라 데이터 센터의 갯수 38개는 꼴찌수준입니다
- 요리하는데 도움주는 AI 사이트 5개
- 온프레미스와 오픈 소스는 AI 시대의 필수 전략
- LPDDR을 이용한 마하칩은 HBM을 따돌릴 수 있을까
- 로컬에서 AI 챗봇과 언어모델 실행을 위한 가이드
- chatGPT4옴니로 엑셀파일에 함수를 자유자재로 부리기
- 쇼셜미디어에서 쇼셜과 미디어가 분리되는 AI 시대에 더욱 커지는 콘텐츠 관리의 중요성
- 메타, GPT-4옴니에 필적할 LLM으로 ‘카멜레온’ 발표
- Runway로 움직이는 상품 이미지 만들어 마켓팅에 돌풍을!
- AI를 이해하기에 적절하며, 유용한 사이트 21개
- CCTV에 AI 도입시 고려 사항
- 구글, 유저들의 프픔프트 작성을 위한 안내 책자 배포
- 인공지능 시대에 더욱 커지는 ‘사람의 역할’, 비영리재단 퓨처 오브 라이프
- 구글의 저력, Sora에 필적할 Veo 방출
- 구글과 OpenAI 진영과의 숨막히는 대결…2024구글 IO
- 마인크래프트(Minecraft) 게임에도 자율 AI 에이전트 도입
- AI 시대의 이야기의 힘 : Storytelling이 왜 중요한가?
- URL만으로도 비디오 생성해주는 AI 사이트, 생성비디오 활용은 신중해야
- OpenAI의 GPT-4옴니, 인간처럼 보고 듣고 말하는 AI 비서
- Google, ‘AlphaFold 3’로 거의 모든 생물학적 분자 구조 예측 가능
- AI 생성음악을 MIDI 파일로 만들어 주는 ‘뮤지아 원’, 좋은 음악교육 도구
- Runway의 두 번째 AI 영화제: 과거와 미래를 잇는 예술의 장
- 소라, 700개 클립 생산해 한 개의 상업용 뮤직비디오 제작에 성공
- 생성AI의 일관성 유지기술 완성이 코앞에 다가왔다-Story Diffusion
- AI 뮤직비디오 걸작은 어디서 나올까, Noisee.ai에 가보세요
- 60개의 AI를 한눈에 서비스 하는 초강력 사이트, ‘POE.com’
- 만화에 진심인 Comic AI, Skyreels로 변경
- 제품과 서비스 홍보용 만화 그리기 좋은 AI 사이트-‘Wetoon’
- 구글의 VLOGGER-목소리와 사진 한장으로 나의 분신을 만든다
- chatGPT도 어도비와 같은 AI 그림 편집기능 도입
- 분실한 휴대폰 금방 찾는다, 구글의 ‘내 디바이스 찾기’
- AI와 블록체인: 코인광풍에 조심해야 할 키워드
- Nvidia, 지구의 기후변화에 대비하는 디지털 트윈 Earth-2 플랫폼 공개
- 메타버스와 AI: 로블록스의 혁신은 AI로 부터
- 애플, 혁신보다 개선에 초점을 맞춘 이미지-텍스트 기술 공개
- 미드저니, cref+url 문구삽입으로 캐릭터의 일관성 유지해
- chatGPT로 전력요금 계산하고 그래프로 보여주는 웹앱 만드는 방법
- chatGPT의 Dalle-3로 표현해보는 미술사조별 그림 스타일
- 텍스트 10만자를 일관성있는 웹툰으로 만들어버리는 AI..Lore Machine의 등장
- AI가 만드는 무한한 가상 세계: 구글 지니(GINIE)
- OpenAI, LLM으로 현실감 넘치는 동영상 생성하는 소라(Sora) 발표
- 페이크(Fake)에 속는 심리적 취약점 53가지
- AI 생성 콘텐츠와 실제 콘텐츠를 구별하는 10가지 방법
- 구글, 현실같은 AI 비디오 생성기 ‘루미에르(lumiere)’ 오픈
- 우리집 전기요금 얼마나 나올까, 요금계산 해보는 앱.
- 2024년 새해에는 4차 산업혁명의 폭발로 인구절벽 해결하자
- 한 해 국내 강력 범죄 발생 현황(2022)
- 2023.1-8월 국내 마약 사범 현황
- 위약금 장사
- 생존을 위해 압류를 차단하는 사례 모음
- 발렌타인데이에 보낼 소중한 e-card 제작
- 신년 e-card 보내기
- e-성탄카드를 직접 만드는 손쉬운 방법