현대 기술의 발전은 우리가 상상만 해왔던 메타버스의 시대를 현실로 끌어당기고 있습니다. 이번 포스트에서는 구글 딥마인드 팀이 개발한 혁신적인 인공지능 생성 기술, 지니(GINIE)에 대해 소개하고자 합니다. 지니는 Generative Interactive Environment의 약자로, 가상 공간을 생성하고 그 안에서 상호작용할 수 있는 능력을 의미합니다. 이 기술은 단순한 관찰이 아닌, 직접 탐험하고 조작할 수 있는 가상 세계를 만들어냄으로써 메타버스의 가능성을 한층 더 확장시킵니다
지니(GINIE)란?
지니는 텍스트, 이미지, 비디오 등 다양한 입력을 기반으로 2D 가상 세계를 생성할 수 있는 AI 기술입니다. 예를 들어, 마리오 게임과 같은 2D 플랫포머 게임 공간을 생성하여, 사용자가 조이스틱이나 키보드를 통해 캐릭터를 조작하며 탐험할 수 있게 합니다. 이는 단순한 이미지나 비디오 생성을 넘어서, 사용자의 입력에 따라 끊임없이 변화하고 반응하는 인터랙티브한 환경을 제공함으로써, 진정한 가상 세계의 경험을 가능하게 합니다.
가상 세계 생성의 새로운 지평
.지니는 텍스트로부터 이미지를 생성하거나, 직접 그린 스케치, 심지어 실제 사진을 바탕으로 가상 공간을 만들어낼 수 있습니다. 이 공간들은 완전히 상호작용 가능하며, 사용자는 이를 통해 새로운 세계를 탐험하고 다양한 경험을 할 수 있습니다. 더욱이, 이 기술은 단순히 고정된 이미지나 비디오에 국한되지 않고, 끊임없이 변화하는 메타버스 공간을 실시간으로 생성해내는 데 사용될 수 있습니다.
지니는 레이블이 지정되지 않은 인터넷 비디오를 통해 감독되지 않은 방식으로 훈련된 최초의 생성적 대화형 AI dlqslek. 모델은 텍스트, 합성 이미지, 사진, 심지어 스케치를 통해 설명되는 끝없이 다양한 동작 제어 가능한 가상 세계를 생성하도록 유도 할 수 있습니다. 110억개의 매개변수에서 Genie는 기초 세계 모델로 간주될 수 있습니다. 이는 시공간 비디오 토크나이저, 자동회귀 역학 모델, 간단하고 확장 가능한 잠재 동작 모델로 구성되어 있습니다. Genie를 사용하면 사용자는 실제 작업 레이블이나 세계 모델 문헌에서 일반적으로 발견되는 기타 도메인별 요구 사항 없이 생성된 환경에서 프레임별로 작업할 수 있습니다. 또한 결과적으로 학습된 잠재 행동 공간은 훈련 에이전트가 보이지 않는 비디오의 행동을 모방할 수 있도록 하여 미래의 일반 에이전트 훈련을 위한 길을 열어줍니다.
지니의 작동원리
다양한 궤적 생성 :
.그림 1: 다양한 궤적: Genie는 대화형 환경으로 사용할 수 있는 생성 모델입니다. 모델은 생성된 이미지(위)나 손으로 그린 스케치(아래) 등 다양한 방법으로 표시될 수 있습니다. 각 시간 단계에서 모델은 사용자가 제공한 동작을 사용하여 다음 프레임을 생성하고 다양한 캐릭터 동작이 포함된 궤적을 생성하여 향후 메타버스와 게임을 제작하는데 직접적인 지원이 가능합니다. (출처: 구글 딥마인드 Genie)
2. Genie의 모델 훈련 :
그림 2: Genie 모델 훈련: 비디오 프레임을 입력으로 사용하여 개별 토큰으로 토큰화합니다. 비디오 토크나이저를 통해 잠재 작업을 추론합니다. 잠재 액션 모델을 사용하여 각 프레임 사이에 그런 다음 두 가지 모두 역학 모델에 전달되어 반복적인 방식으로 다음 프레임에 대한 예측을 생성합니다. (출처 : 구글 딥마인드 Genie)
3. 시간과 공간의 동일성 :
그림 3: ST-변압기 아키텍처. 아키텍처는 다음과 같이 구성됩니다.
시공간 블록은 각각 공간 레이어, 시간 레이어, 피드포워드 레이어를 포함합니다. 각 색상은 단일 Self-Attention 맵을 나타냅니다.
(출처 : 구글 딥마인드 Genie)
메타버스와의 연결
지니는 현재 2D 환경에 초점을 맞추고 있지만, 이 기술이 3D로 확장될 경우 진정한 메타버스를 구현할 수 있는 기반이 될 것입니다. 아바타가 실제로 상호 작용하고, 다양한 조작을 통해 가상 공간에서 의미 있는 경험을 할 수 있도록 하는 것이 지니의 목표입니다. 이를 통해, 개발자들은 복잡한 프로그래밍 없이도 사용자가 실시간으로 상호작용할 수 있는 다양한 가상 환경을 쉽게 생성할 수 있게 됩니다.
미래 기술의 발전 방향
지니는 인공지능이 생성한 가상 세계에서 끊임없이 학습하고 성장할 수 있는 무한한 가능성을 제공합니다. 이를 통해 AI는 다양한 환경에서 다양한 상황을 경험하며, 더욱 진보된 일반화된 에이전트(Generalist Agent)로 발전할 수 있습니다. 이것은 단순히 가상 세계를 탐험하는 것을 넘어, AI가 실제 세계와 유사한 방식으로 학습하고 성장할 수 있는 토대를 마련합니다.
결론
지니(GINIE)는 메타버스 시대에 획기적인 변화를 가져올 인공지능 기술입니다. 사용자가 직접 상호 작용하고 탐험할 수 있는 무한한 가상 공간을 생성함으로써, 우리는 새로운 형태의 디지털 경험을 할 수 있게 될 것입니다. 지니는 단지 시작에 불과하며, 앞으로 이 기술이 어떻게 발전하고 메타버스와 어떻게 연결될지 기대해 보는 것이 좋습니다. AI와 메타버스의 미래가 주목됩니다.
<이하 AD>
- AI 칩 전쟁 (3) : 스핀 트랜지스터
- AI 칩 전쟁 (2) : 그래프코어 IPU, 그래프 구조 최적화와 저지연 처리로 AI 연산 혁신
- AI 칩 전쟁 (1) : 웨이퍼 하나를 하나의 칩으로 사용하는 세레브라스의 혁신 전략
- 제철소 용광로에도 AI 기술이
- EU의 AI 법, 중소 AI 기업엔 규제의 턱이 될 가능성이 높아
- AI 칩 전쟁 (3) : ‘디지털 딥러닝’을 뒤쫒는 ‘아나로그 딥러닝’기술
- AI 기업 분석 (1) : Palantir
- 지구상의 ‘AI chip’ 전쟁
- 세상에서 가장 인기있는 AI WEB 사이트 50개
- 캐릭터 사이의 상호작용마저 자동으로 생성하는 ‘Show Runner’ 플랫폼
- 제디터로 상세페이지 고민 끝
- WAFOUR, 동영상의 일관성 문제 해결할 snowpea AI
- chatGPT, 잦은 먹통에 성장통
- AI 사업 아이디어 (29) : 건설 현장에서 맹활약 중인 AI… DL이엔씨
- 의료와 재난 상황에 깊숙이 투입되고 있는 AI
- FIFO-Diffusion 기술, 컨베이어 벨트방식으로 무한한 길이의 고품질 동영상 생성
- AI 생성 음악도 마켓팅이 필요하다
- 생성 AI로 경험해 보지 못한 무한대의 소리까지..가우디오랩
- 현재 우리나라 데이터 센터의 갯수 38개는 꼴찌수준입니다
- 요리하는데 도움주는 AI 사이트 5개
- 온프레미스와 오픈 소스는 AI 시대의 필수 전략
- LPDDR을 이용한 마하칩은 HBM을 따돌릴 수 있을까
- 로컬에서 AI 챗봇과 언어모델 실행을 위한 가이드
- chatGPT4옴니로 엑셀파일에 함수를 자유자재로 부리기
- 쇼셜미디어에서 쇼셜과 미디어가 분리되는 AI 시대에 더욱 커지는 콘텐츠 관리의 중요성
- 메타, GPT-4옴니에 필적할 LLM으로 ‘카멜레온’ 발표
- Runway로 움직이는 상품 이미지 만들어 마켓팅에 돌풍을!
- AI를 이해하기에 적절하며, 유용한 사이트 21개
- CCTV에 AI 도입시 고려 사항
- 구글, 유저들의 프픔프트 작성을 위한 안내 책자 배포
- 인공지능 시대에 더욱 커지는 ‘사람의 역할’, 비영리재단 퓨처 오브 라이프
- 구글의 저력, Sora에 필적할 Veo 방출
- 구글과 OpenAI 진영과의 숨막히는 대결…2024구글 IO
- 마인크래프트(Minecraft) 게임에도 자율 AI 에이전트 도입
- AI 시대의 이야기의 힘 : Storytelling이 왜 중요한가?
- URL만으로도 비디오 생성해주는 AI 사이트, 생성비디오 활용은 신중해야
- OpenAI의 GPT-4옴니, 인간처럼 보고 듣고 말하는 AI 비서
- Google, ‘AlphaFold 3’로 거의 모든 생물학적 분자 구조 예측 가능
- AI 생성음악을 MIDI 파일로 만들어 주는 ‘뮤지아 원’, 좋은 음악교육 도구
- Runway의 두 번째 AI 영화제: 과거와 미래를 잇는 예술의 장
- 소라, 700개 클립 생산해 한 개의 상업용 뮤직비디오 제작에 성공
- 생성AI의 일관성 유지기술 완성이 코앞에 다가왔다-Story Diffusion
- AI 뮤직비디오 걸작은 어디서 나올까, Noisee.ai에 가보세요
- 60개의 AI를 한눈에 서비스 하는 초강력 사이트, ‘POE.com’
- 만화에 진심인 Comic AI, Skyreels로 변경
- 제품과 서비스 홍보용 만화 그리기 좋은 AI 사이트-‘Wetoon’
- 구글의 VLOGGER-목소리와 사진 한장으로 나의 분신을 만든다
- chatGPT도 어도비와 같은 AI 그림 편집기능 도입
- 분실한 휴대폰 금방 찾는다, 구글의 ‘내 디바이스 찾기’
- AI와 블록체인: 코인광풍에 조심해야 할 키워드
- Nvidia, 지구의 기후변화에 대비하는 디지털 트윈 Earth-2 플랫폼 공개
- 메타버스와 AI: 로블록스의 혁신은 AI로 부터
- 애플, 혁신보다 개선에 초점을 맞춘 이미지-텍스트 기술 공개
- 미드저니, cref+url 문구삽입으로 캐릭터의 일관성 유지해
- chatGPT로 전력요금 계산하고 그래프로 보여주는 웹앱 만드는 방법
- chatGPT의 Dalle-3로 표현해보는 미술사조별 그림 스타일
- 텍스트 10만자를 일관성있는 웹툰으로 만들어버리는 AI..Lore Machine의 등장
- AI가 만드는 무한한 가상 세계: 구글 지니(GINIE)
- OpenAI, LLM으로 현실감 넘치는 동영상 생성하는 소라(Sora) 발표
- 페이크(Fake)에 속는 심리적 취약점 53가지
- AI 생성 콘텐츠와 실제 콘텐츠를 구별하는 10가지 방법
- 구글, 현실같은 AI 비디오 생성기 ‘루미에르(lumiere)’ 오픈
- 우리집 전기요금 얼마나 나올까, 요금계산 해보는 앱.
- 2024년 새해에는 4차 산업혁명의 폭발로 인구절벽 해결하자
- 한 해 국내 강력 범죄 발생 현황(2022)
- 2023.1-8월 국내 마약 사범 현황
- 위약금 장사
- 생존을 위해 압류를 차단하는 사례 모음
- 발렌타인데이에 보낼 소중한 e-card 제작
- 신년 e-card 보내기
- e-성탄카드를 직접 만드는 손쉬운 방법