1. Long RAG (Retrieval-Augmented Generation)
Long RAG는 기존 RAG 시스템의 한계를 극복하여 더 긴 문맥을 이해할 수 있는 언어 모델을 소개합니다. 이 모델은 약 3,000단어에 달하는 4,000 토큰까지 처리할 수 있으며, 정보 검색 시 관련 문서 전체를 활용해 정확도를 높입니다. Natural Questions 데이터셋에서의 성능은 검색을 통한 정답 찾기 비율이 52%에서 71%로 크게 향상되었습니다. Long RAG는 깊이 있는 문맥 파악으로 인해, 특히 대용량 데이터를 다룰 때 유용합니다.
2. DeepSeek-Coder V2
DeepSeek-Coder의 새로운 버전 V2는 GPT-4 Turbo와 같은 고가의 모델들과 경쟁할 수 있는 오픈소스 언어 모델입니다. 16B와 236B 두 가지 버전이 있으며, MoE(Model of Expertise) 적용으로 효율성을 높였습니다. 특히, 컨텍스트 길이가 16k에서 128k로 확장되어 대규모 프로그램 코드의 처리가 가능해졌습니다. 이 모델은 코드 작성 및 수학 문제 해결에 강점을 보이며, 벤치마크 테스트에서도 상위 모델들과 견줄만한 성능을 보입니다.
3. EvTexture
중국 과학기술대학에서 개발된 EvTexture는 저화질 비디오를 고화질로 변환하는 신기술입니다. 이 기술은 event camera를 사용하여 밝기 변화만을 감지하고, 이를 바탕으로 비디오의 질감을 고화질로 복원합니다. 기존 기법들과 비교했을 때 에러율이 현저히 낮아, 더 선명하고 정확한 이미지를 제공합니다.
<고화질 영상으로 만드는 사이트 Evtexture>
4. OpenVLA (Vision-Language-Action Model)
OpenVLA는 이미지, 비디오, 언어 입력을 통해 로봇이 취할 액션을 생성하는 모델입니다. DINO와 SigLIP을 결합한 Fused Visual Recorder를 사용하여, 이미지의 상세한 특징과 고수준 의미를 추출합니다. 이를 통해 로봇은 주어진 시나리오에서 적절한 행동을 결정할 수 있으며, 다양한 작업에서 높은 성공률을 보여줍니다.
5. Monocular Depth Estimation: Depth Anything V2
Depth Anything V2는 하나의 카메라만을 사용하여 3D 환경을 인식하는 기술입니다. 이 기술은 합성 이미지를 이용해 교사 모델을 훈련시키고, 이를 실제 이미지에 적용하여 학생 모델을 훈련합니다. 결과적으로 깊이 인식의 정확도가 향상되어, 실제 환경에서도 뚜렷한 뎁스맵을 생성할 수 있습니다.
6. StyleFeatureEditor: GAN 기반 이미지 편집
StyleFeatureEditor는 StyleGAN을 기반으로 한 이미지 편집 기술로, 사용자가 제공한 이미지를 저차원과 고차원에서 모두 편집할 수 있습니다. 이로 인해 이미지 퀄리티를 유지하면서 다양한 특징(나이, 머리카락 스타일, 안경 착용 유무 등)을 자연스럽게 조절할 수 있습니다. 이 기술은 특히 실사 기반의 상세한 이미지 편집에 유용합니다.
7. MeshAnything: 3D 모델링 기술
MeshAnything는 AI를 활용해 아티스트가 만든 것처럼 보이는 고품질 3D 메쉬를 자동으로 생성하는 기술입니다. 이 방법은 기존의 복잡한 3D 모델링 방식을 대체하는 새로운 접근 방식을 제시하며, 포인트 클라우드나 이미지 등 다양한 입력을 통해 메쉬 정보를 생성합니다. 결과적으로 훨씬 적은 데이터로 높은 퀄리티의 3D 모델을 제작할 수 있어, 게임 개발이나 영화 특수 효과 제작에 큰 혁신을 가져올 것으로 기대됩니다.
<이하 광고>