로컬에서 AI 챗봇과 언어 모델을 실행하는 방법: 완벽한 가이드
최근 몇 년간 인공지능 서비스의 구독 모델은 끝없이 확장되어 왔습니다. 그러나 많은 사용자들이 매달 비용을 지불하고도 제한된 시간에만 서비스를 이용할 수 있는 현실에 대해 불만을 표하고 있습니다. 이에 대한 대안으로, 개인의 PC에서 직접 AI 챗봇이나 언어 모델을 실행할 수 있는 방법에 대해 알아보는 것이 필요합니다. 이 블로그 포스트에서는 여러분이 로컬에서 AI 챗봇과 언어 모델을 실행할 수 있는 다양한 사용자 인터페이스를 소개하고 각각의 특징을 자세히 설명하겠습니다.
1. 사용자 인터페이스 선택하기
로컬에서 AI 모델을 실행하기 위한 첫 번째 단계는 적합한 사용자 인터페이스(UI)를 선택하는 것입니다. 다음은 몇 가지 주요 옵션입니다:
Uaba: 텍스트 생성 웹 UI로, 기본 입력 출력, 대화형 채팅, 텍스트 완성 노트북 등 세 가지 모드를 제공합니다. 가장 일반적으로 사용되는 UI 중 하나로, 대부분의 기본적인 기능을 제공합니다.
Silly Tarvin: AI 챗봇 사용의 프론트엔드 경험에 초점을 맞춘 인터페이스로, 채팅, 롤플레잉, 시각적 소설 같은 프레젠테이션을 지원합니다. 매력적인 프론트엔드를 제공하지만, 실행을 위해서는 Uaba와 같은 백엔드가 필요합니다.
LM Studio: 직관적인 실행 파일을 제공하며, Hugging Face 모델 브라우저와 같은 유용한 기능을 포함하고 있습니다. Gradio 스타일의 인터페이스를 선호하지 않는 경우에 좋은 대안입니다.
Axel AO: 커맨드 라인 인터페이스로, AI 모델의 미세 조정을 지원하는 최고의 도구 중 하나입니다. 깊은 미세 조정을 계획하고 있다면 이 선택지를 고려해 볼 수 있습니다.
이러한 각 인터페이스는 사용자의 필요와 기술 수준에 따라 다르게 활용될 수 있습니다. 가장 적합한 도구를 선택하여 최적의 사용 경험을 구축하세요.
2. 모델 설치 및 구성
선택한 인터페이스에 따라 다음과 같은 단계로 모델을 설치하고 구성할 수 있습니다:
모델 다운로드: Hugging Face에서 제공하는 무료 및 오픈 소스 모델을 브라우징하고 원하는 모델을 선택하여 다운로드합니다. Uaba와 같은 도구를 사용하여 모델의 URL 슬러그를 복사하여 붙여넣기만 하면 됩니다.
모델 실행: 다운로드한 모델을 로컬 시스템에 설치한 후, 선택한 UI를 통해 모델을 실행합니다. 각 UI에는 모델을 실행하기 위한 자체적인 지침이 있으니, 해당 도구의 설명서를 참고하세요.
미세 조정: 모델을 사용자의 특정 필요에 맞게 조정할 수 있습니다. Axel AO와 같은 도구를 사용하면 모델의 파라미터를 세밀하게 조정하여 성능을 최적화할 수 있습니다.
3. 로컬 실행의 이점
로컬에서 AI 모델을 실행하는 것은 다음과 같은 몇 가지 중요한 이점이 있습니다:
비용 절감: 매달 고정된 비용을 지불하지 않고도 필요할 때마다 AI 모델을 자유롭게 사용할 수 있습니다.
개인 정보 보호: 데이터를 서버로 전송하지 않고 로컬에서 모든 처리를 완료함으로써 사용자의 개인 정보를 보호할 수 있습니다.
사용자 정의와 유연성: 사용자의 특정 요구에 맞게 모델을 조정하고 최적화할 수 있습니다.
AI 서비스에 대한 구독 없이도 효과적으로 AI 모델을 사용할 수 있는 방법을 제공함으로써, 로컬 실행은 기술 애호가들에게 매력적인 선택지가 될 수 있습니다. 사용자 인터페이스의 올바른 선택과 적절한 설정을 통해, 로컬에서 AI 모델을 성공적으로 운영하고 효율적으로 활용할 수 있습니다.
4. 로컬 AI 모델 실행과 관련된 다양한 리소스와 도구
들을 제공합니다. 이들은 로컬에서 AI 모델을 사용, 조정, 최적화하는 데 필요한 기술적 지원을 제공하는 데 초점을 맞추고 있습니다. 아래는 각 링크에 대한 설명과 그것들이 글에서 어떤 의미를 가지는지 정리한 내용입니다.
TensorRT LLM 코드 다운로드
- Code: NVIDIA의 TensorRT LLM 관련 코드 저장소로, 사용자가 NVIDIA의 TensorRT를 이용하여 LLM(Language Learning Models)을 최적화하고 실행할 수 있게 합니다.
- Getting Started Blog 및 Dev Blog: 이 블로그들은 TensorRT를 사용하여 LLM을 최적화하는 방법에 대한 시작 가이드와 개발자 지침을 제공합니다. 이러한 최적화를 통해 GPU에서 AI 모델의 추론 성능을 향상시킬 수 있습니다.
“Chat with RTX” 코드 다운로드
- Download: NVIDIA에서 제공하는 Chat with RTX 소프트웨어를 다운로드할 수 있는 링크입니다. 이 소프트웨어를 통해 사용자는 로컬 문서와 데이터에 AI 모델을 연동하여 질문에 답할 수 있습니다.
- Blog: Chat with RTX에 대한 설명과 그 사용 방법을 담은 공식 블로그 포스트 링크입니다. 이는 개인 정보 보호에 중점을 둔 로컬 AI 사용의 예를 보여줍니다.
다양한 설치 환경 관련한 지식 저장 Links:
- Oobabooga: 텍스트 생성 웹 UI 코드 저장소로, 텍스트 기반의 대화 인터페이스를 제공합니다.
- SillyTavern: AI 챗봇 사용을 위한 프론트엔드 개발에 초점을 맞춘 프로젝트의 코드 저장소입니다.
- LM Studio: 직관적인 사용자 인터페이스를 제공하는 AI 모델 실행 환경의 공식 웹사이트입니다.
- Axolotl, Llama Factory, HuggingFace: 다양한 AI 모델과 프레임워크를 제공하는 저장소 및 플랫폼으로, 사용자가 모델을 다운로드하고 로컬에서 실행할 수 있게 합니다.
- AWQ: AWQ는 AI 모델의 크기를 줄이는 양자화 방법 중 하나입니다. 이는 모델을 더 적은 메모리로 실행할 수 있게 하여, 자원이 제한된 환경에서도 효율적으로 모델을 사용할 수 있게 합니다.
- ExLlamav2: 이 프로젝트는 모델의 양자화 수준을 혼합하여 평균 비트율을 조정하는 기술을 사용합니다. 이는 특히 Nvidia GPU에서 빠른 최적화를 가능하게 하며, 모델 성능을 유지하면서도 처리 속도를 높입니다.
- GGUF: GGUF는 파일 형식으로, CPU에서 실행되는 다양한 양자화 스키마를 지원하는 모델을 저장합니다. 이는 모델의 이식성과 접근성을 높입니다.
- GPTQ: GPTQ는 양자화 알고리즘을 구현하는 프로젝트로, 모델의 크기를 줄이는 동시에 출력에서의 오류를 최소화하려고 합니다. 이는 모델의 정확도를 유지하면서도 효율성을 증가시키는 방법입니다.
- LlamaCpp: Llama C++는 로컬 환경에서 AI 모델을 실행하기 위한 C++ 라이브러리입니다. 특히 GGUF 포맷의 모델을 CPU와 시스템 RAM으로 오프로딩하는 기능을 지원하여, VRAM 제한이 있는 환경에서도 큰 모델을 실행할 수 있게 합니다.
- vllm: vllm 프로젝트는 다양한 최적화 및 양자화 기술을 통합하여, 로컬 머신에서 대용량 언어 모델을 더 효율적으로 실행할 수 있도록 설계되었습니다.
- LlamaIndex: LlamaIndex는 로컬 데이터베이스를 AI 모델에 연동할 수 있는 도구로, 사용자가 로컬 파일이나 데이터에 대한 질문을 AI 모델에 던질 수 있게 합니다.
- Continue.dev: 이 웹사이트는 로컬에서 AI 모델을 사용하여 개발 작업을 지원하는 서비스를 제공합니다. GitHub Co-pilot와 유사한 기능을 로컬 모델을 통해 실행하며 비용을 절감할 수 있습니다.
이러한 도구와 리소스는 사용자가 로컬에서 AI 모델을 효과적으로 실행하고, 특정 요구에 맞게 모델을 조정하며, AI 기술의 전반적인 접근성과 유연성을 향상시킬 수 있도록 설계되었습니다. 각 링크는 특정 기능 또는 최적화 전략을 제공하여, 다양한 환경에서 AI 모델의 이용 가능성을 확장합니다.
5. LLM 추천 모델 :
Nous-Hermes-llama-2-7b: 이 모델은 자연어 이해와 생성 작업에 적합하며, 2.7 billion parameters를 가지고 있어 복잡한 언어 처리 작업을 효과적으로 수행할 수 있습니다.
Openchat-3.5-0106: 이 챗봇 모델은 대화형 AI로 설계되어 사용자와의 자연스러운 대화가 가능합니다. 이 모델은 주로 고객 서비스 또는 엔터테인먼트 목적으로 사용될 수 있습니다.
SOLAR-10.7B-Instruct-v1.0: 이 인스트럭션 기반 모델은 명령에 기반한 작업을 수행하도록 훈련되어 있으며, 10.7 billion parameters를 갖추고 있어 복잡한 지시 사항을 이해하고 실행할 수 있습니다.
Google Gemma: Google에서 개발한 이 모델은 다양한 언어 작업에 사용될 수 있는 범용 모델로, 특히 언어 번역과 요약 작업에 강점을 보입니다.
Mixtral-8x7B-Instruct-v0.1: 이 모델은 여러 작업을 동시에 처리할 수 있는 다목적 AI 모델로, 특히 여러 언어와 주제에 걸쳐 효과적인 성능을 발휘합니다.
Deepseek-coder-33b-instruct: 이 모델은 주로 프로그래밍 코드 생성과 관련된 작업에 최적화되어 있으며, 개발자들이 코드를 더 효율적으로 작성할 수 있도록 돕습니다.
Madlad-400: 400 billion parameters를 가진 이 모델은 매우 대규모의 언어 모델로, 광범위한 언어 이해 및 생성 작업에 적합합니다.
Colbertv2.0: 정보 검색에 특화된 모델로, 특정 질문에 대한 정확한 답변을 찾는 데 유용하게 사용될 수 있습니다.
이 모델들은 각각의 특성에 따라 다양한 AI 응용 분야에서 사용될 수 있으며, 연구자나 개발자들이 특정 요구에 맞는 최적의 모델을 선택할 수 있도록 도와줍니다.
6. 하드웨어 사양
sLLM을 구축하는데 있어서 보통 13B 이상의 모델의 학습을 위해서는 A6000을 추천하는데, A6000의 경우 다나와 최저가로 700만원 정도 합니다. 그래서 결국 Inference 를 하기 위해서는 4090 또는 3090, 또는 cloud solution을 추천하고 있죠.
Multi-GPU에 관해서는, NVLink라는 하이퍼스피드 인터넷을 활용하는 방법도 많이 사용한다고 하고, 4090에 대해서는 NVLink를 지원하지 않기 때문에 PCIe를 사용해야 합니다.
그리고 8Bit 연산을 할건지, 16Bit연산을 할 건지에 따라서도 GPU가 달라집니다. 8bit와 16Bit 연산에 있어서는, Model의 Quantization도 중요한 역할을 합니다. LLAMA가 아직 완벽한 최적화가 되어있지는 않은 것으로 보입니다.
딥러닝 LLM에서 training 및 finetuning, inferencing에서 가장 중요한 것은 VRAM이니 만큼, VRAM이 몇이냐, 또 Multi GPU가 가능하냐가 중요한 부분으로 보여집니다. 1 tokens=0.75 words이며 8K tokens은 4.5GB VRAM이 필요합니다. 그래서 대충 잡아도 컴퓨터 사양이 SSD 2T, 32G RAM에 4090 2대 정도는 가동이 되어야 sLLM을 돌릴 정도라고 추정합니다. VRAM이 8~12GB 인 RTX 3060 Ti로는 서버 가동이 불가능하죠.
GPU서버를 구축하는데 있어서 타워형 데스크탑 컴퓨터를 마련할 것인지, 아니면 서버형으로 마련해서 사람들과 같이 GPU 할당을 하는 서버 즉 SLURM을 할 것인지도 결정해야 할 문제입니다.
<이하 광고>
- AI 칩 전쟁 (3) : 스핀 트랜지스터
- AI 칩 전쟁 (2) : 그래프코어 IPU, 그래프 구조 최적화와 저지연 처리로 AI 연산 혁신
- AI 칩 전쟁 (1) : 웨이퍼 하나를 하나의 칩으로 사용하는 세레브라스의 혁신 전략
- 제철소 용광로에도 AI 기술이
- EU의 AI 법, 중소 AI 기업엔 규제의 턱이 될 가능성이 높아
- AI 칩 전쟁 (3) : ‘디지털 딥러닝’을 뒤쫒는 ‘아나로그 딥러닝’기술
- AI 기업 분석 (1) : Palantir
- 지구상의 ‘AI chip’ 전쟁
- 세상에서 가장 인기있는 AI WEB 사이트 50개
- 캐릭터 사이의 상호작용마저 자동으로 생성하는 ‘Show Runner’ 플랫폼
- 제디터로 상세페이지 고민 끝
- WAFOUR, 동영상의 일관성 문제 해결할 snowpea AI
- chatGPT, 잦은 먹통에 성장통
- AI 사업 아이디어 (29) : 건설 현장에서 맹활약 중인 AI… DL이엔씨
- 의료와 재난 상황에 깊숙이 투입되고 있는 AI
- FIFO-Diffusion 기술, 컨베이어 벨트방식으로 무한한 길이의 고품질 동영상 생성
- AI 생성 음악도 마켓팅이 필요하다
- 생성 AI로 경험해 보지 못한 무한대의 소리까지..가우디오랩
- 현재 우리나라 데이터 센터의 갯수 38개는 꼴찌수준입니다
- 요리하는데 도움주는 AI 사이트 5개
- 온프레미스와 오픈 소스는 AI 시대의 필수 전략
- LPDDR을 이용한 마하칩은 HBM을 따돌릴 수 있을까
- 로컬에서 AI 챗봇과 언어모델 실행을 위한 가이드
- chatGPT4옴니로 엑셀파일에 함수를 자유자재로 부리기
- 쇼셜미디어에서 쇼셜과 미디어가 분리되는 AI 시대에 더욱 커지는 콘텐츠 관리의 중요성
- 메타, GPT-4옴니에 필적할 LLM으로 ‘카멜레온’ 발표
- Runway로 움직이는 상품 이미지 만들어 마켓팅에 돌풍을!
- AI를 이해하기에 적절하며, 유용한 사이트 21개
- CCTV에 AI 도입시 고려 사항
- 구글, 유저들의 프픔프트 작성을 위한 안내 책자 배포
- 인공지능 시대에 더욱 커지는 ‘사람의 역할’, 비영리재단 퓨처 오브 라이프
- 구글의 저력, Sora에 필적할 Veo 방출
- 구글과 OpenAI 진영과의 숨막히는 대결…2024구글 IO
- 마인크래프트(Minecraft) 게임에도 자율 AI 에이전트 도입
- AI 시대의 이야기의 힘 : Storytelling이 왜 중요한가?
- URL만으로도 비디오 생성해주는 AI 사이트, 생성비디오 활용은 신중해야
- OpenAI의 GPT-4옴니, 인간처럼 보고 듣고 말하는 AI 비서
- Google, ‘AlphaFold 3’로 거의 모든 생물학적 분자 구조 예측 가능
- AI 생성음악을 MIDI 파일로 만들어 주는 ‘뮤지아 원’, 좋은 음악교육 도구
- Runway의 두 번째 AI 영화제: 과거와 미래를 잇는 예술의 장
- 소라, 700개 클립 생산해 한 개의 상업용 뮤직비디오 제작에 성공
- 생성AI의 일관성 유지기술 완성이 코앞에 다가왔다-Story Diffusion
- AI 뮤직비디오 걸작은 어디서 나올까, Noisee.ai에 가보세요
- 60개의 AI를 한눈에 서비스 하는 초강력 사이트, ‘POE.com’
- 만화에 진심인 Comic AI, Skyreels로 변경
- 제품과 서비스 홍보용 만화 그리기 좋은 AI 사이트-‘Wetoon’
- 구글의 VLOGGER-목소리와 사진 한장으로 나의 분신을 만든다
- chatGPT도 어도비와 같은 AI 그림 편집기능 도입
- 분실한 휴대폰 금방 찾는다, 구글의 ‘내 디바이스 찾기’
- AI와 블록체인: 코인광풍에 조심해야 할 키워드
- Nvidia, 지구의 기후변화에 대비하는 디지털 트윈 Earth-2 플랫폼 공개
- 메타버스와 AI: 로블록스의 혁신은 AI로 부터
- 애플, 혁신보다 개선에 초점을 맞춘 이미지-텍스트 기술 공개
- 미드저니, cref+url 문구삽입으로 캐릭터의 일관성 유지해
- chatGPT로 전력요금 계산하고 그래프로 보여주는 웹앱 만드는 방법
- chatGPT의 Dalle-3로 표현해보는 미술사조별 그림 스타일
- 텍스트 10만자를 일관성있는 웹툰으로 만들어버리는 AI..Lore Machine의 등장
- AI가 만드는 무한한 가상 세계: 구글 지니(GINIE)
- OpenAI, LLM으로 현실감 넘치는 동영상 생성하는 소라(Sora) 발표
- 페이크(Fake)에 속는 심리적 취약점 53가지
- AI 생성 콘텐츠와 실제 콘텐츠를 구별하는 10가지 방법
- 구글, 현실같은 AI 비디오 생성기 ‘루미에르(lumiere)’ 오픈
- 우리집 전기요금 얼마나 나올까, 요금계산 해보는 앱.
- 2024년 새해에는 4차 산업혁명의 폭발로 인구절벽 해결하자
- 한 해 국내 강력 범죄 발생 현황(2022)
- 2023.1-8월 국내 마약 사범 현황
- 위약금 장사
- 생존을 위해 압류를 차단하는 사례 모음
- 발렌타인데이에 보낼 소중한 e-card 제작
- 신년 e-card 보내기
- e-성탄카드를 직접 만드는 손쉬운 방법