태그

2024년 4월 7일 일요일

Apple Silicon(M1/M2)에서 AI 모델 구동하기: LLaMA를 통한 GPU 인퍼런스 살펴보기

Apple Silicon에서 AI 모델 구동하기

Apple Silicon(M1/M2)에서 AI 모델 구동하기

Apple Silicon(M1/M2)에서도 GPU 인퍼런스를 사용하여 AI 모델을 실행시킬 수 있다는 사실, 확인하셨나요? 이 글은 새로운 기술적 접근과 그 실행 과정을 다룹니다.

자료 출처 및 준비 과정

모든 과정은 다음 GitHub Gist 주소에서 상세히 설명하고 있습니다:

LLaMA 모델 구동 가이드

LLaMA 모델 다운 및 구동을 위해 먼저 아래 명령어로 필요한 파일을 복제하세요:

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
        

GPU 인퍼런스 활성화 및 컴파일 하기

다음으로, GPU 인퍼런스 활성화를 위해 다음 명령어로 컴파일하세요:

make clean
LLAMA_METAL=1 make
        

적절한 모델 선택 및 다운로드

사용중인 맥북의 메모리에 맞는 모델을 선정하세요. 10GB 이상 기기는 아래 명령어로 13B 모델을 다운로드합니다:

export MODEL=llama-2-13b-chat.Q4_0.gguf 
wget "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_0.gguf"
        

메모리가 8GB 이하라면, 아래 명령어로 7B 모델을 다운로드하세요:

export MODEL=llama-2-7b-chat.Q4_0.gguf
wget "https://huggingface.co/TheBloke/Llama-2-7B-chat-GGUF/resolve/main/llama-2-7b-chat.Q4_0.gguf"
        

모델 실행하기

모델을 다운로드한 후, 아래 명령어를 사용하여 실행할 수 있습니다 (여기서는 7B 모델 예시):

./main -m ./llama-2-7b-chat.Q4_0.gguf -t 8 -n 128 -ngl 1 --prompt "could you generate python code for generating prime numbers?"
        

이 과정을 통해 신기하게도 실제 코드를 생성할 수 있습니다!

LLaMA를 위한 Python 환경 설정하기

쉽고 간편한 설정을 위해, conda를 사용하여 LLaMA를 위한 독립된 python 환경을 구성할 수 있습니다:

conda create -name=llama2 python=3.11
conda activate llama2
pip install -r requirements.txt
        

이처럼 새롭고 흥미로운 기술을 Apple Silicon(M1/M2)에 탑재된 맥북에서도 쉽게 사용할 수 있음을 보여줍니다. 이러한 접근이 가능하다니 정말 놀랍지 않나요?

댓글 없음:

댓글 쓰기

네이버클라우드플랫폼 SFC(Service Function Chain) 및 Transit VPC 설명

 요즘은 사이버 보안에 대한 요구가 더욱 강해지고 있습니다. 국가 클라우드 컴퓨팅 보안 가이드라인 업데이트와 같은 법적 조치는 보안 관제의 중요성을 강조하며, 보다 체계적이고 통합된 접근 방식이 필요하다는 것을 보여주고 있습니다. 이런 ...