Apple Silicon에서 AI 모델 구동하기

Apple Silicon(M1/M2)에서 AI 모델 구동하기

Apple Silicon(M1/M2)에서도 GPU 인퍼런스를 사용하여 AI 모델을 실행시킬 수 있다는 사실, 확인하셨나요? 이 글은 새로운 기술적 접근과 그 실행 과정을 다룹니다.

자료 출처 및 준비 과정

모든 과정은 다음 GitHub Gist 주소에서 상세히 설명하고 있습니다:

LLaMA 모델 구동 가이드

LLaMA 모델 다운 및 구동을 위해 먼저 아래 명령어로 필요한 파일을 복제하세요:

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

다음으로, GPU 인퍼런스 활성화를 위해 다음 명령어로 컴파일하세요:

make clean
LLAMA_METAL=1 make

사용중인 맥북의 메모리에 맞는 모델을 선정하세요. 10GB 이상 기기는 아래 명령어로 13B 모델을 다운로드합니다:

export MODEL=llama-2-13b-chat.Q4_0.gguf 
wget "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_0.gguf"

메모리가 8GB 이하라면, 아래 명령어로 7B 모델을 다운로드하세요:

export MODEL=llama-2-7b-chat.Q4_0.gguf
wget "https://huggingface.co/TheBloke/Llama-2-7B-chat-GGUF/resolve/main/llama-2-7b-chat.Q4_0.gguf"

모델을 다운로드한 후, 아래 명령어를 사용하여 실행할 수 있습니다 (여기서는 7B 모델 예시):

./main -m ./llama-2-7b-chat.Q4_0.gguf -t 8 -n 128 -ngl 1 --prompt "could you generate python code for generating prime numbers?"

이 과정을 통해 신기하게도 실제 코드를 생성할 수 있습니다!

쉽고 간편한 설정을 위해, conda를 사용하여 LLaMA를 위한 독립된 python 환경을 구성할 수 있습니다:

conda create -name=llama2 python=3.11
conda activate llama2
pip install -r requirements.txt

이처럼 새롭고 흥미로운 기술을 Apple Silicon(M1/M2)에 탑재된 맥북에서도 쉽게 사용할 수 있음을 보여줍니다. 이러한 접근이 가능하다니 정말 놀랍지 않나요?