Apple Silicon(M1/M2)에서 AI 모델 구동하기
Apple Silicon(M1/M2)에서도 GPU 인퍼런스를 사용하여 AI 모델을 실행시킬 수 있다는 사실, 확인하셨나요? 이 글은 새로운 기술적 접근과 그 실행 과정을 다룹니다.
자료 출처 및 준비 과정
모든 과정은 다음 GitHub Gist 주소에서 상세히 설명하고 있습니다:
LLaMA 모델 구동 가이드
LLaMA 모델 다운 및 구동을 위해 먼저 아래 명령어로 필요한 파일을 복제하세요:
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp
GPU 인퍼런스 활성화 및 컴파일 하기
다음으로, GPU 인퍼런스 활성화를 위해 다음 명령어로 컴파일하세요:
make clean LLAMA_METAL=1 make
적절한 모델 선택 및 다운로드
사용중인 맥북의 메모리에 맞는 모델을 선정하세요. 10GB 이상 기기는 아래 명령어로 13B 모델을 다운로드합니다:
export MODEL=llama-2-13b-chat.Q4_0.gguf wget "https://huggingface.co/TheBloke/Llama-2-13B-chat-GGUF/resolve/main/llama-2-13b-chat.Q4_0.gguf"
메모리가 8GB 이하라면, 아래 명령어로 7B 모델을 다운로드하세요:
export MODEL=llama-2-7b-chat.Q4_0.gguf wget "https://huggingface.co/TheBloke/Llama-2-7B-chat-GGUF/resolve/main/llama-2-7b-chat.Q4_0.gguf"
모델 실행하기
모델을 다운로드한 후, 아래 명령어를 사용하여 실행할 수 있습니다 (여기서는 7B 모델 예시):
./main -m ./llama-2-7b-chat.Q4_0.gguf -t 8 -n 128 -ngl 1 --prompt "could you generate python code for generating prime numbers?"
이 과정을 통해 신기하게도 실제 코드를 생성할 수 있습니다!
LLaMA를 위한 Python 환경 설정하기
쉽고 간편한 설정을 위해, conda를 사용하여 LLaMA를 위한 독립된 python 환경을 구성할 수 있습니다:
conda create -name=llama2 python=3.11 conda activate llama2 pip install -r requirements.txt
이처럼 새롭고 흥미로운 기술을 Apple Silicon(M1/M2)에 탑재된 맥북에서도 쉽게 사용할 수 있음을 보여줍니다. 이러한 접근이 가능하다니 정말 놀랍지 않나요?
댓글 없음:
댓글 쓰기