LLM (Large Language Models)

1. llama SourceCode 다운로드 및 실행

짱구네 2024. 4. 8. 23:13
반응형

LLM 이 요즘 핫하다.

- 그래서 llama를 활용해서 오픈 소스를 가지고 챗프로그램을 실행해 보는 작업을 진행해보자.

 

# Download llamacpp & build

git clone https://github.com/ggerganov/llama.cpp
 

GitHub - ggerganov/llama.cpp: LLM inference in C/C++

LLM inference in C/C++. Contribute to ggerganov/llama.cpp development by creating an account on GitHub.

github.com

 

# 다운받은 폴더로 이동

cd llama.cpp

 

# make 실행

make


 

# Download sft ckpt from hugging face hub

huggingface-cli download DreamingBumblebee/llama-7b-ko-alpaca-lora --local-dir=./llama-7b-ko-alpaca-lora

 

# Convert ckpt into gguf

python convert.py ./llama-7b-ko-alpaca-lora

python3 convert.py ../llama-7b-ko-alpaca-lora

 

# Quantize gguf (q4_0 option)

./quantize llama-7b-ko-alpaca-lora/ggml-model-f32.gguf llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf q4_0

./quantize ../llama-7b-ko-alpaca-lora/ggml-model-f32.gguf ../llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf q4_0

 

# Start llamacpp server

./server -m ./llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf -c 512

./server -m ../llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf -c 512

 

실행 결과는 아래와 같다.

 

- 질문 후 답변

질문 : 대한민국의 수도를 알려줘

결과는 아래와 같다.

 

- 끝 -

반응형