728x90
반응형
LLM 이 요즘 핫하다.
- 그래서 llama를 활용해서 오픈 소스를 가지고 챗프로그램을 실행해 보는 작업을 진행해보자.
# Download llamacpp & build
git clone https://github.com/ggerganov/llama.cpp
# 다운받은 폴더로 이동
cd llama.cpp
# make 실행
make
# Download sft ckpt from hugging face hub
huggingface-cli download DreamingBumblebee/llama-7b-ko-alpaca-lora --local-dir=./llama-7b-ko-alpaca-lora
# Convert ckpt into gguf
python convert.py ./llama-7b-ko-alpaca-lora
python3 convert.py ../llama-7b-ko-alpaca-lora
# Quantize gguf (q4_0 option)
./quantize llama-7b-ko-alpaca-lora/ggml-model-f32.gguf llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf q4_0
./quantize ../llama-7b-ko-alpaca-lora/ggml-model-f32.gguf ../llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf q4_0
# Start llamacpp server
./server -m ./llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf -c 512
./server -m ../llama-7b-ko-alpaca-lora/ggml-model-f32-q4_0.gguf -c 512
실행 결과는 아래와 같다.
- 질문 후 답변
질문 : 대한민국의 수도를 알려줘
결과는 아래와 같다.
- 끝 -
728x90
반응형
'LLM (Large Language Models)' 카테고리의 다른 글
ollama를 활용한 llm 만들어보기 (4) | 2024.09.15 |
---|