LLM 파인튜닝 해보기

짱구네 2024. 9. 19. 23:07

# 파인튜닝을 해보자

skt/kogpt2-base-v2 모델을 활용하여, 파인튜닝을 진행해 보기로 했다.

학습전 상태

학습 전에 아래와 같이 몇가지 질문을 던져보면, 어뚱한 답변을 한다. 아주 간혹 그럴듯한 답변을 하지만, 음... 이상하다.

AI: 로로드밸런서가 뭔지 알아????????????????????????????????????
사용자: l4
AI: l4ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml, 500ml,
사용자: l4 l7
AI: l4 l7
Lv.1 lv.1 lv.1 lv.1 lv.1
140 lv.1 lv.1 lv.1
140 lv.1 lv.1 lv.1
140 lv.1
사용자: load balancer
AI: load balancer. #20180720 #미롱_식단 
저녁 : #다이어트식단
점심 : #다이어트도시락

일단 학습을 할 데이터는 아래와 같다.

지금현재 블로그에 올라와 있는 글을 몇개 발췌하여 학습을 시켜 보기로 했다.

발췌한 데이터는 아래와 같다. 데이터 량이 매우 소량이라서 학습이 잘 될까 하는 의문이 들긴 했는데 일단 해보기로 했다.

train.txt

0.01MB

위의 txt 파일을 학습 후 결과를 출력해보자.

일단 학습 인자의 설정은 아래와 같다.

# 학습 인자 설정
training_args = TrainingArguments(
    output_dir="./results",  # 학습 결과를 저장할 디렉토리
    overwrite_output_dir=True,  # 기존 출력 디렉토리를 덮어쓸지 여부
    num_train_epochs=10,  # 학습 에포크 수
    per_device_train_batch_size=4,  # 각 디바이스당 배치 크기
    save_steps=10_000,  # 모델을 저장할 스텝 간격
    save_total_limit=2,  # 저장할 총 체크포인트 수
    evaluation_strategy="steps",  # 평가 전략 (스텝 단위 평가)
    eval_steps=1_000,  # 평가 주기 설정 (스텝 단위)
    logging_dir="./logs",  # 로깅 디렉토리
    logging_steps=500,  # 로깅 주기 설정 (스텝 단위)
    learning_rate=3e-5,  # 학습률 조정
    weight_decay=0.01,  # 가중치 감쇠 (정규화)
    warmup_steps=500,  # 워밍업 스텝 수
)

학습 후 결과는 아래와 같다.

사용자: 로드밸런서가 뭔지 알아?
AI: 로드밸런서가 뭔지 알아?"
"그럼, 그거야. 이게 뭐냐고 물으면 대답해 줄 수 있는 거잖아."
"그래서 내가 물어봤어요."
"이건 내 생각이야. 난 네가 원하는 대로 할 수 있어. 그리고 너는 널 위해 일하고 싶어. 하지만 나는 널 위해서 일하는 게 아니니까 말이야."
"난 네가 원하는 것을 다 해낼 수는 없어. 그래서 너를 도와줄 수도 없고 그렇다고 나를 도와주
사용자: l4
AI: l4를 지원한다.
또한 SATA와 API가 통합되어 있어 데이터의 저장 및 저장, 공유, 관리가 용이하다.
SAP는 HTML5 기반의 웹 표준을 기반으로 하며, SW 아키텍처를 통해 다양한 애플리케이션과 서비스를 구현할 수 있다.
이러한 특징 때문에 SAP는 클라우드 컴퓨팅 환경을 구축하기 위해 많은 노력을 기울이고 있으며, 이를 위한 솔루션도 제공하고 있다. LG전자가 지난해 4분기 실적 발표에서 매출
사용자: l4 l7
AI: l4 l7 )
Lv.1 Lv.2
0.5초 마나 소모량 ( 최대 HP ) : -1% ~ +5%
( 쿨타임: 15초, 재사용 대기시간: 10분 )
( 쿨타임이 1분 미만인 경우 ) 2018년 1월 1일, SK텔레콤은 T맵을 통해 'T맵'을 출시했다.
이전까지 T맵의 가장 큰 특징은 바로 실시간 교통정보였다.
교통정보를 기반으로 한 T맵
사용자: load balancer
AI: load balancer’s are the same of a complete management. They were that you don't know, and I am not into an expression to paying outlooked at home.
They will always requiredly asked without take formulatic accordance on their f

위의 내용을 보면 여전히 엉뚱한 말을 하고 있지만, 그래도 의미 있는건 이전의 미 학습시의 답변보다는 나아 졌다느 것이다.

조금더 큰 데이터 셋을 가지고 학습을 시켜보면 유의미한 결과가 있지 않을까 싶다.

- 끝 -

저작자표시 비영리 변경금지