4090을 오늘 수령하고 두근대는 마음으로 4bit llama 7B, 13B, 30B 모델들을 테스트 진행했습니다.
결과물이 문장이어서 결과물을 제가 판단하기는 어려운 것 같아 짧게만 말씀드리면
질문을 잘 하면 좋은 답변을 얻을 수 있었고
7B에서는 엉뚱한 답변을 받기도 했지만 어느정도 답변을 잘 하고 있다고 생각이 되었고
큰 모델로 갈 수록 답변이 좋아진다고 느꼈습니다.
그래도 날 것?의 느낌이 있어 파인튜닝된 버전을 빨리 사용해보고 싶었습니다
4090에서 30B 모델을 실행했을 때 150w 정도의 전력소모만 있었습니다.
gpu 30~40% 정도만 사용하고 있는데 load를 더주어서 tokens/s를 늘릴 수 있는 방법이 있는지 궁금하더군요.
아래는 모델 별 자원 사용량과 실행 시간과 관련된 내용입니다.
7B : VRAM 6.8G, gpu power 80w
13B : VRAM 10G, gpu power 90w
30B : VRAM 20G, gpu power 150w
Loading llama-7b... Loading model ... Done. Loaded the model in 4.86 seconds. Output generated in 9.51 seconds (21.03 tokens/s, 200 tokens) Loading llama-13b... Loading model ... Done. Loaded the model in 7.06 seconds. Output generated in 12.73 seconds (15.71 tokens/s, 200 tokens) Loading llama-30b... Loading model ... Done. Loaded the model in 109.84 seconds. Output generated in 19.18 seconds (10.43 tokens/s, 200 tokens) |
이상 짧은 사용기를 마침니다.
- alpaca-LoRA는 4090으로 5시간 걸렸다고 하니 할만 할것 같고요
- Stanford alpaca는 a100 8대로 3시간 걸렸다고 하니 a100이 4090보다 0.7배 성능이라면 가정하면 0.7 x 8 x 3 = 16.8시간이니 1일 안에 되긴하는데 부담이 될 것 같습니다.