llama 7B, 13B, 30B 간단 테스트 사용기 (4090) : 클리앙

4090을 오늘 수령하고 두근대는 마음으로 4bit llama 7B, 13B, 30B 모델들을 테스트 진행했습니다.

결과물이 문장이어서 결과물을 제가 판단하기는 어려운 것 같아 짧게만 말씀드리면

질문을 잘 하면 좋은 답변을 얻을 수 있었고

7B에서는 엉뚱한 답변을 받기도 했지만 어느정도 답변을 잘 하고 있다고 생각이 되었고

큰 모델로 갈 수록 답변이 좋아진다고 느꼈습니다.

그래도 날 것?의 느낌이 있어 파인튜닝된 버전을 빨리 사용해보고 싶었습니다

4090에서 30B 모델을 실행했을 때 150w 정도의 전력소모만 있었습니다.

gpu 30~40% 정도만 사용하고 있는데 load를 더주어서 tokens/s를 늘릴 수 있는 방법이 있는지 궁금하더군요.

아래는 모델 별 자원 사용량과 실행 시간과 관련된 내용입니다.

7B : VRAM 6.8G, gpu power 80w

13B : VRAM 10G, gpu power 90w

30B : VRAM 20G, gpu power 150w

Loading llama-7b...

Loading model ...

Done.

Loaded the model in 4.86 seconds.

Output generated in 9.51 seconds (21.03 tokens/s, 200 tokens)

Loading llama-13b...

Loading model ...

Done.

Loaded the model in 7.06 seconds.

Output generated in 12.73 seconds (15.71 tokens/s, 200 tokens)

Loading llama-30b...

Loading model ...

Done.

Loaded the model in 109.84 seconds.

Output generated in 19.18 seconds (10.43 tokens/s, 200 tokens)

이상 짧은 사용기를 마침니다.

AI당