한동안 확인을 못하다가 확인을 해보니 llama관련 두가지 큰 변화가 있었네요.
첫번째는 llama 33b를 full finetuing 한 모델의 릴리즈 이고
두번째는 transformers(gptq-for-llama)를 대체하는 exllama가 출시되었네요.
vicuna 33b v1.3
lmsys/vicuna-33b-v1.3 · Hugging Face
TheBloke/vicuna-33B-GPTQ · Hugging Face
exllama
exllama는현재까지 4090,3090ti gpu에서 개발 중이고 이와 호환되는 gpu들만 지원 하는 것 같습니다
우바부가에 exllama가 포함되어 있어서 간단하게 실행이 가능하더군요.
ex)python server.py --loader exllama --model vicuna-33B-GPTQ
이전 4090 gpu로 테스트시 llama 33b(gqpt-for-llama) 테스트에서10 tokens/s 이하 나왔던 것 같은데
vicuna 33b(exllama)에서 30 tokens/s 이상이 나옵니다.
LLM leaderboard를 보면 llama 튜닝한 모델들 중 sota인것 같습니다.
https://lmsys.org/blog/2023-06-22-leaderboard/
가볍게 실행만 해봤고 vicuna 33b 모델의 성능이 어느 정도인지 테스트를 해봐야 할 것 같습니다.
https://www.reddit.com/r/LocalLLaMA/comments/144rg6a/all_model_leaderboards_that_i_know/
이 글에는 여러 가지 리더보드가 소개되어 있으니 관심있는 분은 참고하세요.
vicuna 33b 로딩시 10분걸리네요