vicuna-33b와 exllama라는게 출시되었네요 : 클리앙

한동안 확인을 못하다가 확인을 해보니 llama관련 두가지 큰 변화가 있었네요.

첫번째는 llama 33b를 full finetuing 한 모델의 릴리즈 이고

두번째는 transformers(gptq-for-llama)를 대체하는 exllama가 출시되었네요.

vicuna 33b v1.3

exllama

exllama는현재까지 4090,3090ti gpu에서 개발 중이고 이와 호환되는 gpu들만 지원 하는 것 같습니다

우바부가에 exllama가 포함되어 있어서 간단하게 실행이 가능하더군요.

ex)python server.py --loader exllama --model vicuna-33B-GPTQ

이전 4090 gpu로 테스트시 llama 33b(gqpt-for-llama) 테스트에서10 tokens/s 이하 나왔던 것 같은데

vicuna 33b(exllama)에서 30 tokens/s 이상이 나옵니다.

LLM leaderboard를 보면 llama 튜닝한 모델들 중 sota인것 같습니다.

가볍게 실행만 해봤고 vicuna 33b 모델의 성능이 어느 정도인지 테스트를 해봐야 할 것 같습니다.

AI당