RTX3080 10GB GDDR6 를 사용중인데, 그래픽카드 최적화를 및 리컴파일을 한 이후,
평소에 백업해뒀던 프롬프트 및 512x768 로 인물 출력을 테스트 한 결과
그림 생성 속도가 기존 2.8~3.2it/s ▶ 4.8~5.4it/s 까지 향상
작업 시작시 그래픽카드의 쿨러 rpm 속도가 평균 2300rpm 에서 1750rpm (rpm 내려가는 속도가 빨라짐)
그래픽카드의 온도는 75도에서 68도로 줄어듦 (그래픽 카드 쿨러의 소음 발생 빈도가 현저하게 낮아짐)
이렇게 상당히 많은 효과가 있었습니다. 그래픽 카드 쿨러가 일할라 치니 작업 끝났다는 느낌이었죠.
그래서 해당 내용과 방법을 기록으로 남깁니다.
일단 내용이 길어서 최대한 간소화 시키고 다운로드 URL 을 올렸습니다. 작업에 1시간 여 소요 되실겁니다.
가이드만 보고 따라 할 수 있게 끔 텍스트로 작성하였으며, 윈도우 11 PC 에서 정상 테스트 완료했습니다.
- 주의사항 -
1. python 및 git 이 없으면 진행 자체가 불가능합니다.
2. Stable Diffusion 경로 명에 '한글' 이나 '띄어쓰기 2번 이상' 입력되면 매우 높은 확률로 에러가 납니다.
시작 전에 반드시 폴더 명을 영문으로 바꿔주세요.
3. 4000번대 그래픽 카드에서 성능 향상이 크며, 3000번 대의 그래픽 카드의 속도 향상은 장담하지 않습니다.
4. 이른바 통팩 + 원클릭 등의 유저 커스텀화된 Stable Diffusion 에서는 작업이 불가능합니다.
반드시 Automatic1111 의 git clone 설치 본으로 수동 설치 해주세요.
(원래의 Stable Diffusion 설치 가이드를 준수해야 합니다.)
5. 작업 도중 스킵 불가능한 에러가 났을 경우,
모든 변수를 체크하는데 시간이 너무 오래 걸리므로 Stable Diffusion 을 모두 삭제하고 처음부터 Git clone 으로 다시 진행해주세요. (model , LoRa , TI , output 및 controlnet 수동 백업 필수)
- 준비물 -
1. cudnn v8.7.0/local_installers/11.8 다운로드 (해외 서버라 미리 다운로드 필수)
https://developer.download.nvidia.com/compute/redist/cudnn/v8.7.0/local_installers/11.8/
▲ 해당 사이트로 이동 하신 다음 cudnn-windows-x86_64-8.7.0.84_cuda11-archive.zip 을 받아주세요.
2. CUDA Toolkit 11.8 설치하기
▲ CUDA Toolkit 11.8 이 3GB에 달하는 용량이므로 미리 다운로드 및 설치해주세요.
저는 혹시 모를 상황을 대비해 모두 설치 하는 것으로 했습니다.
3. Visual Studio 2022 Community 설치하기
https://visualstudio.microsoft.com/ko/downloads/
▲ Visual Studio 2022 Community 다운로드 후 7.3GB에 달하는 Desktop development with C++ 설치가 필요합니다.
설치와 다운로드에 시간이 좀 걸리니 미리 진행해주세요.
4. Windows Powershell 을 관리자 권한으로 실행 후, Set-ExecutionPolicy RemoteSigned 를 입력해줍니다.
실행 정책을 변경하겠느냐? 라는 질문이 뜨면 Yes (Y) 를 해주면 됩니다.
▲ 스크립트 실행을 반드시 켜야만 합니다.
- 설치 방법 -
1. Pytorch + 및 CUDA 버전을 변경하기
Stable diffusion이 설치된 폴더로 이동해줍니다.
▼
venu 폴더를 바탕 화면 같은 곳에 임시로 백업해줍니다.
백업이 완료됐다면 Stable diffusion 안에 있는 venu 폴더는 삭제 해줍니다.
▼
Stable diffusion이 설치된 폴더에서 webui-user.bat 을 오른쪽 클릭 하여 '편집' 을 눌러줍니다.
▼
6번째 줄의
set COMMANDLINE_ARGS=--theme dark --xformers 를 추가해주시고
7번째 줄이나 8번째 줄에
set TORCH_COMMAND=pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu118
해당 내용을 추가해준 다음 저장(S) 를 해줍니다.
▼
webui-user.bat 를 오른쪽 클릭하여 관리자 권한으로 실행해 주면 Pytorch + 및 CUDA 버전을 새로 받게 됩니다.
▼
작업이 모두 완료됐다면 webui-user.bat 를 테스트 삼아 실행해주시고, 그대로 종료 해주시면 됩니다.
2. cudnn 의 dll 파일 교체하기
준비물 란의 1번에서 받은 cudnn-windows-x86_64-8.7.0.84_cuda11-archive.zip 압축을 풀어줍니다
▼
압축을 풀었으면 bin 폴더 안에 있는 dll 파일을 전부 복사 해줍니다.
▼
Stable diffusion이 설치된 폴더에서 venv\Lib\site-packages\torch\lib 까지 이동한 후 복사한 파일을 붙여 넣기 해줍니다.
3. xformers 리컴파일 하기
(내용이 깁니다. 누락되는 점 없나 천천히 보고 하세요)
Stable diffusion 이 설치된 폴더로 이동합니다.
▼
폴더 내에서 빈 공간에 '오른쪽 클릭' 을 하고 '터미널에서 열기' 를 클릭해줍니다.
(git 필요. 없으면 진행 불가. cmd에서도 가능하나 다루지 않습니다.)
▼
이제 터미널 창이 열렸다면
./venv/scripts/activate 를 입력해줍니다. (온점 모두 포함)
▼
앞에 초록색으로 (venu) 가 붙어야만 정상입니다. 안됐다면 준비물 4번을 다시 봐주세요.
▼
pip uninstall xformers 를 입력해줍니다.
▼
pip install ninja 를 입력해줍니다.
▼
pip install setuptools 를 입력해줍니다.
pip install wheel 를 입력해줍니다.
▼
cd ./repositories 를 입력해줍니다.
▼
git clone https://github.com/facebookresearch/xformers.git --recurse-submodules 를 입력해줍니다.
▼
터미널 창은 유지한 채 파워 쉘을 관리자 권한으로 실행해준 다음
$env:NVCC_FLAGS = "-allow-unsupported-compiler"
를 입력해줍니다. (에러가 나지 않는 이상 아무 반응이 없습니다.)
▼
다시 터미널 창으로 복귀한 다음 cd ./xformers 를 입력해줍니다.
▼
대망의 컴파일입니다. CPU가 좋아야 합니다.
python setup.py build 를 입력해줍니다.
약 5분 여 걸리므로 느긋하게 기다려야 합니다.
▼
완료되고 사용자의 입력을 기다린다면 이젠 python setup.py bdist_wheel 를 입력해줍니다.
▼
터미널을 닫지 마시고,
Stable diffusion 으로 설치된 폴더에서 venu ▶ dist 폴더를 열면 .wheel 파일 명을 가진 컴파일 완료된 파일이 있습니다.
그 해당 파일 이름을 복사해줍니다.
▼
cd ./dist 을 입력해줍니다.
pip install xformers-파일명.whl 을 입력해줍니다.
▼
마지막으로 pip list 를 입력 후 엔터를 치면 에러 없이 정상적으로 출력 되거나,
컴파일 하신 xformers 가 목록에 보인다면 정상입니다.
▼
이제 webui-user.bat 로 실행하시면 새로 xformers 리컴파일된 whl을 불러온 Stable diffusion 사용이 가능합니다.
------------------------------------
프롬프트 단어 최적화와 적당한 해상도를 사용하셔야 효과가 좋으며, 그리고 과도한 LoRA 사용은 지양하시는 편이 좋습니다.
특히 프롬프트 가중치 최적화도 중요합니다.
그림 생성 속도는 아무리 최적화를 했어도 해상도가 월페이퍼 급으로 크거나 Hires 로 작업을 하거나,
또는 Ti, 임베딩, LoRA 를 여러개 동시에 사용할 경우 연산 속도가 크게 오르지 않아 체감율이 매우 낮을 수 있습니다.
또한 3000번대 사용자 분들 중에서는 채굴 여파로 인해 그래픽 카드 복불복이 다소 있을 수 있으므로,
가급적이면 상급 제품으로 진행하시는 것이 좋습니다.
마지막으로 VRAM 이 많아야 좋으므로, VRAM 은 10GB 이상 되는 제품으로 사용하시면 됩니다.
위에서도 아까 말씀드렸지만,
통팩 + 원클릭 등의 유저 커스텀 Stable Diffusion 에서는 작업이 불가능하며,
최적화 작업 도중 터미널에서 원인 불명의 에러가 발생할 경우 처음부터 다시 진행해주시는 것이 진행 상 훨씬 빠르겠습니다.
많은 분들의 최적화와 좋은 그림을 기대하며...
통팩밖에 할줄 몰라서.. 그냥 둬야겠군요 ㅠㅠ
4000번대 글카들은 대부분 성능 향상이 3~4배라고 합니다.
어떤분들은 실행조차 안되는 에러가 난다고들 하더군요.
3070인데.. 성능향상이 있을려나 모르겠네요.
칭찬 감사합니다 ㅎㅎ
시작은 3060 12G 부터 시작한다는 말이있을만큼 최신기술이다보니...
그래도 양덕들이 꾸준하게 1000번대와 2000번대로 도전중이긴 합니다.
(대부분 다운로드와 컴파일시간..)
/Vollago
모바일 랩탑의 경우 아무래도 총합 전력 땡겨오는데에 어댑터로는 한계가 있다 보니 어쩔 수 없나봅니다 ㅠ ㅠ
pip install setuptools랑 pip install wheel는 안해도 처음부터 있던데 상관없죠?
그리고 중간에 .wheel 파일 위치가 venu/dist가 아니라 xformers/dist던데 맞나요?
그게 아니면 처음에 잘못 세팅된 상태로 사용을 쭉 하다가 > 최적화가 되면서 원래 속도가 나오는 케이스가 자주 발견 되는 것 같습니다.
어... 개발쪽을 하시는 부분이라면, 이미 설치되어 있으시다면 아마 그래도 되지 않을까 싶습니다.
디렉토리는 제가 한번 가서 다시 확인 해보겠습니다. 제가 잘못 기억하고 있을 가능성이 높습니다 ^^;
(완성된 컴파일의 위치가 얼추 맞으면 됩니다~)
지난주에 4090수령받고 그저께까지 한 최적화 방법입니다.
1. 4000번대 최적화이후 속도가 27~28it/s로 약간 불만족스러워 여러 게시글 참조하면서 조정했구요.
https://arca.live/b/aiart/71559091
2. xformers 지우고 torch 2.0 운용(최종:20%속도업, 개인차있음)
https://arca.live/b/aiart/71905471
3. 속도테스트는 아래링크 참조 512*512 기준
https://arca.live/b/aiart/71651522
이미지 생성외에 최적화에 대한 글들이 많았으면 합니다. 많은 공유 부탁드려요
작은 글에 공감해주셔서 감사드립니다 :-)
set TORCH_COMMAND=pip install --pre torch torchvision torchaudio --index-url
https://download.pytorch.org/whl/nightly/cu118
웹 주소까지 복사를 해야 하는건가요?
윈도우 11인데 주소까지 복사하고 저장 후에 관리자권한 실행하면 창이 떴다가 금방 사라지던데요. ㅠㅠ
포함해서 저장 후에 관리자 권한 실행 해도 커맨드 창이 유지 되지 않고 꺼지더군요;;;;
실행하면 무슨 에러가 뜨면서 다운로드도 되어 있지 않고요.
저는 여기서 막히는데...아무래도 설치가 다 끝난 시점에서 한거라
지우고 재설치 하는 시점에서 다시 한번 해봐야겠네요.
파이썬 설치하실 때 밑에 체크박스 하나 있는데 혹시 그거 체크하셨을까요?
파이썬은...예전에 설치 했을 때 유투브 보면서 설치 한거라...
그 부분은 잘 모르겠네요;;;
노트북(i9-12900H, 3080Ti Laptop 16vram, 48GB) 인데 평균 20 it/s 찍네요. (20s/it 인가 헷갈리네요;;;)
어제처음 밤새 SD를 설치하고 처음 돌린거라 제가 제대로 확인한게 맞는지 모르겠지만요;;;
파이토치랑 cudnn 을 수동으로 바꾸게 되면 일부 환경에서는 에러가 발생하거나 속도가 떨어지기 때문에 리컴파일이 필요한 항목인데 속도가 만족하실만한 수준이시라면 다행인 것 같습니다~
위에서 말씀하신대로 automatic1111의 방식대로 설치한 SD WebUI이구요. 아래의 명령어로 pytorch와 cuda를 업그레이드 했습니다.
pip install https://download.pytorch.org/whl/cu118/torch-2.0.0%2Bcu118-cp310-cp310-win_amd64.whl https://download.pytorch.org/whl/cu118/torchvision-0.15.0%2Bcu118-cp310-cp310-win_amd64.whl