RTX3080 10GB GDDR6 를 사용중인데, 그래픽카드 최적화를 및 리컴파일을 한 이후,

평소에 백업해뒀던 프롬프트 및 512x768 로 인물 출력을 테스트 한 결과

그림 생성 속도가 기존 2.8~3.2it/s ▶ 4.8~5.4it/s 까지 향상

작업 시작시 그래픽카드의 쿨러 rpm 속도가 평균 2300rpm 에서 1750rpm (rpm 내려가는 속도가 빨라짐)

그래픽카드의 온도는 75도에서 68도로 줄어듦 (그래픽 카드 쿨러의 소음 발생 빈도가 현저하게 낮아짐)

이렇게 상당히 많은 효과가 있었습니다. 그래픽 카드 쿨러가 일할라 치니 작업 끝났다는 느낌이었죠.

그래서 해당 내용과 방법을 기록으로 남깁니다.

일단 내용이 길어서 최대한 간소화 시키고 다운로드 URL 을 올렸습니다. 작업에 1시간 여 소요 되실겁니다.

가이드만 보고 따라 할 수 있게 끔 텍스트로 작성하였으며, 윈도우 11 PC 에서 정상 테스트 완료했습니다.

- 주의사항 -

1. python 및 git 이 없으면 진행 자체가 불가능합니다.

2. Stable Diffusion 경로 명에 '한글' 이나 '띄어쓰기 2번 이상' 입력되면 매우 높은 확률로 에러가 납니다.

시작 전에 반드시 폴더 명을 영문으로 바꿔주세요.

3. 4000번대 그래픽 카드에서 성능 향상이 크며, 3000번 대의 그래픽 카드의 속도 향상은 장담하지 않습니다.

4. 이른바 통팩 + 원클릭 등의 유저 커스텀화된 Stable Diffusion 에서는 작업이 불가능합니다.

반드시 Automatic1111 의 git clone 설치 본으로 수동 설치 해주세요.

(원래의 Stable Diffusion 설치 가이드를 준수해야 합니다.)

5. 작업 도중 스킵 불가능한 에러가 났을 경우,

모든 변수를 체크하는데 시간이 너무 오래 걸리므로 Stable Diffusion 을 모두 삭제하고 처음부터 Git clone 으로 다시 진행해주세요. (model , LoRa , TI , output 및 controlnet 수동 백업 필수)

- 준비물 -

1. cudnn v8.7.0/local_installers/11.8 다운로드 (해외 서버라 미리 다운로드 필수)

https://developer.download.nvidia.com/compute/redist/cudnn/v8.7.0/local_installers/11.8/

▲ 해당 사이트로 이동 하신 다음 cudnn-windows-x86_64-8.7.0.84_cuda11-archive.zip 을 받아주세요.

2. CUDA Toolkit 11.8 설치하기

https://developer.nvidia.com/cuda-11-8-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=11&target_type=exe_local

▲ CUDA Toolkit 11.8 이 3GB에 달하는 용량이므로 미리 다운로드 및 설치해주세요.

저는 혹시 모를 상황을 대비해 모두 설치 하는 것으로 했습니다.

3. Visual Studio 2022 Community 설치하기

https://visualstudio.microsoft.com/ko/downloads/

▲ Visual Studio 2022 Community 다운로드 후 7.3GB에 달하는 Desktop development with C++ 설치가 필요합니다.

설치와 다운로드에 시간이 좀 걸리니 미리 진행해주세요.

4. Windows Powershell 을 관리자 권한으로 실행 후, Set-ExecutionPolicy RemoteSigned 를 입력해줍니다.

실행 정책을 변경하겠느냐? 라는 질문이 뜨면 Yes (Y) 를 해주면 됩니다.

▲ 스크립트 실행을 반드시 켜야만 합니다.

- 설치 방법 -

1. Pytorch + 및 CUDA 버전을 변경하기

Stable diffusion이 설치된 폴더로 이동해줍니다.

▼

venu 폴더를 바탕 화면 같은 곳에 임시로 백업해줍니다.

백업이 완료됐다면 Stable diffusion 안에 있는 venu 폴더는 삭제 해줍니다.

▼

Stable diffusion이 설치된 폴더에서 webui-user.bat 을 오른쪽 클릭 하여 '편집' 을 눌러줍니다.

▼

6번째 줄의

set COMMANDLINE_ARGS=--theme dark --xformers 를 추가해주시고

7번째 줄이나 8번째 줄에

set TORCH_COMMAND=pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu118

해당 내용을 추가해준 다음 저장(S) 를 해줍니다.

▼

webui-user.bat 를 오른쪽 클릭하여 관리자 권한으로 실행해 주면 Pytorch + 및 CUDA 버전을 새로 받게 됩니다.

▼

작업이 모두 완료됐다면 webui-user.bat 를 테스트 삼아 실행해주시고, 그대로 종료 해주시면 됩니다.

2. cudnn 의 dll 파일 교체하기

준비물 란의 1번에서 받은 cudnn-windows-x86_64-8.7.0.84_cuda11-archive.zip 압축을 풀어줍니다

▼

압축을 풀었으면 bin 폴더 안에 있는 dll 파일을 전부 복사 해줍니다.

▼

Stable diffusion이 설치된 폴더에서 venv\Lib\site-packages\torch\lib 까지 이동한 후 복사한 파일을 붙여 넣기 해줍니다.

3. xformers 리컴파일 하기

(내용이 깁니다. 누락되는 점 없나 천천히 보고 하세요)

Stable diffusion 이 설치된 폴더로 이동합니다.

▼

폴더 내에서 빈 공간에 '오른쪽 클릭' 을 하고 '터미널에서 열기' 를 클릭해줍니다.

(git 필요. 없으면 진행 불가. cmd에서도 가능하나 다루지 않습니다.)

▼

이제 터미널 창이 열렸다면

./venv/scripts/activate 를 입력해줍니다. (온점 모두 포함)

▼

앞에 초록색으로 (venu) 가 붙어야만 정상입니다. 안됐다면 준비물 4번을 다시 봐주세요.

▼

pip uninstall xformers 를 입력해줍니다.

▼

pip install ninja 를 입력해줍니다.

▼

pip install setuptools 를 입력해줍니다.

pip install wheel 를 입력해줍니다.

▼

cd ./repositories 를 입력해줍니다.

▼

git clone https://github.com/facebookresearch/xformers.git --recurse-submodules 를 입력해줍니다.

▼

터미널 창은 유지한 채 파워 쉘을 관리자 권한으로 실행해준 다음

$env:NVCC_FLAGS = "-allow-unsupported-compiler"

를 입력해줍니다. (에러가 나지 않는 이상 아무 반응이 없습니다.)

▼

다시 터미널 창으로 복귀한 다음 cd ./xformers 를 입력해줍니다.

▼

대망의 컴파일입니다. CPU가 좋아야 합니다.

python setup.py build 를 입력해줍니다.

약 5분 여 걸리므로 느긋하게 기다려야 합니다.

▼

완료되고 사용자의 입력을 기다린다면 이젠 python setup.py bdist_wheel 를 입력해줍니다.

▼

터미널을 닫지 마시고,

Stable diffusion 으로 설치된 폴더에서 venu ▶ dist 폴더를 열면 .wheel 파일 명을 가진 컴파일 완료된 파일이 있습니다.

그 해당 파일 이름을 복사해줍니다.

▼

cd ./dist 을 입력해줍니다.

pip install xformers-파일명.whl 을 입력해줍니다.

▼

마지막으로 pip list 를 입력 후 엔터를 치면 에러 없이 정상적으로 출력 되거나,

컴파일 하신 xformers 가 목록에 보인다면 정상입니다.

▼

이제 webui-user.bat 로 실행하시면 새로 xformers 리컴파일된 whl을 불러온 Stable diffusion 사용이 가능합니다.

------------------------------------

프롬프트 단어 최적화와 적당한 해상도를 사용하셔야 효과가 좋으며, 그리고 과도한 LoRA 사용은 지양하시는 편이 좋습니다.

특히 프롬프트 가중치 최적화도 중요합니다.

그림 생성 속도는 아무리 최적화를 했어도 해상도가 월페이퍼 급으로 크거나 Hires 로 작업을 하거나,

또는 Ti, 임베딩, LoRA 를 여러개 동시에 사용할 경우 연산 속도가 크게 오르지 않아 체감율이 매우 낮을 수 있습니다.

또한 3000번대 사용자 분들 중에서는 채굴 여파로 인해 그래픽 카드 복불복이 다소 있을 수 있으므로,

가급적이면 상급 제품으로 진행하시는 것이 좋습니다.

마지막으로 VRAM 이 많아야 좋으므로, VRAM 은 10GB 이상 되는 제품으로 사용하시면 됩니다.

위에서도 아까 말씀드렸지만,

통팩 + 원클릭 등의 유저 커스텀 Stable Diffusion 에서는 작업이 불가능하며,

최적화 작업 도중 터미널에서 원인 불명의 에러가 발생할 경우 처음부터 다시 진행해주시는 것이 진행 상 훨씬 빠르겠습니다.

많은 분들의 최적화와 좋은 그림을 기대하며...

AI그림당

정보
Stable Diffusion 이미지 생성 속도 빠르게 하기 - 3~4000번대 그래픽 카드 최적화 31

- 주의사항 -

- 준비물 -

- 설치 방법 -

1. Pytorch + 및 CUDA 버전을 변경하기

2. cudnn 의 dll 파일 교체하기

3. xformers 리컴파일 하기

(내용이 깁니다. 누락되는 점 없나 천천히 보고 하세요)

AI그림당

정보 Stable Diffusion 이미지 생성 속도 빠르게 하기 - 3~4000번대 그래픽 카드 최적화 31

- 주의사항 -

- 준비물 -

- 설치 방법 -

1. Pytorch + 및 CUDA 버전을 변경하기

2. cudnn 의 dll 파일 교체하기

3. xformers 리컴파일 하기

(내용이 깁니다. 누락되는 점 없나 천천히 보고 하세요)

정보
Stable Diffusion 이미지 생성 속도 빠르게 하기 - 3~4000번대 그래픽 카드 최적화 31