안녕하세요.
F5-TTS 와 E2-TTS 를 지원하는 gradio webui 를 소개합니다.

F5-TTS 는 zero-shot voice cloning 을 지원하는 system 입니다.
따라서, 15초 분량의 레퍼런스 오디오만으로도 음성 복제가 가능합니다.
E2-TTS 는 Microsoft 가 공개한 논문을 바탕으로 외부에서 구현한 모델입니다.
감정 표현에 뛰어납니다.
E2-TTS 와 F5-TTS 를 이용하면, 손쉽게 음성을 복제하여 TTS 에 사용할 수 있습니다.
ABUS의 Voice-Pro 는 원클릭으로 설치와 구동을 지원합니다.
또한, ABUS의 Voice-Pro 는 이제 faster-whisper 와 openai-whisper 뿐만 아니라
whisper-timestamped 등의 whisper alternatives 를 지원합니다.
최근에 나온 turbo 모델을 이용하면 8배 빠른 속도로 음성 인식, 자막 제작이 가능합니다.
faster-whisper 는 whisper 에 비해 평균 5배 정도 빠른 걸로 나옵니다.
자세한 내용은 github 페이지를 참조해 주세요.
https://github.com/abus-aikorea/voice-pro