안녕하세요. 요즈음 Manus를 사용해 보고 있는 데요. 사정이 여의치 않아서 2개 정도의 요청을 해 보았습니다.
그중의 하나가 위에 제목과 같은 요청인데요. 아래 동영상을 보고 따라해 보고 싶었습니다.
동영상에서 오른쪽에 보이는 2D 캐릭터가 LLM의 답변을 나레이션 해주는 컨셉입니다.
이 요청을 하기 위해 제가 사용한 프롬프트는 다음과 같습니다.
[프롬프트]
I'd like to get the "Realtime Local AI Chatbot with Zonos and Llama3" it means STT(Speech To Text) and TTS(Text To Speech) function should be included. 2D animated character should narate the response of the LLM. OS: MacOS, Windows LLM: Gemma 3 (27B model preferred) TTS: Zonos preferred(or cosyVoice2)
Reference link:
If you can, I would like to get the same character in the youtube link.
최종적으로 제가 원하는 결과는 얻지 못했지만, 진행 과정은 놀라웠습니다.
Manus는 문제(Mission)를 해결해 나가는 과정을 채팅창 옆에 보여 주는 데, 이걸 보고 있으면, 이 친구가 어떤 작업을 하고있는지를 알 수 있었습니다. 그리고, Manus는 탁월한 문제 분해 능력을 보여 줍니다.
아래는 이의 예시로 Manus가 작업 초기에 생성한 todo 문서입니다.
[todo]
# Realtime Local AI Chatbot with Zonos and Llama3
## 작업 목록
### 1. 로컬 AI 챗봇 구성 요소 조사
- [x] Gemma 3 LLM (27B 모델) 정보 수집
- [x] Zonos TTS 기술 조사
- [x] STT(Speech To Text) 기술 조사
- [x] 2D 애니메이션 캐릭터 구현 방법 조사
- [x] 참조 영상 분석
### 2. 개발 환경 설정
- [x] MacOS 및 Windows 호환성 확인
- [x] 필요한 라이브러리 및 도구 식별
- [x] 개발 환경 구성
### 3. LLM 통합
- [x] Gemma 3 모델 설치 및 설정
- [x] 로컬 추론 구현
- [x] 채팅 인터페이스 개발
### 4. STT 기능 구현
- [x] STT 라이브러리 선택 및 통합
- [x] 실시간 음성 인식 구현
- [x] 오디오 입력 처리
### 5. TTS 기능 구현
- [x] Zonos TTS 통합
- [x] 음성 출력 구현
- [x] 대체 옵션으로 CosyVoice2 조사
### 6. 2D 애니메이션 캐릭터 생성
- [x] 참조 영상의 캐릭터와 유사한 캐릭터 디자인
- [x] 애니메이션 프레임워크 선택
- [x] 립싱크 및 표정 애니메이션 구현
### 7. 구성 요소 통합 및 테스트
- [x] 모든 구성 요소 통합
- [x] 전체 시스템 테스트
- [ ] 성능 최적화
### 8. MacOS 및 Windows 패키징
- [ ] MacOS 배포 패키지 생성
- [ ] Windows 배포 패키지 생성
- [ ] 설치 지침 작성
### 9. 문서 작성 및 전달
- [ ] 사용자 매뉴얼 작성
- [ ] 설치 가이드 작성
- [ ] 최종 결과물 전달
Manus가 작성한 문서는 이외에도 여러 개가 있는 데, 그 자체로 이런 종류의 프로젝트를 진행할 때, 많은 도움이 될 것 같습니다.
작성한 문서에는 참고비디오 분석, 사용자 매뉴얼, 설치 매뉴얼, 패키징 매뉴얼 등이 있었습니다.
아래는 제가 작업한 링크입니다.
https://manus.im/share/GXrr1xEEdEEtxbskaeJdu4?replay=1
링크에 들어 가시면 작업 과정과 이를 수행하면서 만들어진 모든 문서를 보실 수 있습니다.
약 2일간 써보면서, '기술의 발전 속도가 정말 빠르구나'하는 것을 느꼈고. 그리고, 이 발전 속도는 더 가속화될 것 같다는 생각이 들었습니다. 더 사용해 보고 재미있는 아이디어나 공유할 만한 내용이 생기면 다시 후기 올리겠습니다.