서버(클라우드) computing 활용없이 device 자체 PU로 LLM(추론모델)을 돌리고 의미있는 UX를 만들어 낼 수 있을지 기대가 큽니다.
제가 기대를 하는 몇가지 이유가 있는데요.
1) 이미 작년부터 스마트폰 레벨에서 LLM으로 음성인식을 처리하는 다양한 프로젝트가 나온 상태고 성능도 꽤 인상적인 결과들이 나왔습니다. openAI의 whisper모델의 오픈소스 추론모듈((whisper.cpp 등) 경우 계속 업그레이드되어 모듈 자체의 튜닝 수준과 인식수준이 괘 높습니다. 오픈소스 진영 수준이 이정도인데 삼성 정도면 최소 그 이상은 아니겠냐라는 생각입니다.
2) 추론모듈 뿐 아니라 잘 훈련된 모델이 필요한데, 최근 SKT 실시간 통역 서비스를 보니 학습방법이나 데이터 확보도 상향평준화 되었구나를 느낌니다.
3) PU 뿐 아니라 탑재 메모리 용량이 중요한데 제조사들 중에 스마트폰에 메모리를 양적으로 키울 수 있는 회사는 삼성 정도밖에 없지 않나 생각됩니다. 게다가 최근엔 LLM에서 메모리 사용 최적화에 대한 연구 성과들이 많아 해당 기술들이 적용되지 않을까 생각됩니다.
4) 마지막으로 "실시간 통화 번역"을 on-device로 제공한다는 것은 스마트폰 제조사 입장에서는 엄청난 차별화 요소가 됩니다. 첫째는 음성데이터에 대한 개인정보보호 이슈에서 자유롭게됩니다. 이점은 통신사의 클라우드 기반 실시간 통역 대비 확실한 차별요소죠. 둘째는 개발자 경험 (Developer eXperience)입니다. 다양한 보고서에서 음성기반의 UX가 서비스 생태계에 미치는 영향이 매우 클 것으로 예측하는데요. 실시간 음성통역을 통해 서비스를 이용할 수 있는 UX의 서비스를 만들수 있는 통로가 열리게 된다는것은 매우 큰 기회로 생각됩니다.
작년부터 몰아친 생성형AI의 기저에는 LLM의 기술적 도약이 있었습니다. 하지만 chatGPT를 제외하고는 실제 사용자들이 바로 체감할 수 있는 서비스 출현은 다소 주춤한 상태입니다. 물론 다양하고 인상적인 시도들도 많았고 많은 분들이 AGI도 얘기하지만, 올해 제가 가장 기대하는 것은 "on-device 실시간 통화번역"입니다. 지금은 많이 잊혀졌지만 진정한 "에스페란토의 꿈"은 역설적이게도 에스페란토가 아닌 우리 모국어로 세계인과 대화할 수 있는 지금 만들어지게 될 듯 합니다.
이번 삼전발표를 기대합니다.
STT + 번역 + TTS 그냥 그정도라고 생각합니다.
기술들은 대부분 다 나왔으니 추론 로직 최적화 빡세게하고 메모리 늘리면 크게 어렵진 않아 보입니다.
문제는 모델인데 google, meta, openai 모델 받아 쓰는것도 사업적으로는 좋은 시도고요. 제조사가 꼭 직접 만들 필요는 없잖아요.
암무튼 재료들은 다 있는듯 하니 이번 기회에 잘모아 선전했으면 합니다.
https://www.etri.re.kr/kor/bbs/view.etri?b_board_id=ETRI06&b_idx=17084
이게 맞다면... 속도와 품질 이슈가 좀 있기는 할겁니다.
(실제 업무활용 가능 수준은 최소 13B ~ 70B수준)
3B 모델만해도 양자화 빡시게해서 돌리려면 마지노선이 3GB 메모리에 상주해야 하는데... 쉽지 않아보이긴 합니다.