Figure AI의 최신 로봇 모델인 Figure 03 하드웨어에 탑재된 Helix 02 AI 시스템으로,
걷기와 손동작을 한큐에 자연스럽게 하도록 진화 했다고 합니다. (Locomanipulation)
Helix 02는 단일 뇌(신경망)로 전신을 제어합니다.
이전에는 다리와 손을 따로 컨트롤했는데, 이제 하나의 AI가 시각(카메라) 입력만으로 다리, 팔, 손가락, 심지어 엉덩이와 발까지 동시에 움직 입니다. 예를 들어 걸어가면서 주방에서 접시를 정리하는 거죠
재미있는건 손바닥에 카메라를 따로 달아서 일반적인 시각에 가린곳의 물체를 잡는데 활용하는거죠
약간 아쉽고도 재밋는 부분입니다. 로봇이라면 한번 스캔한 모든 객체들의 좌표를 가지고 있어서 가려도 상관 없을것 같은데 손바닥으로 가려지면 대응이 힘든가 봅니다.
강화학습(RL)으로 10만 시간 연습 해서 로봇이 시뮬레이션으로 수만 번 넘어지고 일어나며 연습했다고 합니다.
실제로 1,000시간 이상 인간 움직임을 보고 학습한 뒤 C-to-C(시각입력-토크 출력) 모델을 구축 하였고,
비틀거리거나 떨리지 않고 안정적으로 걷는 동시에 잡을수 있습니다.
테슬라가 차량으로 비젼 학습을 통해 막대한 데이터를 축척해서 갭이 좀 클거라고 생각했는데 디지털 트윈도 소기의 성과가 있나봅니다.
Hierarchical Task Decomposition (HTN 기반 LLM) 이나 Chain-of-Thought (CoT) Planning 등의 최신 LLM과 유사하게
시스템을 3개로 분리 해서 큰틀에서 세부 사항으로 조작합니다.
System 2 (고수준 계획자)는 상태기반 정책으로 '접시를 정리한다' 와 같이 큰 목표를 세우고 순서를 짭니다.
System 1 (중간 실행자)는 RL로 훈련된 개별 작업 (오른손으로 접시 집고, 왼발 앞으로) 정책 실행합니다.
System 0 (세부 실행)는 실제 근육(모터) 움직임에 대응되며, C++ 10만줄 제어기를 대체하며 토크 직접 계산으로 손가락 3g 압력감지 등 정밀동작을 구현하여 알약등의 매우 작은 물체도 박살내지 않고 집을수 있다고 합니다.
촉각은 시각만큼이나 방대한 정보처리가 필요한데 어떤 방식으로 세밀하게 처리하는지 좀 신기합니다 3g 면 가루 조금 묻은 정도 같은데 말입니다.
조만간 처리량의 폭발적인 증가로 테슬라처럼 AI 5 칩셋과 같이 칩셋 경쟁이 벌어지고 새로운 칩셋 구조를 요구 할듯합니다
모바일 기기 특성상 무한한 출력을 낼수 없기에 전력 문제로 칩셋이 극도록 저전력을 요구하며, 새로운 환경에 학습도 가능한 구조여야 합니다.
결론적으로 Figure 03 는 걸어가면서 약병도 열고 주사기를 사용해 5ml를 정확히 뽑을수 있다고 합니다.
팔 안 쓰고 발로 문 열고 엉덩이로 서랍 닫구 주방 에서는 자연스럽게 식기세척기를 정리합니다.
이 정도면 나중에 소프트웨어 무상 업데이트를 전제로 하나 사둘만 하겠습니다. 1년만 묵히면 어지간한 집안일은 할것 같아요
일단 테슬라와 현대차는 좀 모아두었는데 Figure와 유니트리도 좀 사두고 싶네요~
조만간 로봇에 업혀 다니는 날이 올듯합니다. (사실 그쯤되면 1인 드론이 유행할듯 합니다)
그래서 저는 정부의 보조금 정책도 바뀌어야 한다고 생각해요. 기업의 설비 투자에만 집중할 게 아니라, 일반 시민들이 로봇을 안정적으로 소유하고 그 수익을 누릴 수 있는 구조를 만드는 데 보조가 집중되어야 합니다.
현대차 노조의 로봇 투입 반대 건도 마찬가지죠. 만약 노조원들이 직접 로봇을 구매해 현장에 넣고 그 수익을 배분받는 시스템이었다면, 과연 반대만 했을까요? 결국 기술 그 자체보다 '생산 수단의 소유권'을 어떻게 나눌 것인가가 핵심인 것 같습니다.
다른것보다 신뢰성있는 센서 내부도가 문제겠죠
추가로 촉각에 대한 인사이트를 얻을만한 링크입니다.
https://aimatters.co.kr/news-report/ai-report/34663/
아마 조만간 인간수준의 수십만 포인트의 압력온도를 감지하게 될듯한데 모바일 기기전력상황 하에서 실시간 정보 처리량이 곧 한계에 달할듯 합니다