구글 딥마인드의 '생각하는 AI', 로봇 지능에 혁신적 도약을 가져오다¶
원제목: Robots receive major intelligence boost thanks to Google DeepMind's 'thinking AI' - Live Science
핵심 요약
- 구글 딥마인드가 '생각하는 AI' 모델을 통해 로봇의 복잡한 다단계 작업 및 추론 능력을 획기적으로 향상시켰음
- 두 가지 AI 모델(ER 1.5와 1.5)이 상호작용하며 환경 인지, 자연어 명령 처리, 작업 계획 및 실행을 정교하게 수행함
- 로봇이 학습 내용을 다양한 로봇 시스템에 적용할 수 있게 되어, 일반적인 작업을 수행하는 휴머노이드 로봇 개발에 중요한 진전을 이룸
상세 내용¶
구글 딥마인드가 로봇 지능을 획기적으로 끌어올릴 새로운 AI 모델인 '제미니 로보틱스 1.5(Gemini Robotics 1.5)'와 '제미니 로보틱스-ER 1.5(Gemini Robotics-ER 1.5)'를 공개했다. 이 모델들은 이전에는 불가능했던 복잡하고 여러 단계를 거치는 작업을 로봇이 수행하고, 정교한 추론 능력을 발휘할 수 있게 한다. 이는 로봇이 실제 환경에서 인간을 돕는 미래를 향한 중요한 이정표가 될 것으로 보인다. 이러한 발전은 단순히 기술적인 진보를 넘어, 로봇의 활용 범위를 크게 확장할 잠재력을 지닌다.
올해 초 딥마인드는 제미니 대규모 언어 모델(LLM)을 기반으로 로봇 공학에 특화된 AI 모델인 '제미니 로보틱스'의 첫 버전을 선보인 바 있다. 당시 이 모델은 로봇이 물리적 공간에서 추론하고 간단한 작업을 수행하도록 했다. 그러나 새로 공개된 1.5 버전들은 원래 모델의 기능을 훨씬 뛰어넘어, 여러 단계로 구성된 '장기적 과제(long-horizon tasks)'를 처리할 수 있도록 그 역량을 크게 확장했다. 예를 들어, 기존 AI 모델은 "이 바나나를 바구니에 넣어라"와 같은 간단한 지시만 수행할 수 있었다면, 이제는 여러 과일을 색깔별로 분류하여 개별 용기에 담는 등의 복합적인 작업을 할 수 있다. 로봇은 이 과정에서 자신이 무엇을 왜 하는지 자연어로 설명하기까지 한다.
딥마인드의 수석 연구 과학자인 지에 탄(Jie Tan)은 이번 신기술을 통해 로봇이 "생각할 수 있게 되었다"고 설명했다. 로봇은 이제 환경을 인지하고, 단계별로 사고하며, 여러 단계를 거쳐야 하는 복잡한 과제를 완수할 수 있다는 것이다. 그는 바나나 분류와 같은 시연이 겉보기에는 매우 간단해 보이지만, 그 이면에 담긴 아이디어는 실로 강력하다고 강조했다. 이 모델이 향후 더욱 정교한 휴머노이드 로봇이 복잡한 일상 업무를 수행하는 데 핵심적인 역할을 할 것이라는 비전을 제시했다. 로봇은 과일과 접시의 공간적 위치를 파악하고, 객체를 식별하며, 특성에 따라 과일과 접시를 연결하고, 자신의 추론 과정을 자연어로 설명하는 등 여러 고도화된 능력을 동시에 보여준다.
이러한 발전은 두 가지 새로운 AI 모델이 상호작용하는 방식 덕분에 가능했다. 이 모델들은 마치 관리자와 작업자처럼 협력한다. '구글 로보틱스-ER 1.5'는 '두뇌' 역할을 하는 비전-언어 모델(VLM)로, 공간과 객체에 대한 정보를 수집하고, 자연어 명령을 처리하며, 고급 추론 및 도구를 활용해 '구글 로보틱스 1.5'에게 지시를 보낸다. '구글 로보틱스 1.5'는 '손과 눈' 역할을 하는 비전-언어-액션(VLA) 모델로, 이 지시를 공간에 대한 시각적 이해와 일치시킨 후 계획을 세워 실행하고, 그 과정과 추론에 대한 피드백을 제공한다. 이 두 모델은 이전 버전보다 훨씬 더 뛰어난 능력을 지녔으며, 구글 검색과 같은 외부 도구까지 활용하여 작업을 완수할 수 있다. 한 시연에서는 로봇이 사용자의 위치(샌프란시스코)에 기반한 재활용 규칙을 인터넷에서 찾아 쓰레기를 정확하게 분류하는 모습을 보였다.
새로운 모델들이 보여주는 또 다른 중요한 진전은 여러 로봇 시스템에 걸쳐 학습하고 그 학습 내용을 적용할 수 있는 능력이다. 딥마인드 관계자들은 '알로하 2' 로봇 팔, '아폴로 휴머노이드 로봇', 그리고 '프랑카 로봇' 등 다양한 로봇 시스템에서 얻은 학습 내용이 모델의 일반화된 학습 및 진화 방식 덕분에 다른 어떤 시스템에도 적용될 수 있다고 밝혔다. 이는 '일반 목적 로봇'이 물리적 세계에 대한 깊은 이해, 고급 추론, 그리고 일반적이고 능숙한 제어 능력을 필요로 한다는 점에서 매우 중요하다고 제미니 로보틱스 팀은 강조했다. 결과적으로 이 기술은 로봇이 더 효율적으로 다양한 작업을 수행하고, 새로운 환경에 빠르게 적응할 수 있는 길을 열어줄 것으로 기대된다.
편집자 노트¶
이번 구글 딥마인드의 발표는 언뜻 복잡한 기술 이야기처럼 들릴 수 있지만, 사실 우리 일상생활에 지대한 영향을 미칠 중요한 소식입니다. 핵심은 로봇이 단순히 주어진 명령을 기계적으로 수행하는 수준을 넘어, 스스로 '생각하고 추론하는' 능력을 갖추게 되었다는 점입니다. 마치 인간이 어떤 일을 할 때 왜, 어떻게 해야 하는지 단계를 거쳐 고민하는 것처럼, 로봇도 이제는 주변 환경을 인지하고 복잡한 과제를 해결하기 위한 과정을 스스로 계획할 수 있게 된 것입니다. 이는 공장에서 정해진 부품만 조립하거나 단순 반복 작업만 하던 로봇의 한계를 뛰어넘어, 좀 더 지능적이고 유연한 조력자로 진화하고 있음을 의미합니다.
특히 주목할 점은 로봇이 학습한 내용을 다른 종류의 로봇 시스템에도 적용할 수 있다는 '크로스 시스템 학습(cross-system learning)' 능력입니다. 이는 하나의 로봇이 어떤 작업을 통해 얻은 지식을 다른 형태의 로봇도 공유하고 활용할 수 있게 된다는 뜻입니다. 예를 들어, 물건을 분류하는 법을 배운 로봇 팔이 그 지식을 활용해 휴머노이드 로봇이 가정에서 옷을 정리하는 데 도움을 줄 수도 있다는 이야기입니다. 이러한 '일반 목적 로봇'의 등장은 로봇이 단순히 특정 기능만 수행하는 기계를 넘어, 다양한 환경과 상황에 적응하며 여러 종류의 과업을 수행할 수 있는 진정한 의미의 파트너로 발전할 수 있음을 시사합니다. 미래에는 물류, 의료, 서비스 분야는 물론 개인 비서 역할까지 로봇의 활용 범위가 상상할 수 없을 정도로 확장될 것이며, 이는 우리의 삶을 더욱 편리하고 효율적으로 만드는 데 크게 기여할 것입니다.