콘텐츠로 이동

AI의 미래, 거대 언어 모델 넘어 '월드 모델'로: Marble, 3D 세계 구축으로 AGI 발전 가속화

원제목: Marble World Model Unlocks Interactive 3D Worlds for AGI Advancement - StartupHub.ai

핵심 요약

  • AGI 발전은 거대 언어 모델이 아닌, 현실 세계를 이해하고 시뮬레이션하는 '월드 모델'에서 비롯될 것이라는 새로운 패러다임이 제시되었습니다.
  • World Labs의 Marble은 텍스트, 이미지, 비디오 등 다양한 입력으로 대화형 3D 세계를 생성하고 편집할 수 있는 혁신적인 도구입니다.
  • Marble은 AI 에이전트 훈련, 로봇 시뮬레이션, 건축 설계 등 다양한 분야에 현실적인 가상 환경을 제공하여 실질적인 AI 응용 가능성을 확장합니다.

상세 내용

인공 일반 지능(AGI)을 향한 여정은 오랫동안 거대 언어 모델(LLM)의 발전이 주도해왔지만, 이제는 '월드 모델'이라는 새로운 흥미로운 영역이 부상하고 있습니다. 최근 World Labs의 Matthew Berman은 저명한 AI 연구자인 Dr. Fei-Fei Li의 지도하에 개발된 혁신적인 제품인 Marble의 놀라운 기능을 선보였습니다. 이들의 비전은 진정한 일반 지능이 다음 단어를 예측하는 것이 아니라, 현실의 근간을 이해하고 시뮬레이션하는 데 달려 있다고 주장합니다.

Berman의 Marble에 대한 심층 분석은 AI 개발에서 중요한 패러다임 전환을 강조합니다. 현재 대부분의 선도적인 연구소들이 LLM에 집중하는 반면, Dr. Fei-Fei Li와 World Labs 팀은 다른 길을 개척하고 있습니다. Berman이 설명하듯이, “Fei-Fei Li와 팀은 거대 언어 모델이 아닌 월드 모델이 인공 일반 지능으로 가는 길이라고 생각합니다.” 이 구분은 근본적입니다. LLM은 시퀀스의 다음 토큰을 예측하는 데 뛰어나 일관된 텍스트를 생성합니다. 반면에 월드 모델은 물리적 세계의 정신적 모델을 구축하여 그 행동, 물리 법칙 및 시각적 외관을 예측하는 것을 목표로 합니다.

Marble을 이끄는 핵심 통찰력은 인간 경험의 내재적인 다중 모달성입니다. 우리는 시각, 청각, 촉각, 언어 등 풍부한 감각의 태피스트리를 통해 세상을 인식하고 상호 작용합니다. 이러한 통합된 이해를 통해 우리는 환경에 대해 추론하고 행동할 수 있습니다. Marble은 AI에게 유사한 능력을 부여하여, 단순히 시각적으로 렌더링될 뿐만 아니라 본질적으로 상호 작용 가능하고 편집 가능한 디지털 세계를 만들어 더 정교한 AI 에이전트를 위한 길을 열어주고자 합니다.

Marble은 누구나 사용할 수 있는 최초의 생성형 다중 모달 월드 모델입니다. 그 기능은 단순한 3D 생성을 훨씬 뛰어넘습니다. 사용자는 텍스트 프롬프트, 단일 이미지, 여러 이미지, 비디오 또는 심지어 거친 3D 레이아웃에 이르기까지 다양한 입력으로 광활한 3D 세계를 만들 수 있습니다. 이러한 다재다능함은 개발자나 디자이너가 간단한 개념으로 시작하여 복잡하고 상세한 환경으로 빠르게 반복할 수 있음을 의미합니다. Marble의 가장 매력적인 기능 중 하나는 대화형 편집입니다. 3D 세계가 생성된 후, 사용자는 미세한 제어로 요소들을 적극적으로 조작할 수 있습니다. Berman은 이를 시연하며 소박한 선술집을 벤치가 테이블을 대체하는 공연 무대로 변형시키거나, 기발한 장면에서 거북이를 호랑이로, 식물을 프렌치프라이로 바꾸는 등 다양한 편집을 보여주었습니다. 이러한 직관적인 편집은 건축 설계, 제품 개발 또는 엔터테인먼트 등 어떤 분야든 신속한 프로토타이핑과 시각화를 가능하게 합니다.

이러한 생성된 세계를 가우시안 스플랫, 메시 또는 비디오를 포함한 다양한 형식으로 내보낼 수 있는 능력은 그 유용성을 더욱 향상시킵니다. Blender 또는 Unreal Engine과 같은 기존 3D 도구와의 상호 운용성은 Marble의 창작물이 더 넓은 워크플로우에 원활하게 통합될 수 있음을 의미합니다. 그러나 진정한 힘은 이러한 세계의 대화형 특성에 있으며, 이는 인간과 AI 에이전트 모두가 그것들과 상호 작용할 수 있도록 합니다. 공장 바닥 시뮬레이션을 개발한다고 상상해 보세요. 로봇을 훈련하기 위해 실제 데이터를 수집하는 비용이 많이 들고 시간이 많이 소요되는 과정 대신, Marble은 디지털 트윈을 생성할 수 있습니다. 그런 다음 가상 로봇을 이 시뮬레이션된 공장 내에 배치하여 제어 가능하고 적응 가능한 환경에서 무한한 규모의 훈련을 받을 수 있습니다. 이러한 현실적인 시뮬레이션된 세계 내에서 '구체화된 에이전트', 즉 로봇을 훈련할 수 있는 이 능력은 로봇 공학 및 산업 자동화에 있어 중요한 도약을 나타냅니다. Berman은 Marble이 자신의 사무실 단일 이미지에서 탐색 가능한 3D 환경을 생성하는 능력을 시연했습니다. 이 시스템은 보이는 요소들을 재현할 뿐만 아니라, 처음에 입력에 존재하지 않았던 집의 일부를 생성하며 환경을 추론하고 확장했습니다. 이는 Marble의 지능적인 외삽 능력, 즉 제한된 데이터에서도 일관된 정신적 모델을 구축하는 능력을 강조합니다. 이 시스템의 '생성' 능력은...


편집자 노트

이번 World Labs의 Marble 공개는 AI 연구의 큰 흐름이 LLM에서 월드 모델로 전환되고 있음을 시사하는 중요한 뉴스입니다. 많은 일반 사용자들은 AI 하면 챗봇이나 이미지 생성 AI를 떠올리지만, 이러한 기술들은 아직 인간처럼 세상을 이해하고 상호 작용하는 능력과는 거리가 멀었습니다. Marble과 같은 월드 모델은 AI가 단순히 텍스트를 생성하거나 이미지를 그리는 것을 넘어, 우리가 사는 물리적 세계의 규칙과 작동 방식을 배우고 이해하도록 돕는다는 점에서 매우 중요합니다.

쉽게 말해, LLM이 '말을 잘하는' AI라면, 월드 모델은 '세상을 이해하는' AI라고 할 수 있습니다. Marble은 3D 공간을 만들고 사용자가 이를 직접 편집하며, AI가 이 속에서 학습하고 행동하도록 설계되었습니다. 이는 마치 AI에게 현실 세계의 '복사본'을 주고, 여기서 다양한 시뮬레이션을 돌려보는 것과 같습니다. 앞으로 이러한 기술이 발전하면, 로봇이 더욱 정교하게 움직이고, 자율 주행 자동차가 더 안전하게 운전하며, 심지어는 가상현실 속에서 더욱 현실적인 경험을 하게 될 가능성이 높아집니다. 우리 일상 속에서 AI의 역할이 더욱 확장될 미래를 엿볼 수 있는 소식이라고 생각합니다.



원문 링크