복잡성은 이제 그만! 500만 개 매개변수로 AI 혁신을 이끄는 '작은 재귀 모델'¶
원제목: Tiny Recursive Model - by Grigory Sapunov - Gonzo ML
핵심 요약
- HRM 모델의 한계를 극복하고 '적은 것이 더 많다'는 철학을 따르는 TRM 모델이 등장했음을 알림.
- TRM은 기존 HRM 대비 훨씬 적은 매개변수로 유사한 성능을 달성하며, 복잡한 계층 구조와 생물학적 비유 없이도 효율성을 입증했음을 보여줌.
- TRM은 LLM과는 근본적으로 다른 모델 클래스이며, 특정 과제에 특화되어 있어 범용 AI와 직접 비교하기는 어렵다는 점을 명확히 함.
상세 내용¶
최근 인공지능 분야에서는 '계층적 추론 모델(HRM)'이 작은 모델 크기에도 불구하고 흥미로운 결과를 보여주었지만, 분석 결과 주로 순차적인 답변 개선(심층 감독)의 영향이 크고 실제 재귀 과정의 기여도는 미미했다는 점이 밝혀졌습니다. 이러한 흐름 속에서 '작은 재귀 모델(TRM)'이 등장하여 복잡성을 과감히 줄이고 '적은 것이 더 많다'는 철학을 실천하며 주목받고 있습니다. TRM은 500만에서 1900만 개 사이의 매개변수를 가지는데, 이는 HRM의 2700만 개 매개변수에 비해 훨씬 적은 수준입니다. 이 논문은 HRM에 대한 체계적인 분석을 바탕으로 TRM의 우수성을 입증하고 있습니다. TRM 개발팀은 HRM에서 제기되었던 몇 가지 잠재적인 개선점을 지적합니다. 첫째, Implicit Function Theorem (IFT)을 1단계 기울기 근사만으로 사용하는 방식에 대한 의문이 제기되었습니다. 특히 H 및 L 모듈의 마지막 상태에 대해서만 역전파가 이루어지는 것에 대한 의문과, HRM이 고정점(fixed point)에 도달한다는 가정 자체에 대한 회의적인 시각이 존재했습니다. 둘째, ACT(Adaptive Computation Time)는 계산량을 줄였지만, Q-learning을 통한 계속/중지 값 결정이 추가적인 순방향 연산을 요구하는 단점이 있었습니다. 셋째, HRM의 개발 동기가 생물학적 과정에서 영감을 얻고 포유류 뇌와의 유사성을 확인했다는 점은 흥미롭지만, 왜 특정 구조로 설계되었는지에 대한 명확한 설명은 부족했습니다. 마지막으로, ablations(구성 요소 제거 실험)가 부족하여 생물학적 논증이나 고정점 정리가 실제로 얼마나 중요한지, 그리고 HRM의 어떤 구성 요소가 핵심적인 역할을 하는지 불분명했습니다. TRM 연구진은 이러한 복잡한 요소들을 단순화하여, 생물학적 논증, 고정점 정리, 계층적 해석, 두 개의 독립적인 네트워크 없이도 모델을 이해할 수 있다는 아이디어를 제시합니다. 그들은 또한 왜 2개의 특징(z_L 및 z_H)이 최적의 수인지에 대한 설명도 제공합니다. TRM의 아키텍처는 본질적으로 표준 트랜스포머 블록([self-attention, norm, MLP, norm])으로 구성된 하나의 작은 네트워크입니다. 원래는 4개의 블록으로 설계되었으나, 실험을 통해 2개의 블록으로 최적화되었습니다. 중요한 점은 TRM과 HRM이 우리가 흔히 접하는 LLM(거대 언어 모델)과는 근본적으로 다른 종류의 모델이라는 것입니다. LLM은 인터넷 전체 텍스트를 기반으로 학습된 범용 모델로, 텍스트 생성을 포함해 다양한 지시를 따르고 수학 문제를 푸는 등 광범위한 능력을 자랑합니다. 반면, TRM과 HRM은 주로 BERT와 같은 트랜스포머-인코더 방식으로, 텍스트를 순차적으로 생성하는 LLM과는 달리 입력 토큰 전체를 한 번에 처리하고 동일한 길이의 출력 시퀀스를 생성합니다. 또한, 이들은 범용성이 아닌 특정 과제에만 집중하여 훈련되었으므로, TRM이 LLM을 능가한다는 과장된 주장은 경계해야 합니다. 이 모델은 특정 문제 해결에 특화된 '전문가'로서의 잠재력을 보여줍니다.
편집자 노트¶
이번 '작은 재귀 모델(TRM)'에 대한 분석은 인공지능 연구에서 중요한 시사점을 던져줍니다. 흔히 AI 분야에서는 더 크고 복잡한 모델이 더 좋은 성능을 낼 것이라는 '거대함'에 대한 맹신이 존재했습니다. 하지만 TRM은 이러한 통념에 도전하며, 훨씬 적은 매개변수와 단순화된 구조만으로도 특정 과제에서 강력한 성능을 발휘할 수 있음을 보여주고 있습니다. 이는 마치 복잡한 기계 대신 잘 설계된 단순한 도구가 특정 작업을 더 효율적으로 수행하는 것과 같습니다. 특히, 이전 모델인 HRM이 생물학적 비유나 복잡한 수학적 이론에 의존했던 것과 달리, TRM은 모델 자체의 구조적 단순화와 효율성에 초점을 맞춘 점이 인상적입니다. 이는 AI 모델을 이해하고 발전시키는 데 있어, 불필요한 복잡성보다는 본질적인 효율성을 추구하는 것이 얼마나 중요한지를 다시 한번 깨닫게 해줍니다.
이번 TRM의 등장은 AI 기술의 민주화 가능성을 열어줍니다. 매개변수가 적다는 것은 모델을 훈련하고 배포하는 데 필요한 컴퓨팅 자원이 크게 줄어든다는 것을 의미합니다. 이는 대규모 자본이 없는 연구자나 소규모 팀도 고성능 AI 모델을 개발하고 활용할 수 있는 길을 열어줄 수 있습니다. 또한, 스마트폰이나 임베디드 시스템과 같은 자원이 제한적인 환경에서도 강력한 AI 기능을 구현할 수 있게 되어, 우리 일상생활 곳곳에서 AI의 활용 범위를 넓힐 것으로 기대됩니다. 앞으로 AI 모델 개발이 단순히 '크기 경쟁'에서 벗어나, '효율성과 성능의 균형'을 찾는 방향으로 나아갈 것임을 시사하는 중요한 이정표가 될 것입니다.