1조 개 파라미터 '사고 모델' 등장: 강화학습 발전으로 AI 추론 능력 혁신¶
원제목: Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
핵심 요약
- 연구팀이 1조 개의 파라미터를 가진 최초의 오픈소스 '사고 모델'인 Ring-1T를 공개했음.
- Ring-1T는 학습-추론 불일치, 효율성 문제 등을 해결하기 위한 3가지 혁신적인 기술을 도입했음.
- Ring-1T는 수학, 코딩, 추론 등 다양한 핵심 벤치마크에서 기존 모델을 뛰어넘는 획기적인 성능을 달성했음.
상세 내용¶
인공지능 분야에서 획기적인 발전이 이루어졌습니다. Ling 팀과 Inclusion AI 연구팀은 'Ring-1T'라는 이름의 1조 개 매개변수를 가진 최첨단 '사고 모델'을 공개하며 AI의 추론 능력을 한 단계 끌어올렸습니다. 이 모델은 단순히 방대한 지식을 학습하는 것을 넘어, 정보를 처리하여 실행 가능한 통찰력을 도출하는 동적인 정보 처리기로서의 발전을 보여줍니다.
이러한 거대 규모의 모델을 학습시키는 과정은 이전에는 경험해보지 못한 새로운 도전 과제들을 안겨주었습니다. 대표적으로 학습과 추론 간의 불일치 문제, 모델이 추론을 수행할 때의 비효율성, 그리고 강화학습 시스템 자체의 병목 현상 등이 그것입니다. 연구팀은 이러한 복잡한 문제들을 해결하기 위해 세 가지 상호 연결된 혁신적인 기술을 개발하고 적용했습니다.
첫 번째 혁신은 'IcePop'이라는 기술입니다. 이 기술은 토큰 수준의 불일치 마스킹과 클리핑을 통해 강화학습 훈련의 안정성을 크게 향상시킵니다. 이를 통해 학습 과정에서 발생하는 불안정성을 효과적으로 제거하여 모델이 더욱 견고하게 학습될 수 있도록 합니다. 두 번째 혁신은 'C3PO++'로, 토큰 예산 내에서 긴 추론 과정을 수행할 때 자원 활용 효율성을 높이는 데 중점을 둡니다. 동적으로 추론 과정을 분할함으로써 시간 효율성을 극대화하여, 매우 긴 길이의 추론에도 불구하고 빠른 속도를 유지할 수 있게 합니다.
세 번째 핵심 기술은 'ASystem'입니다. 이는 1조 개 규모의 모델 학습을 방해하는 시스템적인 병목 현상을 극복하도록 설계된 고성능 강화학습 프레임워크입니다. 이 프레임워크 덕분에 연구팀은 이전에는 불가능했던 규모의 모델 학습을 성공적으로 수행할 수 있었습니다. Ring-1T는 이러한 기술적 진보를 바탕으로 AIME-2025에서 93.4점, HMMT-2025에서 86.72점, CodeForces에서 2088점, ARC-AGI-v1에서 55.94점 등 여러 중요한 벤치마크에서 획기적인 결과를 달성했습니다.
특히 주목할 만한 점은, Ring-1T가 국제 수학 올림피아드(IMO-2025)에서 은메달 수준의 성과를 거두었다는 것입니다. 이는 모델이 단순한 패턴 인식이나 지식 암기를 넘어, 인간의 지능에 버금가는 뛰어난 추론 능력을 갖추고 있음을 방증합니다. 연구팀은 1조 개 매개변수 규모의 MoE(Mixture of Experts) 모델을 커뮤니티에 완전히 공개함으로써, 연구자들이 최첨단 추론 능력을 직접 활용할 수 있도록 문을 열었습니다. 이는 대규모 추론 지능의 민주화에 있어 중요한 이정표를 세우는 것이며, 오픈소스 모델 성능의 새로운 기준선을 제시하는 것으로 평가됩니다.
편집자 노트¶
이번 발표는 인공지능, 특히 대규모 언어 모델(LLM) 분야에서 매우 중요한 의미를 가집니다. 'Ring-1T'는 단순히 모델의 크기만 키운 것이 아니라, 1조 개라는 천문학적인 매개변수를 효율적으로 학습시키고 활용하기 위한 근본적인 기술적 난제를 해결했다는 점에서 주목할 만합니다. 우리가 흔히 접하는 AI 챗봇이나 이미지 생성 모델과는 차원이 다른, 복잡한 문제 해결 능력을 지향한다는 점에서 '사고 모델'이라는 명칭이 적절하게 느껴집니다.
이번 연구의 핵심은 '강화학습'의 발전입니다. 과거 LLM이 주로 사전 학습된 지식 기반으로 작동했다면, 이제는 강화학습을 통해 스스로 학습하고 발전하며, 더 나아가 어려운 수학 문제나 코딩 과제처럼 추론 능력을 요구하는 분야에서도 인간 수준에 근접하는 성과를 내고 있다는 점이 중요합니다. 이는 AI가 단순히 정보를 요약하거나 질문에 답하는 수준을 넘어, 실제 세상의 복잡한 문제를 해결하는 데 더욱 깊숙이 관여할 수 있음을 시사합니다. Ring-1T의 IMO-2025 은메달 획득은 이러한 변화를 극명하게 보여주는 사례입니다.
Ring-1T의 개발 및 공개는 AI 기술의 접근성을 높이고 연구 생태계를 활성화하는 데 기여할 것입니다. 1조 개의 매개변수를 가진 모델을 누구나 사용할 수 있다는 것은, 이전에는 소수의 대규모 연구 기관만이 접근 가능했던 최첨단 AI 기술을 일반 개발자나 연구자들도 활용할 수 있게 되었다는 의미입니다. 이는 향후 AI 연구의 속도를 가속화하고, 더욱 혁신적인 AI 서비스와 애플리케이션의 등장을 촉진할 것으로 기대됩니다. 다만, 이러한 고성능 모델이 가져올 윤리적, 사회적 영향에 대한 깊이 있는 논의도 함께 이루어져야 할 것입니다.