콘텐츠로 이동

AI 논문: '추론 모델'은 더 효율적일 뿐, 기존 LLM보다 능력 뛰어나지 않아

원제목: So-called reasoning models are more efficient but not more capable than regular LLMs, study finds

핵심 요약

  • 강화학습 기반 AI 모델이 기존 언어 모델보다 문제 해결 능력이 근본적으로 향상되지 않았다는 연구 결과가 나왔습니다.
  • AI 모델의 '추론 능력'은 단순히 많은 시도를 통해 우연히 정답을 맞히는 것인지, 진정한 논리적 사고를 하는 것인지에 대한 논란이 제기되고 있습니다.
  • AI 모델의 진정한 추론 능력 향상은 모델의 크기 자체를 키우는 데 더 달려있을 가능성이 제시되었습니다.

상세 내용

최근 발표된 한 연구는 강화학습을 통해 '추론 능력'을 향상시킨 것으로 알려진 대형 언어 모델(LLM)들이 실제로는 기존의 기본 모델과 비교했을 때 새로운 능력을 발휘하는 것이 아니라, 단지 이미 알고 있는 해결책을 더 효율적으로 반복하는 데 그친다는 사실을 밝혀냈습니다. 해당 연구는 Tsinghua University와 Shanghai Jiao Tong University의 연구진에 의해 수행되었으며, 강화학습과 검증 가능한 보상(RLVR)을 활용한 훈련 방식이 모델의 문제 해결 능력을 근본적으로 향상시키는 것이 아니라, 오히려 특정 문제에 대한 정답을 얻을 확률을 높이는 데 집중하는 경향이 있음을 지적했습니다.

연구 결과에 따르면, RLVR 훈련을 받은 모델은 'pass@1'이라 불리는 첫 시도에서의 정답 생성 확률은 높이는 데 성공했지만, 기본 모델로는 풀 수 없었던 새로운 문제를 해결하는 능력은 보여주지 못했습니다. 이는 마치 여러 번의 시도 기회를 주었을 때 한 번이라도 정답을 맞히면 성공으로 간주하는 'pass@k'와 같은 벤치마크 평가 방식의 한계를 드러내는 것이기도 합니다. 특히, 몇 가지 선택지 중 답을 고르는 쉬운 문제의 경우, 많은 시도를 통해 우연히 정답을 맞힐 확률이 높아지는 것으로 나타났습니다.

그러나 연구진은 이와 같은 패턴이 프로그래밍이나 수학 문제와 같이 단순히 찍어서 맞힐 수 없는 복잡한 문제에서도 유사하게 나타난다고 강조했습니다. 이는 1024번의 시도 중 한 번이라도 맞히면 성공으로 인정하는 'pass@1024'와 같은 평가 방식의 경우, 운에 의한 결과가 상당 부분 영향을 미칠 수 있음을 시사합니다. 그럼에도 불구하고, 기본 모델들이 종종 논리적으로 타당한 해결책을 생성하는 것을 수동으로 분석한 결과, 미리 훈련된 기본 모델들이 이전에 생각했던 것보다 더 많은 추론 잠재력을 가지고 있다는 주장을 뒷받침한다고 설명했습니다.

더욱이, RLVR 방식은 결과적으로 모델의 출력 다양성을 감소시키는 것으로 나타났습니다. 이는 모델이 소수의 고보상 경로에 집중하게 만들어, 여러 번의 생성 시도 동안 다양한 대안을 탐색하는 능력을 제한합니다. 즉, 효율성은 높아질 수 있으나, 결과의 폭이 좁아지는 '다양성의 희생'이 따른다는 것입니다. 벤치마크 평가에서도 제한된 횟수의 샘플링에서는 RLVR 모델이 더 나은 성과를 보였지만, 더 많은 응답을 생성했을 때는 기본 모델이 더 넓은 범위의 반응을 보여 오히려 우위를 점하는 결과가 관찰되었습니다.

이번 연구는 OpenAI의 CEO인 샘 올트먼이 언급한, '훨씬 더 큰 모델'과의 결합을 통해 진정한 새로운 과학적 지식을 발견할 수 있다는 가능성을 시사합니다. 이는 단순히 강화학습과 같은 훈련 기법에 의존하는 것보다, 모델 자체의 규모를 키우는 것이 AI의 추론 능력 발전에 있어 더 근본적인 열쇠가 될 수 있음을 의미합니다. 연구진은 향후 연구에서 '우연한 추측'의 영향을 더 잘 통제하기 위해 명시적인 무작위 베이스라인을 도입할 계획이며, 강화학습이 기본 모델의 능력을 절대 넘어설 수 없다고 주장하는 것은 아니라고 덧붙였습니다. 오히려 강화학습이 LLM의 추론 능력을 어떻게 향상시킬 수 있는지에 대한 추가 실험을 진행할 예정이며, 모델과 데이터셋의 크기가 커짐에 따라 결과가 달라질 수 있음을 인지하고 있습니다.


편집자 노트

이번 연구 결과는 많은 분들이 AI, 특히 ChatGPT와 같은 대형 언어 모델(LLM)이 '똑똑해지고 있다'고 느끼는 현재 시점에 매우 중요한 시사점을 던집니다. 흔히 '추론 능력'이라고 하면 마치 인간처럼 논리적으로 생각하고 복잡한 문제를 해결하는 고차원적인 능력을 떠올립니다. 하지만 이 논문은 현재 많은 AI 모델들이 학습 과정에서 '추론'하는 것처럼 보이는 행동을 하지만, 그것이 실제 인간과 같은 깊이의 사고 과정이라기보다는, 방대한 데이터를 통해 패턴을 학습하고 수많은 시도 끝에 정답에 도달하는 '더 정교한 흉내 내기'에 가깝다는 것을 보여줍니다.

핵심은 'pass@k'라는 평가 방식에 있습니다. 예를 들어, 1000번의 기회를 주고 그 중 한 번이라도 맞으면 성공이라고 인정하는 방식은, AI가 얼마나 논리적인 단계를 거쳐 답에 도달했는지보다는 단순히 '운이 좋아서' 혹은 '이미 학습된 답과 매우 유사해서' 맞혔을 가능성을 간과하게 만듭니다. AI 기술이 더욱 발전하고 사회 각 분야에 깊숙이 파고들수록, 우리는 AI의 실제 능력과 그것이 우리에게 미칠 영향을 정확히 이해해야 합니다. 이 연구는 AI가 단순히 '더 똑똑해졌다'는 막연한 기대감보다는, '어떻게', '무엇을 위해' 발전하고 있는지를 객관적으로 바라볼 필요성을 강조합니다.



원문 링크