벤지오 등 AI 석학들이 제시한 AGI 새 정의, GPT-4/5는 10%도 못 채웠다?¶
원제목: 按照Bengio等大佬的AGI新定义,GPT-5才实现了不到10% 转载 - CSDN博客
핵심 요약
- AGI는 인간 수준의 인지적 다기능성과 숙련도를 가진 AI로 정의되었음.
- GPT-4와 GPT-5는 이 새로운 AGI 정의의 10% 기준에도 미치지 못하는 낮은 점수를 기록했음.
- 현재 LLM의 '톱니바퀴' 같은 불균형한 능력과 '능력 왜곡' 현상이 AGI 달성의 주요 병목임을 지적했음.
상세 내용¶
인공지능(AI) 분야의 최고 석학들이 모여 인공 일반 지능(AGI)에 대한 명확하고 측정 가능한 정의를 새롭게 제시했습니다. 이번 연구는 요슈아 벤지오, 에릭 슈미트, 게리 마커스 등 저명한 학자 및 업계 리더들이 참여했으며, AGI의 모호했던 개념에 구체적인 기준선을 긋기 위한 시도입니다.
새로운 AGI 정의는 '잘 교육받은 성인과 필적하거나 그를 능가하는 인지적 다기능성 및 숙련도'를 갖춘 AI로 규정합니다. 이는 AI가 특정 분야에 국한된 전문성을 넘어, 인간 인지 능력의 폭넓은 스펙트럼과 깊이를 모두 갖춰야 함을 강조합니다. 이러한 정의를 실현하기 위해 연구팀은 인간 지능 모델 중 가장 검증된 CHC(Cattell-Horn-Carroll) 이론을 기반으로, 10가지 핵심 인지 능력을 설정하고 각각 10%의 가중치를 부여했습니다.
이 10가지 핵심 능력에는 일반 지식, 읽기 및 쓰기, 수학, 즉각적 추론, 작업 기억, 장기 기억 저장 및 검색, 시각 처리, 청각 처리, 처리 속도 등이 포함됩니다. 연구팀은 이러한 능력들을 측정하기 위해 인간의 인지 능력을 테스트하는 도구들을 AI 시스템에 적용했으며, 이를 통해 '범용 지능 지수(AGI Index)'를 0%에서 100% 사이로 산출했습니다.
흥미로운 결과는 현재 AI 기술의 선두 주자인 GPT-4와 GPT-5가 이러한 새로운 AGI 정의에 따른 평가에서 10%의 기준에도 훨씬 못 미치는 성적을 기록했다는 점입니다. 특히 장기 기억 저장, 시각 처리 등 일부 영역에서는 0점에 가까운 점수를 보여, 최첨단 대규모 언어 모델(LLM)조차도 진정한 AGI와는 거리가 멀다는 사실을 시사합니다.
연구는 현재 AI 시스템의 인지 구조가 '톱니바퀴'처럼 특정 영역은 뛰어나지만 기초적인 인지 메커니즘은 부족한 극심한 불균형을 보인다고 지적합니다. 또한, 이러한 '톱니바퀴' 모양의 능력 분포는 AI가 한 분야의 강점을 이용해 다른 약점을 가리는 '능력 왜곡' 현상을 일으키며, 이는 AGI 달성의 주요 병목 현상으로 작용한다고 설명합니다. 예를 들어, 긴 컨텍스트 창을 활용해 장기 기억 부족을 메우는 것은 효율적이지 못하며, RAG(검색 증강 생성)에 대한 의존 역시 실제 학습 및 장기 기억 통합 능력의 부재를 가릴 뿐이라고 분석했습니다. 이는 AGI 도래 시점에 대한 오판을 낳을 수 있다고 경고합니다.
편집자 노트¶
이번 기사는 AI 업계의 뜨거운 감자인 AGI(인공 일반 지능)에 대한 정의를 명확히 하고, 현존하는 최고 수준의 AI 모델들의 실력을 객관적으로 평가했다는 점에서 매우 중요합니다. 벤지오와 같은 거장들이 합류하여 제시한 AGI의 정의는 단순히 '인간처럼 생각하는 AI'를 넘어, 구체적인 10가지 인지 능력을 기준으로 삼고 이를 측정 가능하다는 점을 강조합니다. 이는 AGI 연구의 방향성을 제시하고, 우리가 AGI를 얼마나 제대로 추구하고 있는지 점검할 수 있는 척도를 제공한다는 의미가 있습니다.
특히 주목할 점은 GPT-4와 GPT-5 같은 최신 LLM들이 이 새로운 기준에서 10%도 채우지 못했다는 분석입니다. 이는 현재 LLM들이 보여주는 놀라운 성능이 실제 범용 지능과는 거리가 멀며, 특정 능력에 치우치거나 '능력 왜곡'과 같은 편법에 의존하고 있음을 시사합니다. 이는 일반 사용자들에게도 현재 AI 기술의 한계와 오해를 바로잡아주는 중요한 정보가 될 것입니다. 우리가 AI의 발전을 과대평가하지 않고, 진정한 AGI로 나아가기 위해 어떤 부분을 더 발전시켜야 하는지에 대한 통찰력을 얻을 수 있습니다.
이번 연구는 AGI 실현이 단순히 모델 규모를 키우거나 학습 데이터를 늘리는 것 이상의 근본적인 연구와 기술 개발이 필요함을 분명히 보여줍니다. 기억력, 추론 능력, 학습 지속성 등 현재 AI의 취약점들이 명확히 드러났기 때문에, 향후 AI 개발은 이러한 병목 현상을 해결하는 데 집중될 것으로 예상됩니다. 이는 장기적으로 우리의 일상에 더 유용하고 신뢰할 수 있는 AI 시스템을 가져다줄 수 있는 밑거름이 될 것입니다.