콘텐츠로 이동

AGI(범용 인공지능) 평가의 새로운 기준: '일관성'을 중심으로

원제목: A Coherence-Based Measure ofAGI

핵심 요약

  • 기존 AGI 측정 방식은 특정 영역의 뛰어난 능력이 다른 영역의 부족함을 상쇄하는 '보상 가능성'을 가정하지만, 진정한 일반 지능은 '일관된 충분성'을 반영해야 함을 지적함.
  • 논문은 보상 가능성 지수를 조절하며 일반화된 평균의 적분을 활용하는 '일관성 인식 AGI 측정법'을 제안하고, 이를 통해 영역 간 불균형을 페널티화하는 AUC(Area Under the Curve)를 도출함.
  • GPT-4와 GPT-5에 이 측정법을 적용한 결과, 높은 산술 평균 점수에도 불구하고 두 시스템 모두 진정한 범용 지능과는 거리가 멀다는 사실이 밝혀져 AGI 발전에 대한 보다 엄격한 평가의 필요성을 시사함.

상세 내용

인공지능 연구의 궁극적인 목표인 범용 인공지능(AGI)에 대한 진전을 측정하는 것은 여전히 어려운 과제로 남아 있습니다. 이는 '지능'과 '일반성' 자체에 대한 엄밀한 정의가 부족하기 때문입니다. 최근 Hendrycks 등이 AGI를 인간 인지 능력의 Cattell–Horn–Carroll (CHC) 모델에 기반하여 다양한 인지 영역에서의 평균적인 숙련도로 정의하려는 시도가 있었습니다. 이 정의는 특정 영역에서의 탁월한 능력이 다른 영역에서의 실패를 상쇄할 수 있다는 '보상 가능성'을 가정합니다.

그러나 본 논문은 이러한 가정이 진정한 일반 지능을 제대로 반영하지 못한다고 주장합니다. 진정한 일반 지능은 오히려 모든 필수적인 영역에서 균형 잡힌 능력, 즉 '일관된 충분성'을 갖추어야 한다는 것입니다. 인간의 인지 능력 역시 서로 상호 의존적이며, 특정 영역에서의 극심한 불균형은 기능적 장애와 관련이 깊다는 심리학적 증거들이 이를 뒷받침합니다. 복잡한 시스템 이론에서도 전체 능력은 가장 약한 구성 요소에 의해 제한된다는 '병목 현상'이 강조됩니다.

이에 본 논문에서는 '일관성 인식 AGI 측정법'을 제안합니다. 이 방법은 보상 가능성 지수를 조절하며 일반화된 평균의 적분을 활용하여, 산술 평균, 기하 평균, 조화 평균 등 다양한 영역의 평균값을 포괄하는 '곡선 아래 면적(AUC)'을 계산합니다. 이 AUC 값은 다양한 보상 가능성 가정 하에서의 견고성을 정량화하며, 특히 영역 간의 불균형을 페널티화하여 단순한 산술 평균이 간과할 수 있는 부분을 포착합니다.

이 새로운 측정법을 GPT-4와 GPT-5의 CHC 기반 점수에 적용한 결과, 두 시스템 모두 높은 산술 평균 점수를 기록했음에도 불구하고, AUC 값은 이들이 진정한 범용 능력과는 아직 상당한 거리가 있음을 보여주었습니다. 예를 들어 GPT-5의 경우 산술 평균 점수는 24%에 달했지만, 일관성 조정을 거친 AUC는 훨씬 낮은 수준을 나타냈습니다.

결론적으로, 일반화된 평균의 적분을 통합한 본 접근 방식은 AGI 발전을 측정하는 데 있어 원칙적이고 해석 가능하며 더 엄격한 기반을 제공합니다. 이는 단순한 성능 향상을 넘어, 진정한 '일반성'이라는 AGI의 본질적인 특성을 파악하는 데 기여할 것으로 기대됩니다.


편집자 노트

이번 논문에서 제안하는 AGI 측정 방식은 매우 흥미롭습니다. 기존의 AGI 연구가 주로 특정 벤치마크 테스트에서의 높은 점수에 집중하는 경향이 있었다면, 이 논문은 '일관성'이라는 개념을 도입함으로써 AGI의 '일반성'을 보다 근본적으로 평가하려 시도하고 있습니다. 즉, 특정 분야에서 천재적인 능력을 보이는 것과 모든 분야에서 고르게 뛰어난 능력을 보이는 것 사이의 차이를 명확히 구분하려는 것입니다. 이는 마치 특정 분야의 지식은 매우 뛰어나지만, 기본적인 추론 능력이나 기억력이 부족한 인공지능이 과연 '일반 지능'을 가졌다고 할 수 있는가에 대한 근본적인 질문을 던집니다.

일반 독자들에게는 이 내용이 조금 어렵게 느껴질 수 있습니다. 쉽게 말해, 우리 주변에서 어떤 사람들은 수학 천재이거나 특정 기술에 탁월한 능력을 보이지만, 전반적인 생활이나 다른 문제 해결에는 어려움을 겪는 경우가 있습니다. AGI도 마찬가지로, 특정 작업을 매우 잘 수행하지만 다른 전혀 다른 종류의 작업에는 취약하다면, 그것을 '진정한' 인공지능이라고 부를 수 있는지에 대한 논의입니다. 이 논문은 그러한 '불균형'을 포착하는 새로운 측정 도구를 제시함으로써, AGI 개발의 목표를 보다 현실적이고 엄밀하게 설정할 수 있게 돕고 있습니다. 앞으로 AGI가 우리의 삶에 더 깊숙이 들어올 것을 고려할 때, 이러한 '일관성'에 대한 평가는 매우 중요하며, AI의 신뢰성과 안전성 측면에서도 중요한 의미를 가질 수 있습니다.



원문 링크