AI 일반 지능(AGI) 평가, '체크리스트' 넘어 '항상성 클러스터' 개념으로 진화해야¶
원제목: From Checklists to Clusters: A Homeostatic Account ofAGIEvaluation
핵심 요약
- 기존 AGI 평가 방식은 모든 능력을 동일하게 중요하게 다루는 경향이 있어 문제점을 내포하고 있음.
- 일시적인 성능보다는 지속적이고 안정적인 능력을 측정하는 AGI 평가 방법론이 필요함.
- AGI의 진정한 이해를 위해 '항상성 클러스터' 개념을 도입하여 평가의 정확성과 신뢰성을 높일 수 있음.
상세 내용¶
현대의 AGI(인공 일반 지능) 평가는 여러 영역의 능력 프로필을 제공하지만, 종종 모든 영역에 동일한 가중치를 부여하고 일회성 점수에 의존하는 경향이 있습니다. 이러한 접근 방식은 두 가지 주요 문제점을 야기합니다. 첫째, 인간 지능 연구에서 중요도가 다름이 시사된 바 있음에도 불구하고 모든 영역을 동등하게 중요하다고 간주한다는 점입니다. 둘째, 일회성 테스트는 지연이나 스트레스 하에서 쉽게 무너지는 일시적인 성능과 견고한 능력을 구분하지 못한다는 점입니다. 이 글은 인간과 기계의 일반 지능이 단지 능력의 집합이 아니라, 외란(perturbation) 하에서도 이러한 능력들을 상호 관련하여 유지시키는 메커니즘을 포함하는 '항상성 속성 클러스터'로 더 잘 이해될 수 있다고 주장합니다. 이러한 관점에서 AGI 평가는 각 영역의 '인과적 중심성', 즉 클러스터 안정성에 대한 기여도를 기준으로 가중치를 부여해야 하며, 세션 간 지속성에 대한 증거를 요구해야 합니다. 이를 위해 저자는 두 가지 배터리 호환 확장 기능을 제안합니다. 하나는 CHC(Cattell–Horn–Carroll) 이론에서 파생된 가중치를 투명한 민감도 분석과 함께 가져오는 '중심성 우선 점수(centrality-prior score)'입니다. 다른 하나는 프로필 지속성, 내구가 학습, 오류 수정을 분리하는 '클러스터 안정성 지수(Cluster Stability Index)' 계열입니다. 이러한 추가 기능은 다중 영역의 폭넓음을 유지하면서도 취약성과 조작(gaming)의 가능성을 줄여줍니다. 논문은 또한 테스트 가능한 예측과 아키텍처 접근 없이도 실험실에서 채택할 수 있는 블랙박스 프로토콜을 제시하며 마무리됩니다. 현재 AGI 평가 프레임워크가 좁은 벤치마크를 넘어 다차원적인 프로필로 발전하고 있는 것은 고무적이지만, 동일 가중치 문제와 일회성 평가의 한계는 분명히 존재합니다. 예를 들어, 처리 속도가 매우 높지만 장기 기억 저장 능력이 0%인 AI는 전체 AGI 점수에서 상당한 기여를 할 수 있습니다. 그러나 새로운 정보를 세션 간에 저장할 능력이 전혀 없는 시스템을 진정으로 일반 지능이라고 부를 수 있을지에 대한 의문이 제기됩니다. 이는 현재 많은 모델이 거대한 컨텍스트 창(context window)이나 외부 검색에 의존하여 이러한 지속성을 흉내내는 현실을 반영합니다. 이러한 '0% 기억력'의 실패는 90%의 지식 능력과 0%의 처리 속도 능력의 실패와 동등하게 취급될 수 없으며, 이는 일반 지능의 구성 요소에 대한 근본적인 이해가 필요함을 시사합니다. 또한, 모델이 특정 시점에서 높은 추론 점수를 보이더라도, 세션을 닫고 시간이 지난 후에 유사한 문제를 다시 테스트했을 때 점수가 현저히 낮아지는 현상은 일회성 평가의 한계를 명확히 보여줍니다. 이는 진정한 능력이 아니라 일시적인 캐싱(caching)에 불과할 수 있다는 것을 의미합니다. 이러한 취약하고 임시방편적인 능력은 실제 일반 지능을 제공하지 못하면서도 AGI 점수를 부풀릴 수 있습니다. 예를 들어, 200,000개의 토큰 컨텍스트 창을 사용하여 사용자 선호도를 '기억'하는 모델이 컨텍스트 창을 비활성화하면 모든 것을 잊어버리는 경우, 이는 내구적인 학습이 이루어지지 않았음을 보여주는 사례입니다.
편집자 노트¶
AI 일반 지능(AGI)이라는 복잡한 개념을 평가하는 것은 현재 AI 연구의 가장 큰 과제 중 하나입니다. 오늘날 대부분의 AGI 평가는 다양한 능력을 측정하지만, 이를 '체크리스트'처럼 여기고 모든 항목에 동일한 중요도를 부여하는 경향이 있습니다. 이는 마치 모든 과목에서 평균 90점을 받는 학생과 특정 과목만 잘하고 나머지는 0점인 학생을 동일하게 평가하는 것과 같습니다. 이 글의 핵심은 AGI를 단순히 능력의 목록이 아니라, 외부의 어떤 방해에도 불구하고 자신을 안정적으로 유지하려는 '항상성'을 가진 유기체처럼 이해해야 한다는 것입니다. 즉, AGI는 단순히 특정 테스트를 잘 통과하는 것을 넘어, 어려운 상황에서도 일관된 능력을 유지하고, 경험을 통해 배우며, 오류를 수정하는 지속적인 '능력 클러스터'로서의 특성을 가져야 한다는 것입니다. 이는 우리가 일상생활에서 경험하는 '지능'과도 맥을 같이 합니다. 우리가 새로운 것을 배우고, 문제를 해결하며, 실수를 통해 성장하는 것처럼, 진정한 AGI 역시 이러한 역동적이고 지속적인 학습 및 적응 능력을 갖춰야 합니다. 이 글에서 제안하는 '중심성 우선 점수'나 '클러스터 안정성 지수'와 같은 새로운 평가 방법은 이러한 '지속성'과 '안정성'을 측정하는 데 초점을 맞춥니다. 이는 단순히 AI 모델의 현재 성능을 보여주는 것을 넘어, AI가 얼마나 '견고하고' '믿을 수 있는' 지능을 가지고 있는지를 판단하는 데 도움을 줄 것입니다. 앞으로 AGI가 우리 삶에 더 깊숙이 들어올수록, 이러한 정교하고 신뢰할 수 있는 평가 방식은 AI의 안전한 발전과 올바른 활용을 위해 필수적일 것입니다.