LLM 성능 평가의 함정: 대부분의 벤치마크가 잘못되었음이 밝혀지다¶
원제목: Most LLM benchmarks are flawed, casting doubt on AI progress metrics, study finds
핵심 요약
- 현재 사용되는 대부분의 LLM 벤치마크는 방법론적 결함이 심각하여 AI 발전을 제대로 측정하지 못하고 있음.
- 평가 기준의 모호함, 인공적인 과제 사용, 편의 표본 추출, 데이터 재활용 등으로 인해 벤치마크의 신뢰성이 크게 떨어지고 있음.
- 정확한 정의, 실제와 유사한 데이터 사용, 엄격한 통계 분석 및 불확실성 추정 등을 포함하는 개선된 벤치마크 설계가 시급함.
상세 내용¶
최근 발표된 국제 연구에 따르면, 현재 대규모 언어 모델(LLM) 성능을 평가하는 데 사용되는 대부분의 벤치마크가 심각한 결함을 가지고 있으며, 이는 AI 기술 발전의 실제 속도와 방향에 대한 의문을 제기하고 있습니다. 연구진은 최상위 AI 학회에서 발표된 445개의 벤치마크 논문을 검토한 결과, 거의 모든 벤치마크에서 기본적인 방법론적 문제가 발견되었다고 밝혔습니다. "거의 모든 논문이 최소 한 가지 영역에서 약점을 보였다"는 것이 연구진의 설명입니다. 이 연구는 2018년부터 2024년까지 머신러닝 및 자연어 처리 분야의 주요 학회(ICML, ICLR, NeurIPS, ACL, NAACL, EMNLP)에서 발표된 벤치마크를 대상으로 29명의 전문가 검토를 거쳐 진행되었습니다.
벤치마크의 타당성은 해당 테스트가 측정하고자 하는 것을 진정으로 측정하는지에 달려 있습니다. LLM의 경우, 벤치마크에서 높은 점수를 받는 것이 실제로 해당 기술을 얼마나 잘 수행하는지를 반영해야 합니다. 그러나 현재 벤치마크는 이러한 타당성을 제대로 확보하지 못하고 있습니다. 연구 결과, 78%의 벤치마크가 측정 대상을 정의하고 있지만, 그중 거의 절반이 정의가 모호하거나 논쟁의 여지가 있다고 지적했습니다. '추론', '정렬', '보안'과 같은 핵심 용어들이 종종 정의되지 않아 결과 해석을 어렵게 만들고 있습니다.
또한, 약 61%의 벤치마크가 의도 인식 및 구조화된 출력 생성과 같은 여러 하위 기술을 결합한 에이전트 행동과 같은 복합적인 기술을 평가하고 있습니다. 이러한 하위 기술들은 개별적으로 평가되지 않아 결과 해석이 더욱 복잡해집니다. 더 큰 문제는 41%의 벤치마크가 인공적인 과제를 사용하고, 29%는 전적으로 인공적인 과제에만 의존한다는 점입니다. 실제 모델이 사용되는 방식을 반영하는 실제 과제를 사용하는 벤치마크는 약 10%에 불과합니다.
데이터 수집 방식과 데이터의 재활용 또한 신뢰성을 떨어뜨리는 주요 요인으로 지적되었습니다. 약 39%의 벤치마크가 편리한 샘플링에 의존하며, 12%는 이를 전적으로 사용합니다. 이는 실제 사용 환경을 반영하는 데이터 대신 단순히 수집하기 쉬운 데이터를 선택하는 경향을 보여줍니다. 약 38%의 벤치마크는 기존의 인간 테스트나 다른 벤치마크의 데이터를 재사용하고 있으며, 이는 결과에 왜곡을 가져올 수 있습니다. 예를 들어, 간단한 산수 문제만으로 구성된 시험에서 LLM이 높은 점수를 받더라도, 복잡한 계산 능력은 제대로 평가되지 못할 수 있습니다.
대부분의 벤치마크는 강력한 통계 분석도 부족합니다. 80% 이상이 정확도 일치 점수(exact match scores)를 사용하지만, 모델 간 비교를 위한 통계적 검정을 사용하는 경우는 16%에 불과합니다. 연구진은 의미 있는 평가를 위해서는 강력한 통계와 명확한 불확실성 추정치가 필수적이라고 강조합니다. 대안적인 평가 방법으로 LLM을 심판으로 사용하거나(17%), 인간의 판단에 의존하는(13%) 경우는 매우 드물며, 대부분의 벤치마크는 불확실성 추정치와 통계 테스트를 완전히 생략하여 신뢰성에 큰 간극을 만들고 있습니다.
편집자 노트¶
이번 연구 결과는 우리가 LLM의 발전을 측정하는 방식에 근본적인 문제가 있음을 시사합니다. 많은 사람들이 AI 기술의 발전을 뉴스나 각종 발표를 통해 접하지만, 그 뒤에 숨겨진 성능 평가는 생각보다 허술할 수 있다는 것입니다. 예를 들어, 'AI가 특정 시험에서 인간을 능가했다'는 소식을 들었을 때, 우리는 그 시험이 과연 AI의 진짜 능력을 제대로 반영하는 것인지, 아니면 특정 유형의 문제에만 특화된 것은 아닌지 의심해 볼 필요가 있습니다. 현재의 벤치마크들이 마치 '쉬운 문제만 골라 풀어서 좋은 점수를 받는 것'과 같을 수 있다는 것입니다.
이것이 우리 일반 소비자들에게 왜 중요할까요? LLM은 이미 우리가 사용하는 검색 엔진, 글쓰기 도우미, 심지어 챗봇 서비스 등 다양한 분야에 깊숙이 들어와 있습니다. 벤치마크의 허점이 곧 AI 서비스의 실제 성능에 대한 과장이나 오해를 불러일으킬 수 있으며, 이는 우리가 AI 기술을 신뢰하고 활용하는 데 있어 잘못된 판단을 내리게 할 수 있습니다. 예를 들어, AI 번역 서비스가 벤치마크에서는 높은 점수를 받았지만 실제 업무에서는 오역이 잦다면, 우리는 AI의 능력을 과대평가하게 되는 것입니다. 이러한 연구는 AI 기술 발전을 더욱 투명하고 신뢰할 수 있게 만들 필요가 있음을 보여줍니다.