AI 신뢰도 시험대: 구글 제미나이 3 프로, '환각'은 여전한 숙제¶

원제목: Gemini 3 Pro tops new AI reliability benchmark, but hallucination rates remain high

핵심 요약

구글 제미나이 3 프로가 새로운 AI 신뢰도 벤치마크에서 가장 높은 점수를 기록했음을 알립니다.
높은 정확도를 보였지만, AI의 '환각(Hallucination)' 현상은 여전히 심각한 문제점으로 나타났음을 설명합니다.
새로운 벤치마크는 AI의 '추측'을 억제하는 방식으로 설계되었음을 강조합니다.

상세 내용¶

최근 공개된 인공지능(AI) 신뢰도 평가 지표인 '옴니사이언스 인덱스(Omniscience Index)'에서 구글의 제미나이 3 프로(Gemini 3 Pro)가 압도적인 선두를 차지하며 AI 모델의 사실적 정확성에 대한 새로운 기준을 제시했습니다. 이 벤치마크는 40개에 달하는 다양한 AI 모델을 대상으로 하며, -100점에서 100점 사이의 점수로 모델의 정보 검색 신뢰도를 측정합니다.

제미나이 3 프로는 13점이라는 높은 점수를 획득하며, 경쟁 모델인 클로드 4.1 오푸스(4.8점), GPT-5.1, 그록 4(Grok 4) 등을 크게 앞섰습니다. 특히 이는 모델의 높은 정확성을 반영한 결과로, 이전 최고 기록 보유자였던 그록 4보다 14점 높은 수치입니다. 0점은 모델이 맞고 틀린 답을 절반씩 제시하는 수준을 의미하며, 이 벤치마크는 비즈니스, 인문학, 보건, 법률, 소프트웨어 공학, 과학 및 수학 등 6개 분야의 42개 경제 관련 주제에 걸쳐 6,000개의 질문을 포함합니다.

이번 평가에서 제미나이 3 프로의 높은 점수는 주로 정확도 향상에 기인한 것으로 분석됩니다. 연구진은 이러한 정확도 향상이 모델의 규모와 밀접한 관련이 있다고 해석했습니다. 제미나이 3 프로의 정확도는 53%로, 이전 선두였던 GPT-5.1과 그록 4의 39%를 훨씬 상회하는 수치였습니다. 이는 AI 모델이 방대한 데이터를 학습할수록 사실 정보를 더 정확하게 파악할 수 있음을 시사합니다.

하지만 긍정적인 결과에도 불구하고, AI 모델 전반에 걸쳐 나타나는 '환각(Hallucination)' 문제는 여전히 심각한 약점으로 지적되었습니다. 제미나이 3 프로는 88%라는 높은 환각율을 기록하며, 이는 제미나이 2.5 프로 및 2.5 플래시와 동일한 수준입니다. 환각율은 잘못된 답변 중 사실이 아닌 응답의 비율을 의미하며, 높은 수치는 AI가 불확실성을 인정하기보다 자신 있게 틀린 정보를 제공하는 경향이 강함을 나타냅니다. GPT-5.1과 그록 4 역시 각각 81%와 64%의 높은 환각율을 보였습니다.

이러한 문제를 해결하기 위해 '옴니사이언스 인덱스'는 기존 벤치마크와 달리 잘못된 답변에 대해서는 정답과 동일한 수준의 페널티를 부과하는 새로운 채점 시스템을 도입했습니다. 연구진은 기존 방식이 AI의 '추측' 행동을 부추겨 환각 현상을 심화시킬 수 있다고 지적하며, 새 지표는 오히려 '신중함'을 보상하는 방향으로 설계되었습니다. 이는 AI가 모를 경우 모른다고 답하는 것을 장려하며, 틀린 답을 했을 때 더 큰 불이익을 주는 방식입니다. 흥미롭게도, 이전 모델인 라마-3.1-405B(Llama-3.1-405B)가 최신 모델들에 비해 상대적으로 높은 옴니사이언스 인덱스 점수를 기록하는 예상 밖의 결과도 나왔습니다.

편집자 노트¶

이번 분석 결과는 AI 기술 발전의 현주소를 여실히 보여줍니다. 구글 제미나이 3 프로가 새로운 AI 신뢰도 벤치마크에서 선두를 차지했다는 소식은 매우 고무적입니다. 이는 AI 모델이 점점 더 많은 지식을 습득하고, 복잡한 질문에 대해 정확한 답변을 제공하는 능력이 향상되고 있음을 의미합니다. 특히 '옴니사이언스 인덱스'가 AI의 '추측'을 억제하고 '신중함'을 보상하는 새로운 평가 방식을 도입했다는 점은 주목할 만합니다. 기존의 벤치마크들이 AI가 단순히 많은 정보를 쏟아내는 것에 초점을 맞췄다면, 이 새로운 지표는 AI가 얼마나 '정확하고 신뢰할 수 있는' 정보를 제공하는지를 더 중요하게 평가하려는 시도입니다.

하지만 제미나이 3 프로 역시 88%에 달하는 높은 환각율을 기록했다는 점은 시사하는 바가 큽니다. AI의 '환각'은 사실이 아닌 정보를 마치 사실인 것처럼 말하는 현상으로, 우리가 AI를 신뢰하고 실제 생활에 적용하는 데 있어 가장 큰 걸림돌 중 하나입니다. 아무리 정확도가 높다고 해도, AI가 틀린 정보를 자신 있게 제공한다면 그 신뢰성은 크게 떨어질 수밖에 없습니다. 이는 AI 개발자들이 앞으로 해결해야 할 가장 시급한 과제 중 하나이며, 단순한 성능 향상을 넘어 '안전하고 신뢰할 수 있는' AI를 만들기 위한 기술적, 윤리적 노력이 병행되어야 함을 강조합니다. 앞으로 AI 기술이 더욱 발전함에 따라, 이러한 신뢰도와 정확성에 대한 평가는 더욱 중요해질 것입니다.

원문 링크