지식 대신 '도구' 활용한 딥아이즈 V2, 거대 AI 모델 능가하는 비결¶
원제목: DeepEyesV2 outperforms bigger rivals by favoring tools over sheer knowledge
핵심 요약
- 딥아이즈 V2는 방대한 지식 축적 대신 외부 도구를 스마트하게 활용하여 성능을 높이는 새로운 방식을 채택했음.
- 이미지 이해, 코드 실행, 웹 검색 등 멀티모달 작업에서 외부 도구 연계 능력은 AI 모델의 실제 성능을 크게 좌우함.
- 정교하게 설계된 도구 활용 전략은 모델의 크기(파라미터 수) 한계를 극복하고, 특히 복잡한 통합 작업에서 강점을 보임.
상세 내용¶
중국 연구진이 이미지 분석, 코드 실행, 웹 검색 등 다양한 기능을 수행하는 멀티모달 인공지능 모델 '딥아이즈 V2(DeepEyesV2)'를 개발했습니다. 이 모델은 기존의 대규모 AI 모델들이 주로 학습 데이터를 통해 지식을 축적하는 방식과는 달리, 외부 도구를 지능적으로 활용하는 전략을 채택하여 주목받고 있습니다. 이러한 접근 방식은 딥아이즈 V2가 많은 경우 기존의 더 큰 경쟁 모델들을 능가하는 성능을 보여주는 핵심 요인으로 분석됩니다.
초기 실험 과정에서 연구팀은 순수한 강화 학습만으로는 멀티모달 작업에서 안정적인 도구 사용을 구현하는 데 한계가 있음을 발견했습니다. 모델들은 처음에는 이미지 분석을 위해 파이썬 코드를 작성하려 했으나, 종종 오류가 발생하는 코드를 생성하거나 심지어는 도구 사용 자체를 건너뛰는 경향을 보였습니다. 이러한 문제점을 해결하기 위해 연구팀은 두 단계의 훈련 파이프라인을 개발했습니다. 첫 번째 단계에서는 모델이 이미지 이해와 도구 사용을 연결하는 방법을 학습하고, 두 번째 단계에서는 강화 학습을 통해 이러한 행동을 더욱 정교하게 다듬는 과정을 거칩니다.
고품질의 데모 데이터를 구축하기 위해 연구팀은 제미니 2.5 프로, GPT-4o, 클로드 소넷 4와 같은 선도적인 모델들을 활용하여 도구 사용 궤적을 생성했습니다. 이 중에서 정확한 답변과 깔끔한 코드를 생성한 데이터만을 선별하여 사용했으며, 강화 학습 보상 시스템은 답변의 정확성과 출력 형식에만 단순하게 연동하여 모델의 집중도를 높였습니다. 딥아이즈 V2는 멀티모달 작업을 위해 코드 실행, 이미지 검색, 텍스트 검색의 세 가지 도구 범주를 활용합니다. 코드 실행은 이미지 처리 및 수치 분석을 담당하며, 이미지 검색은 시각적으로 유사한 콘텐츠를 찾고, 텍스트 검색은 이미지에 직접적으로 나타나지 않는 추가적인 맥락 정보를 제공합니다.
이러한 접근 방식을 평가하기 위해 연구진은 'RealX-Bench'라는 새로운 벤치마크를 설계했습니다. 이 벤치마크는 모델이 시각적 이해, 웹 검색, 추론 능력을 얼마나 잘 조율하는지를 테스트하도록 고안되었습니다. 예를 들어, 사진 속 꽃의 종류를 식별하는 과제에서 딥아이즈 V2는 먼저 관련 영역을 잘라내어 세부 정보를 포착합니다. 이후 잘라낸 이미지를 사용하여 시각적 웹 검색을 수행하여 유사한 꽃을 찾고, 최종적으로 이 검색 결과를 종합하여 꽃의 종을 판별합니다. 이 벤치마크를 통해 AI 모델과 인간의 성능 간에는 상당한 격차가 존재함이 드러났으며, 가장 우수한 상용 모델조차 46%의 정확도를 기록한 반면, 인간은 70%를 달성했습니다.
특히 세 가지 기술(인식, 추론, 검색) 모두가 통합적으로 요구되는 작업에서 AI 모델의 성능 저하가 두드러졌습니다. 제미니 모델의 경우, 전반적인 정확도는 46%였으나 이 세 가지 능력이 모두 협력해야 하는 작업에서는 27.8%까지 떨어졌습니다. 이는 현재 모델들이 개별 기술은 능숙하게 처리하지만, 이를 효과적으로 통합하는 데 어려움을 겪고 있음을 시사합니다. 딥아이즈 V2는 전반적으로 28.3%의 정확도를 달성하여, 기본 모델인 Qwen2.5-VL-7B(22.3%)를 앞섰으며, 특히 세 가지 능력의 조율이 필요한 작업에서는 다른 오픈소스 모델들을 능가하는 성과를 보였습니다. 분석 결과, 텍스트 검색 도구가 정확도 향상에 가장 큰 기여를 하는 것으로 나타났으며, 이는 많은 모델들이 시각 검색 결과만을 의미 있게 통합하는 데 여전히 어려움을 겪고 있음을 시사합니다.
편집자 노트¶
이번 딥아이즈 V2의 발표는 인공지능 모델의 성능 향상이라는 목표에 대해 우리가 가져왔던 기존의 통념에 대한 중요한 질문을 던집니다. 많은 사람들이 AI 성능은 더 많은 데이터를 학습하고 더 큰 모델을 구축하는 것에 비례한다고 생각하지만, 딥아이즈 V2는 '어떻게' 학습하고 '어떻게' 외부 자원을 활용하는지가 훨씬 더 중요할 수 있음을 보여주고 있습니다. 즉, 단순히 지식을 쌓는 것이 아니라, 필요한 지식과 기능을 '도구'로서 얼마나 효과적으로 불러와 조합하느냐가 핵심 경쟁력이 될 수 있다는 것입니다.
이는 마치 인간의 학습 과정과도 유사합니다. 전문가들은 모든 것을 외우고 기억하는 것이 아니라, 필요한 정보를 빠르게 검색하고, 복잡한 문제는 계산기를 사용하거나 다른 전문가의 도움을 받는 등 적절한 '도구'를 활용하여 문제를 해결합니다. 딥아이즈 V2는 이러한 인간적인 문제 해결 방식을 AI 모델에 구현하려는 시도로 볼 수 있으며, 특히 이미지 분석, 복잡한 추론, 정보 검색이 동시에 요구되는 현실적인 문제 상황에서 그 효용성이 더욱 두드러질 것입니다. 이러한 접근 방식은 앞으로 AI 모델들이 더욱 실용적이고 유연하게 우리 삶의 다양한 영역에서 활용될 수 있는 가능성을 열어줄 것으로 기대됩니다.