바이두, 이미지 이해 AI 'ERNIE' 오픈소스로 공개... AI 분야 경쟁 심화 예고¶
원제목: Baidu's latest ERNIE model brings visual reasoning to open-source AI
핵심 요약
- 바이두가 이미지 인식을 통한 추론 능력을 갖춘 최신 AI 모델 'ERNIE-4.5-VL-28B-A3B-Thinking'을 오픈소스로 공개했다는 점입니다.
- 이 모델은 상대적으로 적은 파라미터로도 구글 제미나이, 오픈AI GPT-5 등 대형 상용 모델에 필적하는 성능을 보인다는 주장입니다.
- 이미지 분석, 문제 해결, 외부 도구 연동 등 시각적 추론 능력이 향상되어 향후 AI 활용 범위가 넓어질 수 있음을 시사합니다.
상세 내용¶
중국의 기술 기업 바이두가 이미지 인식 및 이해를 바탕으로 추론 능력을 발휘하는 최신 인공지능(AI) 모델인 'ERNIE-4.5-VL-28B-A3B-Thinking'을 오픈소스로 공개했습니다. 이 모델은 280억 개의 파라미터를 가지고 있지만, 실제 활성화되는 파라미터는 30억 개에 불과한 효율적인 구조를 자랑합니다. 또한, 단일 80GB GPU로도 구동이 가능하여 접근성을 높였습니다. 바이두는 이 모델이 구글의 제미나이 2.5 프로(Gemini 2.5 Pro)나 오픈AI의 GPT-5와 같은 대규모 상용 모델을 여러 멀티모달 벤치마크에서 능가한다고 주장하고 있습니다. 다만, 이러한 성능 주장은 아직 독립적인 검증을 거치지 않은 상태입니다.
ERNIE-4.5-VL-28B-A3B-Thinking의 핵심 기능 중 하나는 '이미지를 통한 사고(Thinking with Images)' 능력입니다. 이 기능을 통해 모델은 이미지의 핵심 세부 사항에 집중하기 위해 동적으로 이미지를 크롭(crop)할 수 있습니다. 예를 들어, 시연에서는 파란색 간판의 텍스트를 자동으로 인식하고 확대하여 읽어내는 모습을 보여주었습니다. 또한, 이미지 내 사람들의 위치를 정확히 파악하고 좌표를 반환하는 능력, 회로도를 분석하여 수학 문제를 푸는 능력, 그래프를 분석하여 최적의 방문 시점을 추천하는 능력도 갖추고 있습니다. 비디오 입력에 대해서는 자막을 추출하고 특정 타임스탬프와 장면을 일치시킬 수 있으며, 외부 이미지 검색과 같은 도구를 활용하여 익숙하지 않은 객체를 식별하는 기능도 포함하고 있습니다.
이러한 이미지 처리 및 분석 능력은 단순한 시각 정보 인식을 넘어, 복잡한 문제를 해결하기 위한 추론 과정에 통합됩니다. 이를 통해 AI는 텍스트뿐만 아니라 시각적 데이터를 맥락적으로 이해하고 이를 바탕으로 의사결정을 내릴 수 있게 됩니다. 이는 기존의 텍스트 기반 AI 모델이 가지는 한계를 극복하고, 보다 현실 세계와 유사한 방식으로 정보를 처리하는 데 큰 기여를 할 수 있습니다.
물론, 바이두가 강조하는 이미지 크롭 및 조작을 통한 추론 방식이 완전히 새로운 것은 아닙니다. 지난 2025년 4월, 오픈AI는 유사한 기능을 가진 o3 및 o4-mini 모델을 공개했으며, 이 모델들은 이미지를 내부 사고 과정에 통합하고 확대, 축소, 회전과 같은 네이티브 도구를 사용하여 시각적 작업을 수행할 수 있었습니다. 이러한 기능들은 에이전트와 같은 추론 및 문제 해결 능력을 위한 새로운 벤치마크를 설정하는 데 도움을 주었습니다.
이번 바이두의 ERNIE 모델 공개에서 주목할 점은, 이전에는 주로 서구권의 독점적인 상용 모델에서만 볼 수 있었던 최첨단 시각적 추론 기능들이 오픈소스로 공개된 중국 모델에서도 등장하기 시작했다는 사실입니다. 이는 서구 AI 시스템의 최신 기능들이 공개된 지 불과 몇 달 만에 오픈소스 생태계로 확산되고 있음을 보여주며, AI 분야 전반의 기술 발전 속도와 경쟁이 더욱 치열해지고 있음을 시사합니다.
편집자 노트¶
이번 바이두의 ERNIE 모델 오픈소스 공개는 AI 기술 발전, 특히 시각적 추론 분야에서 매우 중요한 의미를 지닙니다. 지금까지는 이미지 인식 및 분석, 그리고 이를 바탕으로 한 추론 능력은 주로 구글, 오픈AI 등 거대 기술 기업들의 최신 상용 모델에서만 구현되고 있었기에, 일반 개발자나 중소기업 입장에서는 접근하기 어려운 영역이었습니다. 하지만 바이두가 이러한 고급 기능을 갖춘 모델을 오픈소스로 제공함으로써, 전 세계 AI 연구자 및 개발자 커뮤니티는 더욱 빠르고 자유롭게 이 기술을 활용하고 개선할 수 있게 되었습니다.
이는 곧 AI 기술의 민주화를 가속화하는 계기가 될 수 있습니다. 특히, 이전에는 막대한 자본과 인력이 필요한 영역이었던 '이미지를 통한 추론'이 비교적 적은 자원으로도 가능해진다는 점은, 스타트업이나 개인 개발자들이 혁신적인 AI 기반 서비스를 개발할 수 있는 기회를 넓혀줄 것입니다. 예를 들어, 의료 영상 분석, 자율 주행 보조 시스템, 교육용 콘텐츠 개발 등 시각 정보 활용이 필수적인 분야에서 새로운 아이디어가 현실화될 가능성이 높아졌습니다.
더불어, 이번 사건은 AI 기술의 지리적 편중 현상에도 변화를 가져올 수 있습니다. 서구 중심의 AI 기술 개발 및 공개 흐름 속에서, 바이두와 같은 중국 기업이 최첨단 기술을 오픈소스로 선도적으로 공개한다는 점은 AI 생태계의 다양성을 증진시키고, 기술 발전을 더욱 촉진할 것으로 기대됩니다. 앞으로 우리는 더욱 다양한 국가의 기업들이 AI 기술 발전에 기여하고, 이를 공유하는 모습을 자주 보게 될 것입니다. 이는 결국 우리 생활에 더욱 풍요롭고 혁신적인 AI 서비스로 돌아올 것입니다.