구글 Veo-3, 수술 영상은 정교하게 만들지만 의학적 맥락은 완벽히 놓쳐¶
원제목: Google's Veo-3 can fake surgical videos but misses every hint of medical sense
핵심 요약
- 구글의 최신 영상 AI 'Veo-3'는 실제 수술 영상처럼 보이는 결과물을 생성하지만, 의학적 정확성은 현저히 떨어지는 것으로 나타났음.
- 특히 뇌 수술과 같이 정밀함이 요구되는 분야에서는 Veo-3의 영상 생성 능력이 더욱 취약한 모습을 보였음.
- AI가 생성한 영상의 93% 이상이 의학적 논리 오류를 포함하고 있어, 의료 훈련 등에 사용될 경우 심각한 위험을 초래할 수 있음을 시사함.
상세 내용¶
최근 구글이 선보인 최신 인공지능(AI) 영상 모델 'Veo-3'가 실제 수술 장면을 예측하는 테스트에서 시각적으로는 놀라운 결과물을 내놓았지만, 의학적인 맥락과 논리를 전혀 이해하지 못하는 한계를 드러냈습니다. 이 연구는 국제 연구팀에 의해 진행되었으며, 실제 복강경 수술 및 뇌 수술 영상을 기반으로 한 'SurgVeo'라는 새로운 벤치마크를 사용하여 Veo-3의 성능을 평가했습니다. 연구팀은 Veo-3에게 단일 이미지를 입력하여 향후 8초 동안 수술이 어떻게 진행될지 예측하도록 요청했습니다.
평가는 경험이 풍부한 외과 의사들이 Veo-3가 생성한 영상들을 시청하고 시각적 외형, 기구 사용, 조직 반응, 그리고 의학적 논리성이라는 네 가지 기준으로 점수를 매기는 방식으로 이루어졌습니다. 복강경 수술 영상의 경우, Veo-3는 초기 1초 동안은 시각적 타당성 측면에서 5점 만점에 3.72점을 기록하며 나름대로 설득력 있는 영상을 만들어냈습니다. 그러나 의학적 정확성을 요구하는 다른 기준들에서는 성능이 급격히 하락했습니다. 특히 기구 사용은 1.78점, 조직 반응은 1.64점, 그리고 의학적 논리성은 가장 낮은 1.61점에 그쳐, AI가 실제 수술실에서 일어나는 일들을 제대로 재현하지 못함을 보여주었습니다.
뇌 수술 분야에서는 Veo-3의 한계가 더욱 명확하게 드러났습니다. 신경외과 수술에 필요한 섬세한 정밀함과 같은 부분에서 Veo-3는 초기부터 어려움을 겪었습니다. 뇌 수술 영상에서는 기구 사용 점수가 2.77점으로 복강경 수술(3.36점)보다 낮았으며, 의학적 논리성은 8초 후에는 1.13점까지 떨어지는 심각한 오류를 보였습니다. 연구팀의 분석에 따르면, Veo-3가 생성한 영상에서 발견된 오류의 93% 이상이 의학적 논리와 관련된 것으로, AI가 존재하지 않는 기구를 만들거나, 불가능한 조직 반응을 상상하거나, 임상적으로 전혀 의미 없는 행동을 수행하는 등의 문제점을 보였습니다. 반면, 영상 품질 자체에 관련된 오류는 6.2%에 불과했습니다.
연구팀은 Veo-3에 수술 유형이나 절차의 특정 단계를 포함하는 더 많은 맥락 정보를 제공하는 시도를 했으나, 눈에 띄는 의미 있는 개선은 관찰되지 않았습니다. 이는 단순히 정보의 부족이 아니라, 모델 자체가 해당 정보를 처리하고 이해하는 능력에 근본적인 문제가 있음을 시사합니다. 즉, 현재의 영상 생성 AI는 겉보기에 그럴듯한 영상을 만들어낼 수는 있지만, 그 안에 담긴 복잡한 의학적 지식이나 인과 관계를 파악하는 데는 아직 갈 길이 멀다는 것을 명확히 보여주는 결과입니다.
이번 SurgVeo 연구 결과는 현재 영상 AI가 실제 의학적 이해 수준에 도달하기까지는 많은 시간이 필요함을 강조합니다. 향후 AI 시스템이 의사 훈련이나 수술 계획 지원, 나아가 실제 수술을 보조하는 데 활용될 잠재력은 분명히 존재하지만, 현재의 기술 수준으로는 그러한 응용이 시기상조임을 경고하고 있습니다. 특히, NVIDIA와 같이 일반적인 작업 훈련에 AI 영상을 활용하는 사례와 달리, 의료 분야에서는 Veo-3와 같이 의학적으로 잘못된 절차를 보여주는 AI 환각(hallucination)이 발생할 경우, 학습자나 로봇에게 잘못된 기술을 전수하여 심각한 위험을 초래할 수 있다는 점은 매우 우려스러운 부분입니다. 반면, 텍스트 기반 AI는 이미 의료 분야에서 상당한 발전을 보여주고 있다는 점도 주목할 만합니다.
편집자 노트¶
이번 구글 Veo-3 관련 연구는 최신 AI 기술의 밝은 면과 어두운 면을 동시에 보여주는 중요한 사례라고 할 수 있습니다. AI가 영상을 얼마나 사실적으로 생성할 수 있는지에 대한 놀라운 발전을 확인시켜주었지만, 동시에 AI가 '이해'와 '논리'라는 인간의 고유한 영역에 도달하기까지는 아직 넘어야 할 산이 많다는 것을 명확히 보여줍니다. 특히 '의학적 논리'라는, 인간의 전문성과 경험이 축적된 영역에서의 AI의 취약성은 앞으로 AI를 의료 분야에 적용할 때 우리가 반드시 깊이 고민해야 할 지점입니다.
일반 대중 입장에서는, AI가 단순히 '멋진' 영상을 만드는 기술에서 나아가 실제 우리 삶에 영향을 미치는 분야, 특히 건강과 직결된 의료 분야에 어떻게 적용될 수 있을지 관심을 가질 필요가 있습니다. Veo-3와 같은 기술이 의학 교육이나 수술 보조에 활용될 가능성이 언급되지만, 이번 연구 결과는 이러한 잠재력을 실현하기 위해서는 AI가 단순히 '보이는 것'을 넘어 '실제 작동 방식'과 '이유'를 이해해야 한다는 근본적인 과제를 안고 있음을 보여줍니다. 따라서 AI 기술의 발전 속도만큼이나, 그 기술이 가져올 윤리적, 실질적 파급 효과에 대한 신중한 접근과 검증이 필요함을 시사하는 대목입니다.