딥씨크, AI 기억력 혁신할 '이미지 기반 토큰' 기술 공개¶
원제목: DeepSeek may have found a new way to improve AI’s ability to remember
핵심 요약
- 딥씨크가 텍스트 토큰 대신 이미지를 활용하여 AI의 기억력 및 정보 처리 효율성을 높이는 새로운 기술을 개발했음.
- 이 기술은 AI가 더 많은 정보를 장기간 기억하고, 컴퓨팅 자원 소모와 탄소 배출량을 줄이는 데 기여할 수 있음.
- 기존 AI의 '컨텍스트 붕괴' 문제를 해결하고, AI 에이전트의 성능 향상 및 AI 학습 데이터 생산량 증대에도 긍정적인 영향을 줄 것으로 기대됨.
상세 내용¶
중국의 AI 기업 딥씨크(DeepSeek)가 AI의 '기억력'을 획기적으로 개선할 수 있는 새로운 기술을 선보였습니다. 이번에 공개된 광학 문자 인식(OCR) 모델은 기존 텍스트 토큰 방식에서 벗어나 정보를 이미지 형태로 압축하여 저장하는 혁신적인 접근 방식을 사용합니다. 이는 스캐너 앱이나 사진 번역 등에서 사용되는 OCR 기술을 기반으로 하지만, 정보 저장 및 검색 방식에 중점을 둔 것이 특징입니다. 딥씨크의 기술은 현재 최고 수준의 OCR 모델과 동등한 성능을 보이면서도, AI의 기억력 문제를 해결할 잠재력을 보여주고 있습니다.
기존의 대규모 언어 모델(LLM)은 텍스트를 수많은 작은 단위인 '토큰'으로 분해하여 처리합니다. 하지만 사용자와의 대화가 길어질수록 이러한 토큰의 저장 및 계산 비용이 급증하며, 이로 인해 AI가 이전에 들었던 정보를 잊거나 혼동하는 '컨텍스트 붕괴(context rot)' 현상이 발생하곤 합니다. 딥씨크의 새로운 방법은 이러한 문제점을 극복할 수 있습니다. 텍스트를 토큰으로 저장하는 대신, 마치 책 페이지를 사진 찍듯 정보를 이미지 형태로 압축하여 저장하는 것입니다. 연구 결과에 따르면, 이 방식을 통해 거의 동일한 정보를 훨씬 적은 수의 토큰으로 저장할 수 있습니다.
이 OCR 모델은 텍스트 토큰 대신 시각적 토큰을 사용하는 새로운 접근법을 시험하는 테스트베드 역할을 합니다. 또한, 이 모델은 인간의 기억이 희미해지는 방식과 유사한 계층적 압축 방식을 사용합니다. 오래되거나 덜 중요한 정보는 공간 절약을 위해 다소 흐릿한 형태로 저장되지만, 필요시에는 배경에서 접근 가능하며 시스템 효율성을 유지할 수 있습니다. 이러한 혁신적인 이미지 기반 토큰 방식은 AI 연구 및 응용 분야에 새로운 가능성을 열어줄 것으로 기대됩니다.
기존 텍스트 토큰 방식은 AI 시스템의 표준으로 자리 잡고 있었지만, 딥씨크의 이미지 기반 토큰 방식은 이러한 통념을 뒤집습니다. 전 테슬라 AI 책임자이자 OpenAI 창립 멤버인 안드레이 카파시(Andrej Karpathy)도 이 논문에 대해 긍정적인 평가를 내리며, 이미지 입력이 텍스트 입력보다 LLM에 더 효과적일 수 있다고 언급했습니다. 이는 텍스트 토큰이 '낭비적이고 입력 방식에서 형편없다'는 그의 지적과 맥을 같이 합니다. 노스웨스턴 대학교의 맨링 리(Manling Li) 조교수는 이 연구가 AI 기억력 문제에 대한 새로운 프레임워크를 제공한다고 평가하며, 이미지 기반 토큰 방식이 실질적으로 작동할 수 있음을 보여준 첫 사례라고 강조했습니다.
이 기술은 AI 에이전트 개발에 특히 유용할 수 있습니다. AI와의 대화가 지속적으로 이루어지는 만큼, 이 접근 방식은 모델이 더 많은 정보를 기억하고 사용자에게 더욱 효과적으로 도움을 줄 수 있도록 만들 것입니다. 또한, AI 모델 학습을 위한 훈련 데이터 생성에도 활용될 수 있습니다. 현재 AI 개발자들은 양질의 텍스트 훈련 데이터 부족 문제에 직면해 있는데, 딥씨크의 OCR 시스템은 단일 GPU로 하루에 20만 페이지 이상의 훈련 데이터를 생성할 수 있다고 합니다. 비록 이 모델과 논문이 이미지 토큰을 AI 기억력에 활용하는 초기 탐색 단계이지만, 그 잠재력은 매우 크다고 할 수 있습니다.
편집자 노트¶
딥씨크의 이번 기술 발표는 AI의 '기억력'이라는 근본적인 문제에 대한 흥미로운 해결책을 제시했다는 점에서 매우 주목할 만합니다. 우리는 AI와 대화할 때, 혹은 AI에게 복잡한 작업을 맡길 때, AI가 이전에 했던 말을 잊거나 맥락을 놓치는 경험을 자주 하게 됩니다. 이는 마치 사람과의 대화에서 상대방이 금방 말을 잊어버리는 것과 같아 답답함을 유발합니다. 딥씨크는 이러한 문제를 해결하기 위해, 기존의 텍스트 정보를 잘게 쪼개는 방식 대신, 정보를 '사진' 찍듯 이미지로 압축하여 저장하는 방식을 제안했습니다. 이는 단순한 아이디어를 넘어, 실제 AI 모델에서 구현하고 성능까지 입증했다는 점에서 의미가 있습니다.
이 기술의 핵심은 '효율성'입니다. AI 모델이 더 적은 자원으로 더 많은 정보를 기억할 수 있다는 것은, 곧 AI를 더 싸고, 더 빠르고, 더 친환경적으로 만들 수 있다는 것을 의미합니다. 현재 AI 산업은 막대한 컴퓨팅 자원과 전력을 소모하며 환경 문제까지 야기하고 있는데, 딥씨크의 기술은 이러한 우려를 해소하는 데 기여할 수 있습니다. 또한, AI의 '기억력'이 향상된다는 것은 곧 AI가 우리의 말을 더 잘 이해하고, 우리의 요구를 더 정확하게 파악하며, 더욱 개인화되고 유능한 도움을 줄 수 있다는 것을 뜻합니다. 앞으로 우리는 AI 비서, AI 튜터, 심지어 AI 동반자까지, 더욱 발전된 형태의 AI 서비스를 경험하게 될 가능성이 높습니다.