콘텐츠로 이동

양자 물리학으로 AI 검열 풀고 크기 절반 줄였다: 딥씨커 R1 재탄생

원제목: Quantum physicists have shrunk and “de-censored” DeepSeek R1

핵심 요약

  • 중국 AI 모델 '딥씨커 R1'의 크기를 55% 줄이고 검열 기능을 제거하는 데 성공함.
  • 양자 물리학에서 차용한 '텐서 네트워크' 기법으로 AI 모델의 효율성과 정확성을 높임.
  • AI 모델 경량화 및 검열 해제 기술은 향후 AI 산업 전반에 큰 영향을 미칠 것으로 예상됨.

상세 내용

스페인의 양자 컴퓨팅 기업 멀티버스 컴퓨팅(Multiverse Computing) 소속 양자 물리학자들이 중국의 강력한 AI 추론 모델인 '딥씨커 R1(DeepSeek R1)'의 크기를 절반 이상 줄이고, 중국 당국이 부과한 검열 기능을 제거하는 데 성공했다고 밝혔습니다. 이번에 개발된 모델은 '딥씨커 R1 슬림(DeepSeek R1 Slim)'으로 명명되었으며, 원본 모델 대비 크기가 55% 축소되었음에도 불구하고 성능은 거의 동일하게 유지하는 것으로 알려졌습니다. 더 나아가, 이들은 중국 AI 기업들이 법률 및 '사회주의 가치'에 부합하도록 콘텐츠를 제어하기 위해 의도적으로 탑재한 검열 기능을 성공적으로 제거했다고 주장합니다. 이는 정치적으로 민감한 질문에 대해 답변을 거부하거나 정부 선전 내용을 그대로 답하는 기존 중국 AI 모델의 한계를 극복한 사례로 평가됩니다. 모델 크기 축소를 위해 멀티버스는 양자 물리학에서 영감을 받은 복잡한 수학적 접근 방식, 즉 '텐서 네트워크'를 활용했습니다. 이 기법은 대규모 데이터셋을 고차원 격자망 형태로 표현하고 조작하여 모델의 크기를 획기적으로 줄입니다. 텐서 네트워크는 모델 내 모든 상관관계에 대한 '지도'를 제공하며, 이를 통해 특정 정보를 정밀하게 식별하고 제거할 수 있습니다. 압축 및 편집 후에는 원본 모델의 출력 결과와 최대한 유사하게 유지되도록 미세 조정을 거칩니다. 연구진은 중국 AI 모델에서 제한되는 것으로 알려진 주제, 예를 들어 시진핑 주석을 풍자하는 '곰돌이 푸'와 관련된 질문이나 '1989년 톈안먼 사건' 등에 대한 질문 데이터셋을 구축하여 테스트를 진행했습니다. 이 수정된 모델의 답변을 원본 딥씨커 R1 및 OpenAI의 GPT-5와 비교 평가한 결과, 검열이 제거된 모델이 서구권 모델과 유사한 수준의 사실적 답변을 제공했다고 멀티버스는 설명합니다. 이 연구는 기존 AI 모델을 압축하고 조작하는 기술을 개발하려는 멀티버스의 광범위한 노력의 일환입니다. 현재 대부분의 대규모 언어 모델(LLM)은 훈련 및 실행에 고성능 GPU와 막대한 컴퓨팅 파워를 요구하지만, 효율성이 떨어진다는 지적이 있었습니다. 로만 오러스(Roman Orús) 멀티버스 공동 창립자 겸 최고 과학 책임자는 압축된 모델이 거의 동등한 성능을 보이면서 에너지와 비용을 절감할 수 있다고 강조했습니다. AI 업계 전반에서는 모델을 더 작고 효율적으로 만들려는 노력이 증가하고 있습니다. 딥씨커 자체의 R1-Distill과 같은 증류 모델은 더 큰 모델의 지식을 작은 모델에 '가르치는' 방식으로 능력을 포착하려 하지만, 복잡한 추론 작업에서는 종종 원본 성능에 미치지 못합니다. 모델 압축의 다른 방법으로는 모델 매개변수의 정밀도를 낮추는 양자화(quantization)와 개별 가중치 또는 전체 '뉴런'을 제거하는 가지치기(pruning) 등이 있습니다. 시트린 인포매틱스(Citrine Informatics)의 AI 연구 엔지니어인 맥스웰 베네토스(Maxwell Venetos)는 성능 저하 없이 대형 AI 모델을 압축하는 것은 매우 어려운 과제이며, 대부분의 기술은 크기와 성능 사이에서 타협해야 한다고 언급했습니다. 그는 양자 물리학에서 영감을 받은 접근 방식이 추상적인 수학을 사용하여 기존보다 더 정밀하게 중복성을 줄인다는 점에서 흥미롭다고 덧붙였습니다. 멀티버스 연구진은 이 접근 방식을 통해 LLM에서 편향을 선택적으로 제거하거나 특정 행동을 세부적으로 주입 또는 제거하는 것이 가능해진다고 말했습니다. 또한, 중국 당국의 검열 제거 외에도 연구자들은 다른 종류의 인식적인 정보도 조작할 수 있습니다.


편집자 노트

이번 멀티버스 컴퓨팅의 연구는 AI 기술의 두 가지 중요한 측면, 즉 '효율성'과 '자유로운 정보 접근성'을 동시에 개선했다는 점에서 매우 주목할 만합니다. AI 모델의 크기를 절반 이상 줄이면서도 성능을 유지하는 것은 개인용 기기나 저사양 환경에서도 고성능 AI를 활용할 수 있는 길을 열어줄 것입니다. 이는 마치 고성능 PC 없이도 최신 게임을 즐길 수 있게 되는 것과 같은 변화를 가져올 수 있습니다. 특히, 양자 물리학에서 차용한 '텐서 네트워크'라는 기술은 복잡한 AI 모델의 내부 구조를 효율적으로 표현하고 조작하는 혁신적인 방법을 제시하며, 이는 AI 경량화 기술의 새로운 지평을 열었다고 평가할 수 있습니다. 또한, 중국 AI 모델에 내재된 검열을 제거하고 정치적으로 민감한 질문에 대한 답변을 가능하게 했다는 점은 전 세계적으로 AI의 정보 접근성과 투명성에 대한 논의를 더욱 심화시킬 것으로 보입니다. 이는 AI가 단순히 기술적인 도구를 넘어, 정보의 자유로운 흐름과 건전한 비판적 사고를 지원하는 플랫폼으로 발전할 수 있음을 시사합니다. 물론, 이러한 기술이 실제로 얼마나 광범위하게 적용될지는 추가적인 연구와 기술 검증, 그리고 사회적 합의가 필요하겠지만, 이번 연구는 AI가 우리 생활에 더욱 가까워지고, 정보의 장벽을 허물 수 있는 가능성을 분명하게 보여주고 있습니다.



원문 링크