콘텐츠로 이동

AI의 새로운 지평: Moonshot AI, Kimi K2 Thinking으로 오픈소스 LLM 추론 기록 경신

원제목: Moonshot AI’s Kimi K2 Thinking sets new agentic reasoning records in open-source LLMs

핵심 요약

  • Moonshot AI의 Kimi K2 Thinking은 1조 개의 매개변수를 가진 초대형 오픈소스 LLM으로, 복잡한 작업을 단계별로 해결하는 데 특화되어 있음.
  • HLE, BrowseComp, SWE-Bench 등 주요 추론 및 코딩 벤치마크에서 기존 최고 기록을 경신하며 GPT-5, Claude Sonnet 4.5 등 상용 모델과의 경쟁력을 입증함.
  • 상업적 이용 시 일정 수익 또는 사용자 규모 초과 시 명시적 고지를 요구하는 독특한 라이선스 조항은 글로벌 AI 시장의 기술 패권 경쟁과 데이터 주권 이슈를 시사함.

상세 내용

중국의 AI 기업 Moonshot AI가 'Kimi K2 Thinking'이라는 새로운 오픈소스 언어 모델을 공개하며 AI 업계의 이목을 집중시키고 있습니다. 이 모델은 '최고의 오픈소스 사고 모델'이라 불리며, 복잡한 과제를 단계별로 해결하는 '사고 에이전트'로 설계되었습니다.

Kimi K2 Thinking은 '테스트 시간 스케일링'이라는 기술을 활용하여, 실행 중에 추론 토큰과 도구 호출 수를 늘려 성능을 극대화합니다. Moonshot AI에 따르면, 이 모델은 인간의 도움 없이 최대 300번의 도구 호출을 연속적으로 수행하며 수백 단계에 걸쳐 논리적 일관성을 유지하여 어려운 문제를 해결할 수 있습니다. 모델 자체는 1조 개의 매개변수를 가지지만, '혼합 전문가(Mixture-of-Experts)' 아키텍처 덕분에 실제로는 320억 개의 매개변수만 활성화되어 효율성을 높였습니다. 또한, 256,000 토큰에 달하는 방대한 컨텍스트 창을 지원합니다.

특히 Kimi K2 Thinking은 추론, 코딩, 에이전트 기반 작업 등 여러 벤치마크에서 뛰어난 성과를 보였습니다. '인류의 마지막 시험(Humanity's Last Exam, HLE) with tools'에서는 44.9%라는 새로운 최고 기록을 달성했으며, 에이전트의 검색 및 브라우징 능력을 테스트하는 BrowseComp에서는 인간 기준선(29.2%)을 훨씬 뛰어넘는 60.2%를 기록했습니다. 코딩 분야에서도 SWE-Bench Verified에서 71.3%, SWE-Multilingual에서 61.1%의 점수를 기록하며, 이는 일부에서는 GPT-5, Claude Sonnet 4.5와 같은 최신 상용 모델 및 중국의 경쟁 모델인 Deepseek-V3.2를 능가하는 수치입니다.

Moonshot AI는 Kimi K2 Thinking의 코딩 능력을 보여주기 위해, 단 한 번의 프롬프트로 완벽하게 작동하는 워드 스타일 문서 편집기를 생성하는 데모를 선보였습니다. 이 모델은 HTML, React 등 프런트엔드 작업에서도 강력한 성능을 발휘하며, 생산 준비가 된 반응형 앱을 신속하게 만들어냅니다. 또한, 박사 수준의 수학 문제를 23번의 중첩된 추론과 도구 호출을 통해 해결하는 등 복잡하고 장기적인 문제 해결 능력을 입증했습니다.

Kimi K2 Thinking은 에이전트 기반 검색 및 다단계 연구를 위해 동적인 검색 루프를 실행할 수 있습니다. '사고-검색-브라우징-재사고-프로그래밍'의 순환을 통해 가설을 세우고, 증거를 검증하며, 일관성 있는 답변을 구축합니다. 이를 통해 특정 조건(대학 학위, NFL 경력, 영화/TV 출연 경력)을 만족하는 인물을 식별하는 복잡한 연구 과제를 성공적으로 수행했습니다. 모델의 실용성을 높이기 위해 양자화 인식 훈련(quantization-aware training)을 적용하여 메모리 요구량을 줄이고 텍스트 생성 속도를 약 두 배 향상시켰습니다. 현재 kimi.com 및 API를 통해 사용할 수 있으며, 모델 가중치는 Hugging Face에서 공개될 예정입니다. 작년 7월에도 Kimi K2 모델로 Claude Sonnet 4 및 GPT-4.1과 경쟁하며 주목받은 바 있습니다.


편집자 노트

Moonshot AI의 Kimi K2 Thinking 발표는 오픈소스 LLM 분야에 중요한 이정표를 세웠다고 볼 수 있습니다. 단순히 성능 수치만으로 기존 모델들을 뛰어넘는다는 것을 넘어, '사고 에이전트'라는 개념을 구체화하고 실질적인 복잡 문제 해결 능력을 입증했다는 점에서 의미가 큽니다. 특히 1조 개의 매개변수와 효율적인 아키텍처, 그리고 '테스트 시간 스케일링'과 같은 최신 기술의 적용은 앞으로 오픈소스 모델의 발전 방향을 제시할 것으로 보입니다. 이는 소규모 연구팀이나 스타트업들도 강력한 AI 모델을 활용하여 혁신을 이룰 수 있는 기회를 넓혀줄 것입니다.

더 주목할 점은 Kimi K2 Thinking의 라이선스 조건입니다. 일정 규모 이상의 상업적 이용 시 모델 이름을 명확히 표기하도록 한 조항은, 저렴한 중국산 오픈소스 모델을 무단으로 상업화하는 것에 대한 경계심을 드러내는 동시에, 데이터 주권 및 기술 종속성 문제에 대한 글로벌 AI 생태계의 복잡한 현실을 반영합니다. 앞으로 이러한 라이선스 정책이 글로벌 AI 시장에서 어떤 파장을 일으킬지, 그리고 국내외 기업들이 이를 어떻게 수용하고 대응할지가 흥미로운 관전 포인트가 될 것입니다. 이는 단순히 기술 경쟁을 넘어, AI 기술을 둘러싼 경제적, 윤리적, 지정학적 역학 관계를 이해하는 데 중요한 단서를 제공합니다.



원문 링크