OpenAI, 24시간 엔지니어링 작업 가능한 'GPT-5.1-Codex-Max' 공개¶

원제목: OpenAI releases GPT-5.1-Codex-Max to handle engineering tasks that span twenty-four hours

핵심 요약

OpenAI가 24시간 동안 지속되는 복잡한 엔지니어링 작업을 처리할 수 있는 새로운 AI 모델 'GPT-5.1-Codex-Max'를 출시했음을 나타냄.
GPT-5.1-Codex-Max는 기존 모델 대비 효율성과 성능을 대폭 향상했으며, 특히 장시간 작업에 특화된 '압축(compaction)' 기술을 활용함을 강조함.
이 모델은 Windows 환경에 최적화되었으며, ChatGPT Plus 이상 유료 사용자에게 즉시 제공되지만, 여전히 인간의 검토가 필수적임을 시사함.

상세 내용¶

OpenAI가 코딩 환경을 혁신할 새로운 '에이전트형' 코딩 모델인 GPT-5.1-Codex-Max를 공개했습니다. 이 모델은 장시간에 걸쳐 이루어지는 상세한 작업을 위해 특별히 설계되었으며, 이전의 GPT-5.1-Codex를 대체하여 모든 Codex 인터페이스의 표준으로 자리 잡게 될 예정입니다. SWE-Bench Verified 코딩 벤치마크 테스트에서 GPT-5.1-Codex-Max는 77.9%라는 높은 예상 점수를 기록하며 Anthropic과 Google의 최신 Gemini 3 모델을 앞서는 성과를 보였습니다. 내부 'SWE-Lancer IC SWE' 벤치마크에서도 66.3%에서 79.9%로 크게 향상되었습니다. OpenAI에 따르면, 새로운 모델은 동일한 품질을 유지하면서도 이전 모델 대비 '사고 토큰' 사용량을 30% 줄였으며, 실제 작업에서는 27%에서 42% 더 빠르게 실행됩니다. 응답 속도가 중요하지 않은 작업의 경우, '엑스트라 하이(Extra High)' 추론 모드를 통해 더 많은 시간을 할애하여 생각할 수 있도록 기능을 추가했습니다. 특히 주목할 점은 GPT-5.1-Codex-Max가 Windows 환경에서 효과적으로 작동하도록 최초로 특화 훈련되었다는 것입니다. 이는 명령줄 작업 처리 능력을 향상시키기 위한 전략으로, OpenAI 엔지니어의 95%가 Codex를 주간 단위로 사용하며 툴 도입 이후 풀 리퀘스트(pull requests)가 70% 증가했다는 점은 그 효과를 방증합니다. 현재 ChatGPT Plus, Pro, Team, Edu, Enterprise 사용자에게 즉시 접근이 가능하며, Max 버전은 이전 모델을 기본값으로 대체하고 출시 단 며칠 만에 이전 버전을 은퇴시켰습니다. 이전 모델의 가격은 백만 입력 토큰당 1.25달러, 출력 토큰당 10달러였으나, 새로운 모델의 가격 정보는 아직 공개되지 않았으며 API 접근은 곧 제공될 예정입니다. ChatGPT Plus 사용자는 5시간마다 45~225개의 로컬 메시지와 10~60개의 클라우드 작업을, Pro 사용자는 300~1,500개의 로컬 메시지와 50~400개의 클라우드 작업을 할당받습니다. GPT-5.1-Codex-Max는 내부 테스트에서 '24시간 이상' 단일 과제에 집중하며 테스트 실패 수정이나 구현 반복과 같은 작업을 처리할 수 있다고 합니다. 이를 위해 OpenAI는 '압축(compaction)'이라는 과정을 사용합니다. 모델이 컨텍스트 창을 채우면 자동으로 세션 기록을 압축하고, 중요한 정보는 요약하며 중요하지 않은 세부 사항은 폐기하여 AI가 수백만 토큰에 걸쳐 핵심 과제와 주요 단계를 유지하도록 합니다. GPT-5.1-Codex-Max는 이러한 방식으로 여러 컨텍스트 창에 걸쳐 네이티브로 훈련된 최초의 모델입니다. 보안 측면에서는 가장 뛰어난 사이버 보안 모델이라고 주장하지만, 아직 내부 '높은 역량' 기준에는 미치지 못한다고 합니다. OpenAI는 Aardvark와 같은 툴로 보안 전문가들을 지원할 계획이지만, 모델이 인간의 검토를 대체할 수는 없으므로 개발자들에게 배포 전 에이전트의 작업을 꼼꼼히 확인하도록 경고하고 있습니다. Codex가 더 긴 작업을 수행함에 따라 에이전트의 작업을 검토하는 것이 '점점 더 중요해진다'고 OpenAI는 강조합니다. 이는 시스템이 여전히 실수를 하기 때문이며, 모델이 더 많은 코드를 생성할수록 향후 디버깅을 위한 코드 검증 및 이해가 어려워져 효율성 증대 효과를 상쇄할 수 있다는 점을 인지해야 합니다. 이러한 과정의 어려움을 덜기 위해 Codex는 툴 호출 및 테스트 결과를 인용하는 터미널 로그를 생성하며, OpenAI는 Codex가 인간의 눈을 대체하는 것이 아니라 추가적인 검토자 역할을 한다고 강조합니다.

편집자 노트¶

이번 OpenAI의 GPT-5.1-Codex-Max 출시는 인공지능이 단순한 코드 생성 도구를 넘어, 실제 엔지니어링 과정에서 오랜 시간 동안 복잡한 문제를 해결하는 '협업 파트너'로 진화하고 있음을 보여줍니다. 특히 24시간 이상 장시간 작업을 지속할 수 있다는 점과 '압축' 기술을 통해 컨텍스트 창의 한계를 극복하려는 시도는 AI의 활용 범위를 획기적으로 넓힐 잠재력을 지니고 있습니다. 이는 개발자들의 업무 효율성을 극대화하고, 기존에는 AI가 접근하기 어려웠던 복잡하고 반복적인 엔지니어링 과제에 대한 새로운 해결책을 제시할 수 있다는 점에서 매우 중요합니다.

일반 사용자에게는 당장 와닿지 않을 수 있지만, 이러한 AI 기술의 발전은 결국 소프트웨어 개발 전반의 속도와 품질 향상으로 이어질 것입니다. 더 빠르고 안정적인 애플리케이션 및 서비스의 출시, 나아가 우리가 일상에서 사용하는 다양한 기술의 발전에도 긍정적인 영향을 미칠 수 있습니다. 다만, AI가 완벽하지 않으며 여전히 인간의 세심한 검토와 판단이 필수적이라는 OpenAI의 강조는, AI 기술 발전과 더불어 인간의 역할 재정립에 대한 지속적인 고민이 필요함을 시사합니다. AI는 도구이지 대체재가 될 수 없다는 점을 명심해야 할 것입니다.

원문 링크