콘텐츠로 이동

구글, '나노 바나나 프로' 공개: 이미지 생성, 이제 의도대로 가능해진다

원제목: Google's latest image model Nano Banana Pro makes image generation feel truly intentional

핵심 요약

  • 구글의 최신 이미지 생성 모델 '나노 바나나 프로'가 복잡한 장면에서도 일관된 물리 법칙과 정확한 텍스트 렌더링을 구현했다는 점입니다.
  • 실시간 정보 연동 및 최대 14개의 다양한 입력(이미지, 스케치 등)을 활용하여 더욱 현실적이고 의도에 맞는 결과물을 생성할 수 있다는 점입니다.
  • 건축, 제품 디자인, UI/UX 디자인 등 다양한 분야에 적용 가능하며, 개발자 도구 및 광고 플랫폼에도 통합되어 활용도를 높이고 있다는 점입니다.

상세 내용

구글이 '나노 바나나 프로(Nano Banana Pro)', 즉 '제미나이 3 프로 이미지(Gemini 3 Pro Image)'라는 이름의 새로운 이미지 생성 모델을 출시했습니다. 이 모델은 기존의 제미나이 2.5 플래시 이미지 모델을 대체하며, 복잡한 장면을 처리할 때 일관된 물리 법칙을 적용하고 텍스트를 정확하게 렌더링하는 데 탁월한 성능을 보입니다. 또한, 실시간 정보를 입력으로 활용하여 현실 세계의 데이터를 이미지로 변환하는 기능도 갖추고 있습니다. 특히, 논리적으로 말이 되는 인포그래픽 초안을 생성하는 능력은 주목할 만합니다.

나노 바나나 프로는 최대 14개의 입력(참조 이미지, 스케치, 로고 등)을 동시에 처리할 수 있으며, 최대 5명의 캐릭터를 일관되게 유지하면서 최대 4K 해상도의 이미지를 생성할 수 있습니다. 사용자는 이미지의 밝기, 초점, 색상과 같은 특정 영역을 세밀하게 조정할 수도 있습니다. 현재 이 모델은 Gemini API, Google AI Studio, Vertex AI를 통해 유료 미리보기 버전으로 제공됩니다. 일반 사용자는 Gemini 앱에서 일부 무료 할당량과 Pro 및 Ultra 구독자에게 더 많은 사용량을 제공하는 방식으로 제한적으로 접근할 수 있습니다.

기존의 확산 모델(diffusion models)과는 달리, 제미나이 3 프로는 이미지를 렌더링하기 전에 '추론 단계'를 거칩니다. 구글의 기술 설명에 따르면, 이 모델은 입력된 정보를 검토하고 조명, 그림자 기울기, 카메라 각도, 피사계 심도와 같은 물리적 및 논리적 세부 사항을 확인합니다. 이러한 과정을 통해 건축, 제품 목업, 여러 광원이 있는 장면 등에서 더욱 사실적인 결과를 얻을 수 있다고 합니다. 'Grounding with Google Search' 기능을 통해 모델은 실시간 정보에 접근하여 현재 날씨 지도, 인포그래픽, 역사적으로 정확한 장면 등을 만들 수 있습니다.

제미나이 3 프로는 텍스트 렌더링에서도 상당한 업그레이드를 제공합니다. 긴 텍스트를 읽기 쉽고 정확하게, 여러 언어에 걸쳐 생성하며 포스터나 패키지 등 레이아웃의 시각적 스타일을 유지하도록 설계되었습니다. 번역 기능도 문맥을 파악하여 타이포그래피를 일관되게 유지합니다. 또한, 다단계 편집 기능을 지원하여 사용자가 여러 차례에 걸쳐 이미지를 개선할 수 있습니다. 구글은 지역화된 광고 레이아웃, 인포그래픽, 그리고 'Grey Alien' 포스터와 같은 예시를 들었습니다.

구글은 개발자 플랫폼인 Antigravity에도 제미나이 3 프로 이미지를 통합하여 코딩 에이전트가 UI 목업이나 시각적 자산을 생성할 수 있도록 했습니다. Google Ads에서의 이미지 생성 기능은 8개 언어로 전 세계에 확대 적용되고 있습니다. Google AI Ultra 구독자는 Flow 영화 제작 도구에서도 이 모델을 사용할 수 있습니다. 생성된 모든 이미지에는 보이지 않는 SynthID 태그가 포함되며, 무료 및 Pro 사용자는 눈에 보이는 워터마크가 추가되지만, Ultra 구독자만 워터마크 없는 이미지를 생성할 수 있습니다. 또한, Gemini 앱에는 사용자가 이미지의 출처를 확인할 수 있는 업로드 도구도 제공됩니다.


편집자 노트

구글의 '나노 바나나 프로(Gemini 3 Pro Image)' 모델 발표는 AI 기반 이미지 생성 기술의 새로운 지평을 열었다고 볼 수 있습니다. 기존 모델들이 단순히 이미지를 '그리는' 수준이었다면, 이 모델은 '이해하고, 추론하고, 의도대로 생성하는' 단계로 나아갔다는 점이 가장 큰 차별점입니다. 특히, 물리 법칙을 따르고, 실시간 정보를 활용하며, 복잡한 텍스트 렌더링까지 지원한다는 점은 매우 고무적입니다. 이는 곧 우리가 AI에게 이미지를 만들어달라고 요청할 때, 상상하는 것을 훨씬 더 정확하고 현실적으로 구현할 수 있게 된다는 의미입니다.

일반 사용자 입장에서는 디자인, 광고, 콘텐츠 제작 등 다양한 분야에서 AI의 도움을 받는 것이 더욱 쉬워지고 결과물의 품질도 높아질 것으로 기대됩니다. 예를 들어, 개인적으로 필요한 간단한 디자인 시안을 만들거나, 아이디어를 시각화하는 데 훨씬 유용해질 것입니다. 또한, 개발자나 디자이너에게는 UI/UX 디자인, 제품 목업 제작 등 전문적인 작업의 효율성을 크게 향상시킬 수 있는 강력한 도구가 될 것입니다. 장기적으로는 AI 이미지 생성 기술이 우리의 일상생활에 더욱 깊숙이 스며들어, 창작 활동의 문턱을 낮추는 데 크게 기여할 것으로 전망됩니다.



원문 링크