제미나이 2.5, AI 벤치마크 1위…구글의 추론 기술 공개

구글 딥마인드가 사고하는 인공지능(AI) 시대를 선언하며 차세대 추론형 모델 ‘제미나이 2.5 프로 익스페리멘털’을 실험적으로 출시했다.
이 모델은 기존 AI보다 한층 진화된 사고 구조를 갖추고 복잡한 문제 해결에 최적화된 것이 특징이다.
구글은 이를 통해 오픈AI, 앤트로픽 등 경쟁사와의 기술 경쟁에서 우위를 확보하려는 전략이다.
26일 구글 공식 블로그에 따르면, 이번에 공개된 제미나이 2.5는 인간처럼 사고하는 메커니즘을 탑재해 응답 이전에 논리적 판단과 맥락 분석을 수행할 수 있다.
단순 예측을 넘어, 상황에 따라 자율적인 판단이 가능한 에이전트형 AI를 목표로 설계됐다.
이 모델은 구글 AI 스튜디오와 제미나이 앱에서 먼저 제공되며, 기업용 플랫폼인 버텍스 AI에는 추후 탑재될 예정이다.
출시 직후 제미나이 2.5 는 AI 성능을 인간 기준으로 평가하는 LM아레나에서 1위를 기록하며 경쟁력을 입증했다.
특히 수학과 과학 분야에 강점을 보이며, 고난도 벤치마크인 GPQA, AIME 2025, 휴매니티스 라스트 이그잼 등에서 별도 도구 없이도 높은 성과를 냈다.
이 가운데 ‘휴매니티스 라스트 이그잼’에서는 전문가 문제 풀이 기준으로 18.8% 점수를 기록하며 사고 기반 접근의 효과를 보여줬다.
또한 코딩 능력도 대폭 강화됐다. 제미나이 2.5는 웹 애플리케이션 구현, 코드 리팩토링, 에이전트형 코드 생성 등 다양한 영역에서 우수한 성능을 발휘했다.
특히 실제 프로그래밍 환경을 반영한 SWE-벤치 베리파이드에서는 63.8%의 정확도를 기록, AI 코딩 실력의 현실적 진화를 입증했다.
이번 발표는 구글이 지난해 12월 ‘제미나이 2.0’을 통해 멀티모달 기능과 코드 생성 능력을 선보인 데 이은 진화다.
이어 지난 2월에는 단계적 사고가 가능한 ‘플래시 씽킹’ 모델을 출시하며 추론 특화 AI의 방향을 예고한 바 있다.
한편 경쟁사들도 추론형 AI 개발에 속도를 내고 있다. 오픈AI는 지난해 9월 ‘o1’, 올해 1월 ‘o3’ 모델을 공개했고, 중국 딥시크는 6천710억 개의 파라미터를 탑재한 ‘R1’을 선보였다.
앤트로픽은 최근 일반형과 추론형을 결합한 하이브리드 AI인 ‘클로드 3.7 소네트’를 발표하며 주목을 받았다.
구글은 사고형 구조에 멀티모달 입력과 긴 문맥 유지 기능까지 통합한 제미나이 2.5를 통해 이러한 경쟁자들과 정면 승부를 펼칠 것으로 보인다.
현재 모델은 AI 스튜디오에서 사용 가능하며, 고급 이용자는 제미나이 앱에서도 선택적으로 접근할 수 있다.
코라이 카북추오글루 구글 딥마인드 CTO는 “‘제미나이 2.5’는 복잡한 문제를 다루기 위한 사고형 모델로, AI의 새로운 지평을 연다”며 “고객 피드백을 바탕으로 지속적으로 개선할 것”이라고 밝혔다.
배동현 (grace8366@sabanamedia.com) 기사제보