구글, 제미나이 2.5 업데이트 발표 “이론을 현실로”

구글이 연례 개발자 컨퍼런스에서 제미나이 모델과 응용 모델의 업데이트를 공개했다. 압도적이고 깜짝 놀랄 파운데이션 모델 공개보다 실제 활용과 밀접하게 관련되는 업데이트를 내놔 개발자의 채택을 독려하는 데 신경을 쓰는 모습이다.

구글은 20일(현지시간) 미국 마운틴뷰에서 연례 개발자 컨퍼런스 ‘구글I/O 2025’를 개최하고 제미나이 모델의 업데이트를 발표했다.

작년부터 구글은 컨퍼런스에 맞춰 새로운 파운데이션모델을 선보이기보다 파생모델의 업데이트와 실제 개발자 활용 방안을 소개하고 있다. 올해도 그 기조는 이어졌다.

구글은 컨퍼런스를 앞두고 알파이볼브, 제미나이2.5 플래시, 제미나이2.5 프로 등을 이미 발표했다.

순다 피차이 구글 최고경영자(CEO)는 “과거 구글은 I/O를 앞두고 여러가지 새로운 소식을 전하지 않고 최고의 모델을 I/O 무대 발표를 위해 아껴뒀다”며 “하지만 제미나이 시대에 접어든 지금, 시기에 얽매이지 않고 가장 뛰어난 모델을 선보이거나 알파이볼브 같은 획기적인 혁신 발표를 내놓기도 한다”고 말했다.

그는 “구글은 최고의 모델을 최대한 빨리 제품에 적용해 이용자에게 선보이고자 한다”며 “그래서 그 어느 때보다 더 빠르게 혁신을 선보이고 있다”고 강조했다.

구글 I/O에서 발표된 AI 모델 관련 새로운 내용은 제미나이2.5 프로의 최신 에디션과, 제미나이 2.5 플래시 업데이트, 제미나이 2.5 프로의 ‘딥싱크(Deep Think)’ 등이다.

제미나이2.5 프로는 2주전 공개됐고, 학술적 벤치마크와 WebDev 아레나, LM아레나 등에서 세계 1위 모델에 올랐다. WebDev 아레나 리더보드에서 ELO 점수 1420점을 기록했고, 다양한 환경에서 인간 선호도를 평가하는 LM아레나에서 모든 항목 1위에 올랐다.

제미나이2.5 프로에 새롭게 추가된 ‘딥싱크’ 기능은 고급 추론 모드다. 난이도 높은 질문과 요청에 답변을 쪼개 심층적으로 답변하며 최종적으로 가장 우수한 답변을 내놓게 된다. 오픈AI의 o1과 o3의 방식과 유사하다.

광범위한 용도에서 효율적인 비용으로 이용하는 제미나이2.5 플래시는 추론, 멀티모달리티, 코드 및 긴 컨텍스트 처리 등에서 개선됐다. 토큰 사용량이 20~30% 줄었다. 구글 AI 스튜디오, 버텍스AI, 제미나이 앱 등에서 미리보기로 제공되고 6월초 정식 출시될 예정이다.

제미나이2.5 플래시의 토큰당 비용은 입력 100만 토큰당 0.15달러이며, 출력 100만토큰당 비추론 0.60달러 및 추론 3.50달러다. 구글은 오픈AI o4-미니, 클로드 소넷 3.7, 딥시크-R1, 그록3 등과 비교해 가장 저렴하다고 강조했다.

제미나이2.5 플래시와 2.5 프로는 네이티브 오디오 출력, 고급 보안 보호 기능, ‘프로젝트 마리너(Project Mariner)’의 컴퓨터 작업 기능을 추가했다.

제미나이 라이브 API는 2.5 플래시 기반의 네이티브 오디오 출력 대화를 미리보기로 제공한다. 자연스럽고 표현력 풍부한 대화 경험을 구축할 수 있다는 설명이다. 이용자는 모델의 어조, 억양, 화법 등을 조절할 수 있다. 그밖에 감정 기반 대화(Affective Dialogue), 능동형 오디오(Proactive Audio), 라이브 API에서의 씽킹 모드 등을 미리보기로 이용할 수 있다.

제미나이2.5 프로 및 플래시는 텍스트-음성변환(TTS) 기능의 새로운 미리보기 버전을 제공한다. 네이티브 오디오 출력을 통해 2개의 음성으로 TTS를 지원하는 다중화자 지원 기능을 제공한다. 한국어를 포함해 24개 언어를 이용할 수 있다.

구글은 간접 프롬프트 인젝션 같은 보안 위협에 대응할 수 있도록 보호 기능을 강화했다고 밝혔다. 제미나이 사용 중 간접 프롬프트 인젝션 공격 시 보호율이 향상됐다고 강조했다.

제미나이와 버텍스 API에 사고 요약(thought summaries) 기능이 새롭게 추가됐고, 사고 예산(thinking budgets) 기능은 2.5 프로까지 확대 적용됐다. 제미나이 API와 SDK는 모델컨텍스트프로토콜(MCP)’지원하게 됐다.

사고 요약 기능은 모델의 원시적인 생각들을 가져와 머리글, 주요 세부 정보, 툴 사용 시점 등 모델 행동에 대한 정보를 정리해 보여준다. 이를 통해 개발자는 제미나이 모델과 상호작용을 더 쉽게 이해하고 디버깅할 수 있다.

사고 예산 기능은 모델 추론 비용을 제어하게 해준다. 모델이 응답하기 전 사고하는 데 필요한 토큰 수를 제어하거나 사고 기능을 끌 수 있다.

구글은 제미나이 등의 다양한 기술적 혁신을 실제 구글 제품에 적용하고 있다.

구글은 올해 컨퍼런스에서 제미나이 앱의 정식 출시를 발표했다. 제미나이 앱은 또한 음성 처리, 비디오 이해, 메모리 등을 제공하는 ‘프로젝트 아스트라(Astra)’를 제미나이 라이브에 통합했다. 제미나이 앱은 기기의 카메라와 마이크를 통해 현실 데이터를 입력받고, 다양한 형식으로 출력을 제공할 수 있다.

제미나이 앱은 iOS, 안드로이드 등에서 모두 이용 가능해졌다. 구글 지도, 구글 캘린더, 구글 태스크 등과도 더 긴밀히 통합될 예정이다. 제미나이 앱의 딥러시치 기능은 개인 PDF, 이미지 등도 업로드할 수 있게 됐다.

또한 웹브라우저 등 사용자 컴퓨터를 구동하는 AI 에이전트인 ‘프로젝트 마리너(Mariner)’를 작년 12월 공개했었다. 이제 프로젝트 마리너는 12가지 작업을 한번에 수행할 수 있게 됐다.

구글은 이미지 생성, 비디오 생성 모델의 최신 버전인 ‘이마젠4(Imagen4)’와 ‘베오3(Veo3)’도 공개했다.

베오3는 이전버전 대비해 생성하는 비디오 품질을 크게 향상시켰고, 소리를 포함한 동영상도 생성할 수 있다. 텍스트 및 이미지 프롬프트부터 실제 물리 법칙 반영과 정확한 싱크까지 더 높은 성능을 구현했다. 베오3는 제미나이 앱, 플로우, 버텍스AI 등에서 현재 이용 가능하다.

이마젠4는 속도와 정밀도를 더 높였다. 다양한 화면 비율과 최대 2K 해상도를 출력할 수 있다. 텍스트 출력 성능도 향상됐다. 이마젠4는 제미나이 앱, 위스크, 버텍스AI, 워크스페이스 등에서 현재 사용가능하다.

콘텐츠 생성 모델과 함께 창작자가 사용가능한 AI 영화 제작도구 ‘플로우(Flow)’고 발표됐다. 자연어로 원하는 장면을 설명하면, 플로우가 캐스팅, 장소, 오브젝트, 스타일 등 이야기 구성요소를 한 곳에서 관리하고, 이를 바탕으로 한편의 콘텐츠를 생성한다. 플로우는 미국 내 구글 AI 프로 및 울트라 요금제 구독자에게 제공된다.

구글은 AI로 생성된 콘텐츠를 식별하도록 돕는 워터마크 기술 ‘신스ID(SynthID)’를 제공하고 있다. 이제 AI 생성 콘텐츠를 한 곳에서 탐지해 모아서 확인할 수 있는 검증 포털 ‘신스ID 디렉터’를 공개했다. 이 포털에서 다양한 콘텐츠 형식에 대한 탐지 기능을 이용할 수 있고, 콘텐츠 안에서 신스ID 워터마크 삽입 가능성 높은 부분을 하이라이트해 알려준다.

구글은 가장 높은 가격의 AI 구독 상품인 ‘제미나이 울트라′를 미국부터 출시한다. 월 249.99달러의 비용으로 베오3, 플로우, 제미나이2.5 프로 딥싱크 등을 이용할 수 있다. 노트북LM, 위스크에서 더 많은 용량을 이용할 수 있다.

순다 피차이는 제미나이와 각종 AI 모델 관련 서비스가 빠르게 성장하고 있다고 강조했다. 작년 제품과 API에서 한 달 9.7조개 토큰을 처리하던 것에서 현재 480조개 이상 토큰을 처리하고 있다고 밝혔다. 제미나이 활용 개발자는 1년 사이 5배 증가해 700만명을 넘었고, 버텍스AI의 제미나이 사용량은 40배 증가했다고 한다. 제미나이 앱의 월간활성사용자(MAU)는 4억명을 돌파했다.

그는 “이 모든 발전은 구글의 AI 플랫폼 전환이 새로운 국면에 접어들었음을 의미한다”며 “수십년 간의 연구가 이제 전세계 이용자, 기업, 커뮤니티를 위한 현실이 되고 있다”고 말했다.

이어 “AI가 제공하는 기회는 실로 막대하다”며 “그리고 그 혜택이 가능한 한 많은 사람에게 돌아가도록 하는 것은 이번 세대의 개발자, 기술 구축자, 문제 해결사들의 손에 달려 있다”고 강조했다.

글. 바이라인네트워크

<김우용 기자>yong2@byline.network