Gemini進化とAIエージェントの時代へ
2025年5月21日開催
Google I/O 2025が開催され、AIの進化、特にGeminiモデルの強化を中心に多くの画期的な発表がありました。本記事では、開発者会議で発表された主要な技術革新と、それらがどのようにユーザー体験を変革するのかをわかりやすく解説します。
ポイント: 今年のI/Oは、Geminiモデルの進化、AIの検索体験への組み込み、生成メディアの革新、そしてユーザーに代わってタスクを遂行する「エージェント」機能に特に焦点が当てられました。
Geminiの進化
Gemini 2.5 Pro
LMArenaとWebDev Arenaのすべてのリーダーボードでトップパフォーマンスを記録した最新モデル。100万トークンの長文コンテキストをサポートし、複雑な推論と理解能力が大幅に向上しています。
前モデルと比較してEloスコアが300ポイント以上向上し、複雑なタスクの処理能力が飛躍的に進化
Deep Think機能
並列思考技術複数の異なる思考プロセスを同時に処理し、多角的な視点から問題を分析する技術を活用した高度な推論モードで、モデルが応答前に複数の仮説を検討できるようになりました。
USAMOなどの難しい数学ベンチマークで優れたスコアを達成し、複雑な数学問題やコーディング課題を解決できます
Gemini 2.5 Flash
速度と低コストを重視して設計された高効率モデル。推論、マルチモーダル、コード、長文コンテキスト処理すべてが向上し、トークン使用量が20~30%削減されています。
迅速なレスポンス速度を維持しながら、品質を大幅に改善し、コスト効率も向上
ネイティブ音声出力
Gemini 2.5モデルが自然で表現豊かな音声で会話できる機能を追加。24以上の言語をサポートし、話し方、アクセント、スタイルの調整が可能になりました。
感情認識対話やプロアクティブ音声など、より自然でダイナミックな会話体験が実現
Geminiの技術進化の規模
- 月間処理トークン:9.7兆から480兆超へ(50倍以上に増加)
- 開発者数:昨年の5倍となる700万人以上がGeminiを活用
- Vertex AIでのGemini利用:40倍に急増
- Geminiアプリの月間アクティブユーザー:4億人以上
検索と生成AI
AIモード検索
Google検索に統合された「AI Mode」により、検索体験が完全に刷新されました。このモードではより複雑で長いクエリに対応し、従来の検索の2~3倍の長さの質問に回答できます。
主な特徴
- Deep Search:バックグラウンドクエリーの数を数十から数百に拡大し、より綿密な検索応答を生成
- Project Astraのマルチモーダル機能:カメラを物体に向けるだけで、それについて質問が可能
- ショッピング体験の強化:画像検索と生成AIを組み合わせた新しい買い物体験
- エージェント機能:チケットやレストランの予約など複雑なタスクをサポート
AIモードは、米国で一般提供が開始され、現在200以上の国と地域、40以上の言語に拡大中です
Imagen 4
最新の画像生成モデルで、精度と鮮明度が大幅に向上。特に生地の質感、水滴、動物の毛皮などの細部表現が強化され、最大2K解像度のコンテンツ生成が可能になりました。
Veo 3
AIによる動画生成の最新モデル。オーディオプロンプトの生成をサポートし、交通音や環境音、キャラクター間の会話など、より臨場感のある動画制作が可能になりました。
Flow
映画制作者向けの新しいAI動画制作ツール。カメラアングルや動き、キャストや場所など、動画制作のあらゆる側面を調整できます。Veo、Imagen、Geminiモデルを活用した高度な映像制作が可能です。
エージェント機能
Googleは、ユーザーに代わって計画を立て行動できるAI「エージェント」の開発に大きく前進しました。これにより、複雑なタスクをユーザーの代わりにAIが行える時代が到来します。
Project Mariner
コンピュータを使ってウェブと対話し、ユーザーの代わりに作業をこなすエージェント研究プロジェクト。マルチタスク機能や「teach and repeat」と呼ばれる学習方法を開発し、一度見せたタスクを将来的に応用できるようになりました。
Automation AnywhereやUiPathなどのパートナーが既に開発を開始し、夏には一般開発者向けにも提供予定
エージェントモード
Geminiアプリに追加される新機能で、ウェブサイトと連携してより多くのタスクを実行可能に。例えば、Zillowなどのサイトと連携して条件に合った物件を検索し、内見の予約まで行うことが可能です。
MCPプロトコルModel Context Protocol – エージェントが他のサービスにアクセスできるようにする標準プロトコルを活用して、サードパーティサービスとシームレスに連携します
Agent2Agent
エージェント同士がスムーズに連携するためのオープンなプロトコル。複数のAIエージェントが協力して複雑なタスクを実行できるようにする取り組みで、エージェントエコシステムをさらに発展させる基盤となります。
開発者向け機能
思考サマリー
Gemini APIとVertex AIに追加された機能で、モデルの生の思考を取り込み、ヘッダー、主要詳細、アクションなどを明確な形式に整理。開発者がAIの思考プロセスを理解しやすくなりました。
思考バジェット
レイテンシと品質のバランスを取りながらコストをより細かく管理できる機能。モデルが応答前に思考に使用するトークン数を制御したり、思考機能自体をオフにしたりすることが可能になりました。
MCPサポート
Gemini APIとSDKがModel Context Protocol定義をサポート。オープンソースツールとの連携が容易になり、サードパーティツールへのアクセスが簡素化されました。
Firebase Studioの強化
Firebase Studioは、Gemini 2.5を搭載したクラウドベースのAIワークスペースとして進化。数分でアイデアをフルスタックアプリに変換できます。
- Figmaデザインをインポートし、コードを書かずに機能を追加
- アプリプロトタイピングエージェントがバックエンド要件を自動検出し提案
- Firebase AI Logic:Googleの生成AIモデルと直接連携
その他の注目発表
Google Beam
Project Starlineの進化版として発表された、AIを中核に据えた新しいビデオ通信プラットフォーム。新しいビデオモデルを使って2Dビデオストリームを臨場感あふれる3D体験に変換します。
6台のカメラとAIを使用し、ミリ単位でのヘッドトラッキングを毎秒60フレームで実現。HPとの協力により今年後半に一部のユーザー向けに提供開始予定
Google Meet 音声翻訳
Google Meetに新たに追加される音声翻訳機能。ほぼリアルタイムで話者の声やトーン、表情まで一致させ、言語を超えた自然で流暢な会話を可能にします。
英語とスペイン語の翻訳機能はGoogle AI ProおよびUltraユーザー向けにベータ版として提供開始。今後数週間でさらに多くの言語をサポート予定
オープンモデルの進化
- Gemma 3n:わずか2GBのRAMで実行できる次世代のGemini Nanoにも採用されるモバイルファーストの新アーキテクチャ
- MedGemma:医療テキストおよび画像理解向けのオープンモデル。Gemma 3のバリアントで、ヘルスケア特化のAIアプリケーション開発に適しています
- SignGemma:手話を音声言語テキストに変換するモデル(アメリカ手話から英語への変換)で、年内に追加予定
AI Pro/Ultraサブスクリプション
Googleは、最新のAI機能を「Google AI Pro」と「Google AI Ultra」の2つのサブスクリプションで提供します:
- Google AI Pro:Geminiアプリ(Advanced版)、Flow、NotebookLMなど、無料版より高い利用上限と特別機能が含まれます
- Google AI Ultra(月額$250):最も高い利用上限、Project Mariner、Veo 3、Deep Thinkモード搭載のGemini 2.5 Proなど実験的なAI製品への早期アクセスが含まれます
まとめ
Google I/O 2025では、AIの進化が現実世界のアプリケーションにどのように組み込まれていくのかが明確に示されました。特にGeminiモデルの飛躍的な進化と、それを活用した多様な製品・機能の発表は、AIが私たちの生活や仕事をどのように変革していくのかを示しています。
Googleは「インテリジェントで、ユーザーがいる状況を理解し、あらゆるデバイスでユーザーに代わって計画を立て、行動できるAI」を構築する新時代を切り開きつつあります。今後の展開とこれらの技術が私たちの生活をどのように変えていくのか、注目していきましょう。
Google I/O 2025
本記事は2025年5月21日に開催されたGoogle I/O開発者会議の主要発表内容をまとめたものです。最新のAI技術動向と今後の展開について解説しています。
関連リンク
© 2025 DXアカウント. All rights reserved.