Gemini 3.5 Flashレビュー|「FlashなのにPro超え」は本当か?評判とベンチマークを検証【2026年最新】

当ページのリンクには広告が含まれています。

Google I/O 2026の目玉として登場したGemini 3.5 Flashが、AI業界に波紋を広げている。

Googleの主張はシンプルだ。「FlashティアのモデルがProティアの性能を超えた」。Terminal-Bench 2.1で76.2%(Gemini 3.1 Proは70.3%)、MCP Atlasで83.6%(同78.2%)——コーディングとエージェントの主要ベンチマークで、前世代のフラグシップモデルを上回る数字を叩き出している。しかも出力速度は毎秒284トークンで、他のフロンティアモデルの約4倍。即日GA(一般提供)という異例の自信も示した。

しかし、リリース直後から反応は賛否両論だ。「Flashがここまで来たのは衝撃」「AIエージェント時代の本命」という声がある一方で、「前世代Flashから3倍の値上げ」「レート制限がすぐ尽きる」「期待外れ」という批判も少なくない。

この記事では、ベンチマークの数字だけでなく、実際のユーザー評判を米国と日本に分けて検証し、Gemini 3.5 Flashが「使えるモデル」なのか「マーケティングが先走ったモデル」なのかをフラットに整理する。

目次

スペックの全体像

基本仕様

Gemini 3.5 Flashは2026年5月19日にGA(一般提供)として即日リリースされた。プレビュー期間なしの即日GAは、フロンティアクラスのモデルとしては異例だ。

APIモデルIDは gemini-3.5-flash(previewサフィックスなし)。コンテキストウィンドウは入力100万トークン、出力最大65,536トークン。テキスト・画像・音声・動画をマルチモーダルに入力でき、出力はテキスト。ダイナミックシンキング(思考モード)がデフォルトでオンになっており、推論の深さを3段階(low / medium / high)で選択できる。

利用可能な場所はGeminiアプリ、Google AI Studio、Antigravity、Vertex AI、Android Studio、AI Mode in Search、Gemini Enterprise Agent Platform。事実上、Googleのすべての開発者向けサーフェスで利用可能だ。

ベンチマーク:何が強くて何が弱いか

Gemini 3.5 Flashが強いのは、エージェントとコーディングの領域だ。Terminal-Bench 2.1で76.2%、MCP Atlasで83.6%、CharXiv Reasoningで84.2%。これらはいずれもGemini 3.1 Proを上回り、一部のベンチマークではClaude Opus 4.7やGPT-5.5をも超えている。Artificial Analysisのインテリジェンスインデックスでは55を記録し、同価格帯の中央値36を大きく上回った。

一方で弱点も明確だ。ARC-AGI-2(抽象推論)ではGPT-5.5に12.5ポイント差をつけられている。Humanity’s Last Exam(知識テスト)でもGemini 3.1 Proを下回り、長文脈の検索タスクでも後退が報告されている。Googleはこのモデルを「エージェント実行に最適化した」と明言しており、「じっくり考える」タスクではなく「速く正確に判断する」タスクに振り切った設計だ。

料金の本当のところ:「安い」は正しいか

前世代比3倍の値上げ

ここがGemini 3.5 Flashの評価を最も分ける論点だ。

入力トークン$1.50 / 出力トークン$9.00(100万トークンあたり)。キャッシュ入力は$0.15。この数字だけを見れば「フロンティアモデルとしては安い」のは事実だ。GPT-5.5やClaude Opus 4.7と比較すれば、半額から3分の1程度になる。

しかし、前世代のGemini 3 Flashと比較すると話が変わる。Gemini 3 Flashは$0.50/$3.00だったから、入力が3倍、出力も3倍の値上げだ。Simon Willison氏(著名なAI技術者)の検証では、Artificial Analysisのフルベンチマークスイートの実行コストがGemini 3.1 Proプレビューよりも高くなったと報告されている。トークン単価の上昇に加え、エージェント処理で消費される入力トークン数自体が増えるため、実質コストは5.5倍にもなるケースがあるという。

Sundar Pichai CEOのステージ上の発言「フロンティアレベルの能力を半額以下、場合によっては3分の1の価格で」は、他社のフロンティアモデルとの比較であり、Googleの前世代Flashとの比較ではない。この2つの「安い」の意味の違いを理解しておくことが重要だ。

米国(英語圏)のユーザー評判

ポジティブ:エージェント性能と速度への高評価

米国の開発者コミュニティでは、エージェントとコーディングの実務利用で高い評価が集まっている。「チャットボットを超えたAgent時代の本命」「Antigravity IDEで試したが印象的。高速でDX(開発体験)が優秀」「フロンティア性能をFlash価格で実現」——こうした声は、実際にエージェントワークフローを構築している開発者から出ている。

すでにエンタープライズでの本番採用も報告されている。ShopifyはFlashのサブエージェントを並列実行してマーチャントデータの成長予測に使い、Macquarie Bankは100ページ超の文書処理で顧客オンボーディングを高速化し、SalesforceはAgentforceに統合して多段階の企業向け自動化に活用している。

ネガティブ:価格とレート制限への不満

一方で、価格に対する不満は根強い。「前世代から3倍の値上げでコスパが悪い。DeepSeek V4 Flashなどに勝てない」「レート制限がすぐに尽きる。Opus やGPTより使いにくい」「DOA(Dead On Arrival、着いた時点で死んでる)レベル。Proユーザーには失望」——こうした批判は、特に高頻度でAPIを叩く開発者から出ている。

全体としては、エージェント/実務寄りの評価が高い一方で、価格設定への不満が活発に議論されている構図だ。Terminal-Benchなどのベンチマークで強いことは認めつつも、日常的なコスパの議論が収束していない。

日本のユーザー評判

実用レポートが活発

日本では「実際に使ってみた」系の個人レポートがリリース直後から多数投稿されている。

好印象の声としては、「速い。調査指示でちゃんとWeb検索してまとめてくれる。Gemini特有のイラつく表現が減って使いやすい」「思考レベル拡張で旅行計画相談したら具体的なルート提案が来た。Pro並みに感じる」「Claudeと組み合わせて批評させたら実用性が上がった。マルチモーダル強化に期待」——速度の向上と、以前のGeminiにあった回答の「もっさり感」の改善を評価する声が目立つ。

不満としては、「ネット上のカジュアル使いとGoogleが想定するAgentic使い方の乖離が激しい。真価が発揮されない」「回答の当たり外れが極端。Web検索すら無視して『そんな情報はない』と言うことがある」「APIコストが高すぎ。Proユーザーからするとビビるレベル」「制限地獄。ヘビーユーザーの不満が爆発中」——レート制限と一貫性のばらつきに対する批判が特に強い。

米国との温度差

米国と日本の反応には明確な温度差がある。米国ではエンタープライズ/エージェント視点の評価が中心で、「このモデルでどういうワークフローを構築するか」という議論が活発だ。一方、日本では個人のAPI利用や日常チャットでの使い勝手という視点が強く、「自分が普段やっている使い方で速くなったか」という評価軸が中心になっている。

この差は、Googleが想定する主要ユースケース(エージェント、ツール呼び出し、マルチステップワークフロー)と、実際の個人ユーザーの使い方(チャット、検索、文章作成)のギャップを反映している。Gemini 3.5 Flashの「真価」がエージェント利用で発揮される設計であるなら、カジュアルユーザーが体感する価値とGoogleの主張する価値の間にミスマッチが生じるのは構造的な問題だ。

競合モデルとのポジショニング

positioning_map

エージェント領域ではトップ、推論ではギャップ

Gemini 3.5 FlashのポジションはArtificial Analysisのインテリジェンス×速度マトリックスで明確に示されている。「トップレベルの知性と卓越した速度を兼ね備えた唯一のフロンティアモデル」として、右上象限に単独で位置している。

具体的な競合比較では、MCP Atlas(エージェントのツール呼び出しベンチマーク)でClaude Opus 4.7とGPT-5.5の両方を上回っている。一方、ARC-AGI-2(抽象推論)ではGPT-5.5に大きく劣り、長文脈検索でもGemini 3.1 Proから後退している。

つまり、Gemini 3.5 Flashは「エージェントワークフローのルーティング層として最強」だが、「深い推論や長文分析では他のモデルに及ばない」というトレードオフが明確だ。6月に予定されているGemini 3.5 Proがこの推論ギャップを埋めるかどうかが、次の注目ポイントになる。

「FlashなのにPro超え」は本当か?

冒頭の問いに戻ろう。「FlashなのにPro超え」は、ベンチマーク上はエージェントとコーディングの領域で事実だ。しかし、すべての面でPro超えかと言えば、そうではない。

正確に言えば、「Gemini 3.5 Flashは、エージェント実行とコーディングに振り切った設計により、その領域では前世代ProとGPT-5.5/Claude Opus 4.7をも超える性能を達成した。ただし抽象推論と長文脈タスクでは明確に劣り、価格は前世代Flashの3倍に跳ね上がった。そのトレードオフを受け入れられるかどうかは、何に使うか次第だ」。

Googleがこのモデルで示したのは、「安くて速いFlash」と「賢いPro」という従来の二分法が崩れたことだ。Flash枠でありながらフロンティア性能を出せるなら、Proの存在意義は「Flashでは足りない推論の深さが必要な場面」に限定される。6月のGemini 3.5 Proがどこに着地するかで、この新しい構図の全貌が見えてくるだろう。

まとめ:誰に向いていて、誰に向いていないか

向いている人: AIエージェントやツール呼び出しのワークフローを構築している開発者。MCP連携やマルチステップの自動化パイプラインを本番運用する場面では、速度・ベンチマーク・コスト(競合比)のすべてで有利。すでにGoogle Cloud/Vertex AIを使っている企業は移行コストも低い。

様子見が妥当な人: 日常的なチャットや文章作成が主な用途の個人ユーザー。エージェント機能を使わない場面では、前世代Flashから3倍の値上げに見合う体験向上を感じにくい可能性がある。レート制限の厳しさも報告されており、ヘビーユーザーはストレスを感じるかもしれない。

6月まで待つべき人: 深い推論や長文分析が主な用途の人。Gemini 3.5 Proが来月リリース予定で、Flashで犠牲にされた推論の深さがProで補完されるかどうかが判明する。その時点で3.5ファミリー全体の実力が見える。

📱 最新AI情報をXで毎日配信中

海外で話題のAIツール・プロンプト・トレンドを日本最速でお届け

@aiskillhack をフォローする
  • URLをコピーしました!
目次