Nano Banana 2 検証：いろんなプロンプトで試してみた

昨日 Nano Banana 2 がリリースされました。価格が安くなったけど精度が落ちたという話もあれば、X上では逆に精度が上がったという声もあり、公式の記事では一貫性が強くなったと言われていたり。そのあたりが実際どうなのか気になったので、いろんなプロンプトを使って試してみました。

それぞれ初代・Pro・Nano Banana 2、それから Nano Banana 2 に Thinking Level のオプションがあったのでそれを入れた場合も含めて検証しています。コストも計算しながら試した結果になります。

検証後、音声入力で解説したものをClaudeCodeに読みやすくしてもらっているため、話し言葉が多い可能性があります。

検証環境

PC: MacBook Pro（Apple M2 Pro / 16GB RAM）/ macOS 26.2
google-genai SDK v1.65.0 / Python 3.12 / uv
API: Google AI Studio の API を使用
各モデルの API ID：
- NB初代: gemini-2.5-flash-image
- NB Pro: gemini-3-pro-image-preview
- NB2: gemini-3.1-flash-image-preview
- NB2+Thinking: 同上 + thinking_level=HIGH
全テストで同一プロンプト・同一パラメータ（アスペクト比1:1）
トークン使用量・コストはレスポンスの response.usage_metadata から取得

API価格と各モデルの特徴

モデル	ベース	API価格	公式の特徴
NB（初代）	Gemini 2.5 Flash	$0.039/枚（固定）	高速・無料枠あり
NB Pro	Gemini 3 Pro	$120/1M出力トークン	最高品質
NB2	Gemini 3.1 Flash	$60/1M出力トークン	Proの半額
NB2+Think	同上 + Thinking	同上 + $2.50/1M思考トークン	品質重視

実測コスト・速度サマリー

同じプロンプトを10回ずつ生成した結果がこちらです。

左: 平均レイテンシ、右: 1枚あたりコスト

モデル	平均レイテンシ	平均入力tokens	平均出力tokens	平均コスト/枚
NB（初代）	7.8s	17	1,290	$0.039
NB Pro	25.8s	17	1,229	$0.148
NB2	21.8s	17	1,544	$0.093
NB2+Think	26.4s	17	1,612	$0.099

見て分かる通り、初代が圧倒的に速いです（7.8秒）。NB2 は NB Pro より少し速い程度で、「Flashだから速い」という公式の謳い文句はレイテンシには当てはまりません。コストは NB2 が Pro の63%ほどで、ここはプロンプトによって変わってくると思います。Thinking を入れた場合は少し遅くなり、コストも若干上がります。

テスト1：テキストの精度

最初に試したのはテキストの精度です。英語・日本語のテキストや、情報量の多い文書を試しました。

英語ポスター ── 「TOKYO 2026」

プロンプト: A vintage poster that reads ‘TOKYO 2026’ in bold red letters on cream paper

左から: NB初代、NB Pro、NB2、NB2+Think

初代はシンプルなデザイン、Pro はイラストも入った凝った仕上がり。NB2 はグラフィカルで色合いも強め、Thinking 版は動きがあっておしゃれな感じでした。テイストの違いはあるものの、どれも英語テキスト自体に違和感はありません。

日本語ラベル ── ワインボトル「月光」

プロンプト: ワインボトルのラベル。ブランド名は「月光」、年号2024、産地は山梨県。高級感のあるデザイン。

左から: NB初代、NB Pro、NB2、NB2+Think

次にワインボトルに日本語が正しく出てくるかを試しました。

初代は「月光」ではない文字が描かれていて、前の世代だなという印象です。ただ「山梨」は英語では出てきているので、英語であれば表記できるようです。

NB Pro はかなり綺麗で、「月光」としっかり書いてあるし、2024、山梨も出ている。山の写真も載っていて完成度が高いです。

NB2 も違和感がなく、背景にボトルが並んでいてお酒の色も自然。Thinking 版も「月光」がちゃんと反映されていて問題ありません。

NB Pro と NB2 はどちらも素晴らしい出来で、方向性は違うもののどちらもいい仕上がりでした。

大量テキスト ── 日本語会議資料

プロンプト: 白い紙に黒い文字で印刷された、日本語のビジネス会議資料。タイトル：「2026年度第1四半期事業レビュー」。セクション：1. 売上概要 – Q1合計：4億2,000万円（前年比+18%）、主力製品：Alpha（1億8,000万円）、Beta（1億4,000万円）、Gamma（1億円）。2. 主要KPI – DAU：125,000、MAU：890,000、解約率：2.3%、NPS：72。3. 開発進捗 – 新機能14件リリース、重大バグ3件修正、稼働率：99.97%。4. Q2ロードマップ – モバイルアプリ v2.0リリース、EU市場進出、エンジニア8名採用。5. アクションアイテム – 田中：3/15までに価格改定案確定、鈴木：取締役会デモ準備、佐藤：セキュリティ監査完了。見出しと箇条書きが整った企業向けレイアウト。

左から: NB初代、NB Pro、NB2、NB2+Think

日本語テキストをもう少し多めに入れた会議資料で試しました。

初代はぱっと見いい感じに見えますが、よく見ると「主要KPI」などの漢字が微妙に変で、日本語はまだ弱いことが分かります。

NB Pro は日本語がほぼ完璧に出ています。漢字の細かい部分は少し潰れている気もしますが、読み取れないほどではありません。

NB2 も特に違和感がなく、漢字もしっかり書けています。NB Pro より文字が大きかったり濃かったりしますが、同程度の品質です。

Thinking 版はさらに文字が濃くなっていますが、日本語は同様に正確です。この程度の量であれば日本語はきれいに出せることが分かります。より小さい文字でどこまで対応できるかは、今後試してみたいところです。

テスト2：写真のテイスト

ワインテスト

プロンプト: A glass of red wine on a white marble countertop, studio lighting, a single wine droplet on the rim of the glass. Ultra high detail.

左から: NB初代、NB Pro、NB2、NB2+Think

初代はお酒が垂れているような表現に違和感があり、光の加減も馴染んでいない印象です。

NB Pro は雫が垂れそうな描写がリアルで、背景・ピントの合わせ方も含めて写真のテイストがかなりいいです。

NB2 も雫の垂れる方向が若干気になるものの、大きな違和感はありません。背景のワインボトルも自然で、一見してAI生成とは分からない出来です。

Thinking 版も写真としての違和感は少ないですが、背景の机と壁の角度が合っていないなど、よく見ると不自然な部分はあります。

日本の漁師

プロンプト: An elderly Japanese fisherman mending nets at sunrise, weathered hands, shallow depth of field. Shot on Fujifilm.

左から: NB初代、NB Pro、NB2、NB2+Think

初代から普通にありそうな写真が出てきていて、かなりいい出来です。Pro は初代と比べると解像度の高いカメラで撮ったような質感の違いが見て取れます。

手の描写もどのモデルも違和感がありません。NB2 も同様で、Thinking 版は NB2 より彩度が若干高くなった印象はあるものの、特に不自然ではありません。Nano Banana はどの世代もかなりいい出来ですね。

テスト3：写真を送って変更してもらう（スタイル転送）

ここからは実写の写真を送って、スタイルを変えてもらうテストです。渡した写真はこの3つです。

風景（ジブリ風・水彩画テスト）	ポートレート（サイバーパンクテスト）	建物（キュビスムテスト）

ジブリ風

プロンプト: Transform this photo into a Studio Ghibli style anime scene. Keep the composition but change the art style.

左から: NB初代、NB Pro、NB2、NB2+Think

正直なところ、ジブリ風かと言われるとどれも少し違うかなと感じます。個人的にはもっといろんな色が重なったテイストで、境界線がはっきりしていないものがジブリ風だと思っているので。ただイラストとして元のテイストを保持しながら変換できているという点はどのモデルもクリアしていました。

水彩画

プロンプト: Repaint this scene as a watercolor painting with soft edges, wet-on-wet technique, and gentle color bleeds.

左から: NB初代、NB Pro、NB2、NB2+Think

1枚目は少ししっかり描きすぎている印象はありますが、きれいな仕上がりです。にじみ技法という観点では2枚目がそれっぽいかなと思いつつ、どれもにじみ技法は使われているので比較は難しいです。テイストとしてはどれも問題ありません。

サイバーパンク

プロンプト: Reimagine this person as a cyberpunk character with neon lighting, holographic overlays, and a futuristic city background.

左から: NB初代、NB Pro、NB2、NB2+Think

ここが一番分かりやすいテストでした。

初代はよく見ると元の人物から変わっています。NB Pro は元の顔からそれほど変わっていませんが、NB2 を見るとエクボや米窪の感じがそのまま残っていて、NB2 の方が元の人物をよく保持しています。鼻筋に関しても Pro は少しふっくらした形に変わっていたり、顔の輪郭もやや丸みを帯びているのに対して、NB2 の方が元の人に近いです。

ただ、NB2 は背景に日本語が表示されているものの、その文字がおかしかったりするので、NB Pro がぼかして処理している分、写真としての違和感は Pro の方が少ないかもしれません。

Thinking 版はサイバーパンクにしていても人の顔が変わっていないので、NB2 自体が元画像の一貫性を保つことに強いのだと見て取れます。

キュビスム

プロンプト: Convert this photograph to a Synthetic Cubism style painting, like Picasso. Bold geometric shapes, fragmented perspective.

左から: NB初代、NB Pro、NB2、NB2+Think

初代は色を変えただけというか、イラスト化しただけという印象で微妙です。

NB Pro はかなりいい感じにキュビスムになっていて、新聞を使った柄を描いているような表現もあり、絵としてのセンスがすごいと感じました。

NB2 は分割して描いてはいるものの、現代風で色がはっきりした仕上がりになっていて、古典的な絵画としての色合いは Pro の方が上だと感じます。

Thinking 版は彩度が強すぎて全体のテイストが保ててていないので、少し微妙でした。

テスト4：キャラクターの一貫性

ここが一番気になっていたところです。1枚目を生成して、その画像を含んだ状態で2枚目を生成、さらにそれを含んだ状態で3枚目を生成という方式でテストしています。服装・髪型・人物がどう変わるか、元のキャラクターをどれくらい一貫して維持できるかを見ました。

1枚目プロンプト: Generate an image of A young woman with short red hair, round glasses, wearing a green cardigan and white t-shirt, sitting at a cozy cafe reading a book, warm indoor lighting, coffee on the table.
2枚目プロンプト（1枚目の画像を添付）: Generate an image of this exact same person from the previous image, walking through a rainy street holding a transparent umbrella, reflections on wet pavement. Keep her appearance identical.
3枚目プロンプト（2枚目の画像を添付）: Generate an image of this exact same person from the previous image, presenting at a tech conference, standing in front of a large screen showing code, confident pose. Keep her appearance identical.

行: カフェ→雨の街→テック発表 / 列: NB初代→NB Pro→NB2→NB2+Think

初代は、初代の時点でほとんど変わっていないように見えます。同じ人ですかと聞かれたらそうだねと答えられる程度。ただ写真としての画質が少し荒い印象はあります。

NB Pro は光の当たり方も分かりやすく、リアルな写真という感じです。メガネもネックレスも変わっていません。ただよく見ると指輪が右手の人差し指から中指に移っていたりするので、細かい部分で違いはありますが、ほとんど気づかないレベルです。3枚目も髪型・メガネ・ネックレスが一貫して出ています。

NB2 はよく見ると複数の指に指輪がついてしまっていたり、メガネの上からメガネをかけているような表現があったりします。ただそれが一貫して同じように出ているので、パッと見では気づきにくいです。表情もほとんど変わっておらず、靴も同じものが出てきています。

Thinking も NB2 と同様の傾向でした。エクボやメガネのシルバー系の質感もちゃんと引き継がれています。ただ1枚目は同じ本が2つ出ていたり、3枚目は2枚目とほぼ同じ立ち位置・姿勢になってしまっていて、不自然な場所に人が配置されていました。

パッと見では分かりませんが、NB2 はよく見ると少し破綻がある印象でした。

テスト5：インフォグラフィック

情報を図表で表示させるとどうなるか、試してみました。

プロンプト: A comparison chart of 3 programming languages: Python, JavaScript, Rust. Show ratings for: Speed, Ease of Learning, Community Size, Job Market. Use color-coded bars and language logos.

左から: NB初代、NB Pro、NB2、NB2+Think

初代はパーセントが変わっているのにゲージが変わっていなかったり、Python の部分に項目名が入ってしまっていたりして、まだまだという印象です。

Pro になるときれいになり、内容に応じてゲージが正しく反映されていたり、色分けも守られていて、違和感のない仕上がりです。

NB2 も同様にそれぞれの項目を守りつつ表現できており、特に問題はありません。

Thinking 版は縦横のレイアウトが変わっていたり、Language のところに Python のアイコンが入ったりしていて少し気になりますが、それ以外は問題ありません。

NB Pro vs NB2：どこで差がつくのか

Pro の方が精度が高いと感じたのは、キュビスムでは Pro の方がいい仕上がりだった点と、写真としての違和感が NB2 だとたまに発生する点です。

逆に NB2 が良さそうだと感じたのは、サイバーパンクのテストで元の人物の特徴をよく保持していた点。NB2 は元画像の一貫性を保つ力が強いように見えました。ただ、NB Pro がよしなに修正してくれた可能性もあるので、ケースバイケースだと思います。

キャラクターの一貫性テストでは今回そこまで大きな差は出なかったので、より細かい条件で検証する必要がありそうです。

まとめ

いくつかのパターンで試した結果、初代と比べるとかなりいいものが出てくるし、Pro と同等のレベルに達している部分も多いものの、スタイルによっては Pro に劣る部分があったり、写真としての違和感が発生する場合もあるという結果でした。

使い分けとしては、多少の違和感があっても問題ないケース──例えば下書きとして作ってそれを元に進める場合や、業務でコストを抑えたい場合は NB2 の方が安くて適しています。一方、高い精度を求める場合は NB Pro を使う方が現状は安心だと感じました。

コストが37%安くなった状態でこの品質が出せるのはかなり魅力的ですし、速度も多少ながら速くなっているので、選択肢としてはかなりありだと思います。

今回しっかりと各モデルの生成画像を比べてみましたが、こうした検証を繰り返すことでどのモデルを使えばどのレベルのものが出てくるか、どれくらいの変化が今起こっているのかが改めて実感できて、とても面白かったです。