ナノバナナプロ!Google AI Studioで支払い不能?ユーザーを悩ませるパーミッション拒否
引用元:https://news.ycombinator.com/item?id=45993296
GoogleがGodzillaみたいに暴れてる中、初めてAI Studioにクレカ登録したんだけど、「支払い不可能」って話はマジだったわ。APIキーの設定は全部済んで「You’re using Paid API key [NanoBanano] as part of [NanoBanano]. All requests sent in this session will be charged.」って表示されてるのに、Promptで「permission denied」エラー。せっかくすごいモデルがあっても、金払うのがこんなに大変だと話になんないよな。
悪い印象を与えちゃってごめんね。チームはモデルを簡単に使えるようにめっちゃ頑張ってるよ。Permissionの問題は、どんな流れでそうなったのか詳しく教えてくれればデバッグするよ(Lkilpatrick@google.com)。支払いについては、AI Studioに直接クレカ追加できる新しい請求システムを1月にグローバル展開する予定だから、それまで待っててね。
チームは製品リリース後に頑張るんじゃなくて、リリース前にしっかり準備すべきだったんじゃない?
APIだけならFal.aiがNano-Banana-Proを生成と編集の両方で提供してるよ。彼らは色々なAIモデルのプロバイダーだから、Fal.aiに登録する方がずっと楽だよ。URL: https://fal.ai/models/fal-ai/nano-banana-pro
でも、もしリリース前に完璧にしたら、今度はGoogleは「動きの遅いdinosaur」だって文句言うでしょ。「Move fast and break things」はどっちにも言えることなんだよ!(Google.comのホームページを2回落とした元Google tech leadより)
Googleへの異動おめでとう!この件について何とかできる人に愚痴らせてほしいんだけど、Vertex AIでClaude Sonnetを使うまでの道のりが悪夢だったわ。APIキー取得、支払い設定、GCP連携、モデル名探し、リージョン、権限エラー、利用申請フォーム、クォータ0 TPM、クォータ申請拒否…って感じで、最終的に諦めたよ。AnthropicのサイトだとAPIキー取得、クレカ連携、Claude Code起動で成功したのにさ。
それってちょっと意地悪な見方じゃないかな。最近のローンチの規模と、それを動かすための計算リソースを考えたら、めちゃくちゃスムーズだと思うよ。edge caseは常にあるし、会社やチームにできるのはresponsiveであることだけ。そして、まさにそれが今起きてると思うな。
話してるのはAIとは関係ない、一番基本的なbillingの問題だよ。それが機能してないってことは、このproductの将来とcompany cultureについて、色々物語ってるよね。(明らかにproduct-orientedじゃないってことだろ)
Fal.aiに、ぼやけたビデオ映像を鮮明にするのに便利なモデルってある?いくつかウェブサイトを見つけたんだけど、どうやらほとんどがscammyなんだよね。
HNのプロフィールがOpenAIのDeveloper Relationsになってるよ。
Google APIってマジで使いづらいよね。他のサービスならAPIキーで終わりなのに、GoogleはCloudアカウント作って、アプリ作って、OAuth設定して、JSONファイル落として…って、どんだけめんどくさいんだよ。
Google AIはまだ発展途上だけど、スタートアップみたいに急成長してる感じ。OpenAIとかを圧倒して、AI市場を独占しそうだよ。Google株に投資したくなっちゃうけど、一つの会社にこんなに力集中して、みんなの仕事なくなるんじゃないかって不安もあるな。
新しい支払いシステムには、予期せぬ請求を避けるために、課金上限と前払い残高の機能をつけてほしいな。
課金って、全然簡単じゃないんだよね。
お金払わせてくれよ!Google CloudとかWorkspaceとかマジでいらないから、GeminiかNanoに直接サブスクさせてくれ。たった2クリックでできるはずだろ?
一番簡単なのは、https://aistudio.google.com/api-keys に行ってAPIキーを設定して、支払情報を追加することだよ。
モバイルユーザーの半分にサブスクを提供できる決済システム持ってる会社が、自分たちのサービスで支払いを受け付けられないとか、マジでヤバい失敗だろ。特に開発者とかインフルエンサー向けの市場でさ。
最近のサービス連発が当たり前みたいになってるけど、なんで?誰がこんなリリーススケジュール求めてるの?
GoogleのAI Studio、マジでひどいね。GOOGLE_GENAI_USE_VERTEXAI=trueだとGemini CLIとAPIキーが全然動かないんだよ。エラーメッセージも意味不明だし、Vertex APIキーなのかそうじゃないのかもよく分かんない。なんとか動いたからもう触りたくないわ。
Googleでグローバルに展開するのは複雑なのは分かるけど、他社と比べると難しすぎる。Gemini自体は最高なのに残念だよ!
ワロタ。GirlsGoneWildが自動更新サブスクを始めた時から、予期せぬ請求と解約しにくい課金は当たり前になったよね。最高の顧客ってさ、サービスを使わないのに払い続けて、登録時のメールアドレスも忘れちゃった人なんだよ。
GCP、お前は俺より深く突っ込んだんだな。俺はサポートから何度もGoogleの営業チームに連絡しろって言われたよ。
GCPは俺みたいな個人ユーザーには向いてない気がする。企業向けクラウドで働いてる友達は、GCPの技術スタックをすごく高く評価してるみたいだけどね。
一般的に、もっと良い選択肢があるんだよ。AI動画の初期にGoogle AI Studioでゴールデンレトリバーの動画を作ろうとしたら、最高品質で4本生成されて36ドル請求されたんだ。大金じゃないけど、不意打ちだった。
Fal.aiは従量課金制で、料金が最初に明確に表示されるから安心だよ。
全くその通り!俺、ClaudeもOpenAIもPro/Maxプラン使ってるんだけどさ。
Geminiも試してみたいのに、支払いがほぼ不可能に近いんだよ。Geminiをちょっと試すためだけに、本格的なGCPプロジェクトのリスクを負う必要があるって?
マジ勘弁してくれ。
俺も市場については同じ意見だよ。2年前もGoogleが勝つと思ってたけどね。
Googleがみんなの仕事を奪って未来を独占するってどう?なんかそう感じてきたよ。
良くはないけど、もしAIでトップが出るなら、現状の他の選択肢はGoogleよりひどいと思う。OpenAI、Microsoft、Meta、Xは全部倫理的に問題がある。ロシア、中国もね。
ヨーロッパはまともそうだけど、AIで優位に立つ資本がないから無理だろうな。
これ、新しい問題じゃないし、課金だけじゃないんだよね。GeminiのUIってさ、AI Studioもチャットインターフェースも全体的にひどいんだ。
リクエスト中にタイムアウトして完全に動かなくなるような、イライラする失敗ケースもたくさんあるし。
Gemini 3よりずっと前からこんな感じだよ。それでも使ってるのは、俺の用途には最高の商用モデルだからなんだけどさ。
数十年前はウェブアプリのUXやインフラのゴールドスタンダードだったGoogleが、こんなに基本的な部分で下手になってるなんて信じられないよ。
残念だけど、これはかなり難しいタスクだよ。俺の経験だと、Nano BananaみたいなSOTAモデルでも、この種のリクエストだと画像にほとんど意味のある改善をしてくれないんだ。
専用のアップスケーラーを使った方がいいよ。特にGANベースのものは、細部を追加するときに自然にシャープな画像を生成してくれるからね。
より手間をかけないなら、Fal.aiがTopazアップスケーラーへのアクセスを提供してるみたいだよ。https://fal.ai/models/fal-ai/topaz/upscale/image
うん、それがゴールだよ :)
支払画面が一番しっかりしてるべきなのに、真逆になってるって、どうしたら勝てるんだろね。
正確さとか証拠の詳しさを気にするなら、AIツールでちゃんとやるのは超むずかしいよ。今のAIツールには向いてないかもね。
結果が出たよ!Nano Banana Proで画像編集プロンプトを再実行したら、SHRDLUとかM&M Van HalenとかScorpio street testをクリアしたんだ。元のNBは全部ダメだったのにね。
1. Nano Banana Pro: 10 / 12
2. Seedream4: 9 / 12
3. Nano Banana: 7 / 12
4. Qwen Image Edit: 6 / 12
詳しい比較はここ見てね: https://genai-showdown.specr.net/image-editing
NBとNB Proの比較だけなら: https://genai-showdown.specr.net/image-editing?models=nb,nbp
もっとコメントを表示(1)
Nano Banana Proはキリンのテストを通るべきだったと思うな。そこまで良い結果じゃないけど、まさに要求通りじゃん。Seedreamの結果より悪くないと思うよ。
Nano banana pro’sのキリン編集の回答、Seedreamより全然良いと思うんだけど、SeedreamはパスでNB proは失敗ってどういうこと?もしかして、あのテスト自体が良くないんじゃない?
ありがとう、君のウェブサイト大好きだよ。テキストから画像へのベンチマークでもNB Proをやる予定ある?
「通りと歩道からゴミを全部取り除いて、地面で寝てる人を緑のベンチにして、駐車メーターを植木に変えて。」ってプロンプトは、現代のビッグテックを完璧に表してるよね。新しいモデルは[デジタルで]ゴミを全部消すことさえできたんだ。
ピサの斜塔テストってマジ面白いよね。暗黙の知識が絡む厳しいプロンプトなのに、一部のモデルはパスする。なのに、斜めのものをまっすぐにするみたいな超簡単なことが、最新モデルでも難しいってどうなってんの?
元の返信を編集できる期間は過ぎちゃったけど、やっとText-to-Imageの部分をNB Proで再実行したよ。結果はね、
gpt-image-1: 10 / 12
Nano Banana Pro: 9 / 12
Nano Banana: 8 / 12
元のNBよりスコアは少ししか上がってないけど、画像の見た目はかなり良くなってるってことは言っておくね。詳しい比較はここ見て: https://genai-showdown.specr.net?models=nb,nbp
うん、それはもっともな批判だと思うよ。下手な切り貼りみたいに見えるもんね(ズームすると首の一部がないのがわかる)。もう何回か試して、もっとうまくできるか見てみるよ。
Seedreamのやつは、ただの遠近法のトリックかもしれないから、失敗と呼んで全然いいと思う。
「skifter」って単語、AIに聞いたらノルウェー語で「スイッチ」だって!カードのイカサマにも関係あるのかな、気になるわ。
実際の都市計画とかホームレスのこと、もう心配しなくていいんだね。政府や不動産屋が、もっと手軽にデカい嘘つけるようになるってことか!未来ってすげーな。
「部分合格(partial pass)」って考えたことある?もし合否以外で選ぶなら、決定を楽にするいい手になるかもね。
Seedreamの出力、質が低いっぽいのに、品質に点数つけてないみたいだね。これじゃ全然役に立たないよ。
別のモノを回転させるのは多分大丈夫だと思うけど、この塔はトレーニングデータにめっちゃ出てくるからね。ピサの塔が傾いてるのって、もはや物理法則みたいなもんだよ。
しかも、この塔って観光名所として残しつつ安定させるため、わざとまっすぐにしなかったって有名だよね。
それ良い提案だね。数値スコアも考えたけど、当時はちょっと大変そうって思ったんだ。でも、Fail=0点、Partial=0.5点、Success=1点って形なら再検討してもいいかも。いくつか、まるで眼科医で視力検査に落ちてるみたいな写真もあるしね(1か2、AかB、みたいな)。
アップデートありがとう!一つだけ補足なんだけど、d20テストで、NB Proは19だけじゃなく13と17も重複してたよ。
それはね、Star Warsのカードゲーム「サバック」で使うイカサマの技で、こっそりカードを入れ替えるやつなんだ。ティモシー・ザーンのThrawnシリーズで子供の頃に読んだはず。ノルウェー語の意味があるのは知らなかったから、TILだね!
Seedreamがなんでそこで合格なの、全然わかんないな。首の長さは同じに見えるけど、角度が変わってるじゃん。
よく見ると、NBPのキリンの首には大きな穴が空いてるぜ。
いつか、俺たちも同じような機能を持つメガネをかける日が来るんだろうな!そうすれば、どんな問題も解決(無視)できる!
それは、俺が最先端の画像生成モデルの比較とか、プロンプトへの忠実性を重視するタイプじゃないからだよ。『忠実性』の方が興味深い問題だと俺は思うね。品質問題はアップスケーラーやリファイナーモデル、LoRAとかで改善できるし、視覚的な忠実性にこだわるベンチマークはもう山ほどあるからさ。
だって、人の頭に黒い斑点を入れるモデルと、本物そっくりに髪の毛で埋めるモデルじゃ、かなりの違いがあるだろ。だから、この方法論はあんまり役に立たないって言ってるんだよ。
各テストで常にオリジナル画像を1つ(比較対象として)見えるようにしておいてくれないかな?そうすれば、最終的な画像とオリジナル画像を同時に見比べられるでしょ?もしそうするなら、もうあのクールなスライダーはいらないかもね?とにかく、この大変な作業、本当にありがとう!すごく面白い研究だったよ!
クールなサイトだね、ありがとう!ところで、『Before』と『After』のボタンが逆になってるよ。
うん、俺もそう思うよ。プロンプトは『キリンの首の長さを短くする』であって、曲げることじゃないだろ。あの点ではGemini 3の方が良い結果を出してる気がするな。
テストの評価方法を変えてほしいな。合格/不合格じゃなくて、5点満点のスコアにしたらどう?今のやり方だと、Gemini 3みたいにすごく良くできてても、Qwenみたいな「まあギリOK」なのと変わらない評価になっちゃって、モデルの本当の実力が見えにくいんだよ。
カードのテストでも、使える結果とそうじゃないのにスコア差がないのはおかしいでしょ。
Black Mirrorの世界が、少しずつ現実になってきてるって感じだね。
よーし、敗北を認めなきゃな!Seedreamは「失敗」って評価になっちゃったよ。
キリンの首のテストには、最低合格基準を追加したんだ。
・首は元の画像より明らかに短く、自然に見えること。
・ただ首を切り抜いたり、遠近法を変えたりするだけじゃダメ、ってね。
短いプロンプトからインフォグラフィックを丸ごと作れるなんて、これ、マジですごいな!
Google検索も最初にできるのが特に良いよね。
「Datasetteオープンソースプロジェクトがどう機能するかを説明するインフォグラフィック」ってプロンプトを試してみたよ。結果はここ見てね: https://simonwillison.net/2025/Nov/20/nano-banana-pro/#creat…
これ、うちのSaaSでイベントチラシを顧客に作ってもらう機能にとって、マジでゲームチェンジャーだよ。
今まではNano Bananaで飾りの枠だけ作って、テキストはPillowとLLMで出してたんだけど、見た目がイマイチだったんだ。
でも、テキストって短いフレーズならいいけど、ちゃんとした文章でもきれいにレンダリングできるのかな?
うん、ちゃんとした文章もレンダリングできるよ。
もっとコメントを表示(2)
ピアノの鍵盤でミドルCを見つけるのは、あんまり得意じゃなかったみたいだね。
黒鍵が正しく描かれた画像も一枚はあったけど、一貫性はなかったよ。
試した結果はここ: https://gemini.google.com/share/c9af8de05628
俺も似たようなことを試してみたよ。「E、G#、BのキーでEmajトライアドを弾いてる、手を伸ばしたピアノを見せて」ってプロンプトでね。
結果はこれ: https://imgur.com/ogPnHcO
7オクターブある普通のピアノを矛盾なく作るのすら結構難しいんだ。
白鍵と黒鍵の色を反転させようとしたら、もうめちゃくちゃになっちゃったよ。
反射もちょっと変な感じだね。
局所的には合ってたから、騙されちゃったよ!
AIが、情報が少ない自作プロジェクトのインフォグラフィックをすごく上手に作ったんだって。さらにインスタ向けに1:1の正方形にもフォーマットを変えられたらしいよ。
「player.htmlがどう動くか説明するインフォグラフィック(Githubのplayer.htmlプロジェクトより) https://github.com/pseudosavant/player.html」
インフォグラフィックって、Datasetteの動作に関して正確なの?
ほとんど正確だよ。ただ、俺の投稿で唯一違うって言ったのが、「Data Ingestion (Read-Only)」がちょっとおかしいってことだけ。
微妙に不正確だよ。例えば、R/Wパーミッションがいくつかのノードで間違って説明されてるんだ。
じゃあ、ターゲットを絞ったフィードバックを組み込めるのか、それとも一発勝負なのかな?俺の経験だと、ChatGPTはテキストの繰り返しは得意だけど、画像の繰り返しはかなり苦手なんだよね。小さな変更を組み込むのに苦労して、いつも最初からやり直しちゃうから、結果が全然違うんだ。
Nano Bananaは画像の繰り返しが本当に得意だよ。Max Woolfから借りたパンケーキスカルの例でもそうだし、テスト付きスライドの繰り返しも得意みたいだね。
https://simonwillison.net/2025/Nov/20/nano-banana-pro/#tryin…
どうやって画像を生成するかによると思うよ。俺はClaudeを使ってiOSゲームのアイコンとか起動画像をSVGファイルで作ったんだけど、SVGはコードとして定義できるから、画像の特定の部分を変更するのが楽なんだよね。Nano Banana Proがどう動くかは知らないけど。
Claudeって驚くような方法で画像を生成するんだよね。画像生成と理解に関するいろんなフロンティアモデルの評価をしたんだけど、Claudeがダントツで一番驚きの結果だったよ。
[1] https://chat.vlm.run/showdown
[2] https://news.ycombinator.com/item?id=45996392
ターゲットを絞ったフィードバックは使えるよ。でも、編集がちゃんとピンポイントだったかはユーザーが確認する必要があるんだ。俺の経験だと、NBは比較的、外科手術みたいな編集をするけど、気をつけないと他の細かい変更も入れちゃうことがあるんだよね。
ひとつも正確じゃなかったんだよ。でもさ、とにかく美しかったね。
Datasetteの作者自身が正確だって言ってるのに、こんなこと言うの面白いじゃん。
GoogleがSynthIDをオープンに公開してくれたら、OpenAIとかも実装できていいよね。そしたらFacebookみたいなサイトやブラウザで”AI警告”を実装できるようになるのに。
インフォグラフィック生成に超期待してるんだ。GoogleやOpenAIの前のモデルは、詳細や解像度が低すぎたからね。最初の生成は正確じゃないかもだけど、何回か試せばうまくいくスタイルやフォーマットが見つかって、改善できるはずだよ。
建築図面にとってはゲームチェンジャーだよ。
建築仕様(物理的な方ね)の指示に従うのが苦手だなって思ってる。どこに何って言っても無視して、今まで見たような平均的なのを作っちゃうんだよ。でも見た目はいい感じなんだよね。
SynthIDが、GrayScaleみたいなフィルターで写真を編集しても機能するか確認した?
Nano Bananaのプロンプトエンジニアリング分析に数ヶ月かけたのに、Googleが新バージョン出しちゃったよ!Nano Banana Proは僕のgemimgパッケージ(https://github.com/minimaxir/gemimg)で動くはず。料金(https://ai.google.dev/gemini-api/docs/pricing#standard_1)見ると、Proをデフォルトにするのはきついな。ドキュメントに「モデルは最大2つの中間画像を生成する」ってあったよ(https://ai.google.dev/gemini-api/docs/image-generation#think)。これが高コストの理由かも?gemimgが中間画像を返しちゃう可能性もあるから確認しなきゃね。
「左の眼窩にイチゴ」「右の眼窩にブラックベリー」→全部正しくできたって?これこそAIが画像生成や手術で犯す(微妙じゃない)間違いのいい例だよ。AIは閲覧者視点の左右で配置したけど、普通はターゲットの視点だよね。医者も間違うけど、十分な監視なしでAIに意思決定を任せるのはもっと心配だ。https://minimaxir.com/2025/11/nano-banana-prompts/#hello-nan…
「AIが画像生成や手術で犯す(微妙じゃない)間違いの素晴らしい例」って言うけど、それプロンプト(情報不足)の間違いだよ。AIはベストを尽くしたんだ。「一番大きな惑星は?」「木星」「宇宙で一番って言ったんだよ!」みたいなもんさ。
それって間違いというより曖昧さじゃない?僕には、この場合の閲覧者視点って全然アリだと思うんだけど。「_患者の左目_にイチゴを置く」ってプロンプトで指定しても、まだ閲覧者視点なの?もしそうなら何かあるけど、そうでなきゃ全く同意できないな。