Nano Bananaの画像が公開!驚きの実力と「同じ画像しか出ない」という指摘も
引用元:https://news.ycombinator.com/item?id=45215869
Nano-Bananaってすごい結果出すよね。俺は最先端画像モデルの比較サイトを運営してて、最近は既存画像のテキスト編集能力比較も始めたんだ。
Nano-Banana含め6モデルを比較中で、Gemini Flash 2.5が1位だけど、ローカルで動くKontext Maxも健闘してるよ!
https://genai-showdown.specr.net/image-editing
最初のコメントの「忠実性」って話とは逆で、俺がNano Bananaを使ってて困るのは、大きな変更を頼んでも同じ画像を出すことなんだよね。たまに期待通りの結果が出ることもあるけど。
みんなもこんな経験ある?回避策あるかな?
昨日の話だけど、書斎のデザイン変更で棚を高くしてって頼んだら、何度も同じ画像が出てきたんだ。他の複雑な変更はうまくいったのにね。
新しいチャットを始めてもダメで、棚の位置がおかしいって全然納得してくれなかったよ。
“ヘイGemini、壁の棚を高く編集してくれたら500ドル払うよ…”
うん、この問題は俺も経験あるよ。ピサの斜塔やキリンの例とか、トリッキーなプロンプトでもこの問題が見られるんだ。
他のモデルは変なことするけど、Nano-Bananaだけ同じ画像を出す問題があるみたい。プロンプトにすごく詳しい指示を追加すると、たまに回避できることもあるけど、確実じゃないんだよね。
俺もこの問題に何度も遭遇してるよ。個人的な利用だから大したことじゃないけど、変更をお願いしてるのに同じことしてるって言わなきゃいけないことが多いんだよね。
うん、全く同じ経験してる!
すごく良い比較サイトだね!ブックマークしたよ。
Grokにも注目しとくといいかも。すごい速さで改善してるから、そう遠くない未来にトップに近づくと思うよ。
分かった!ちょうど数時間前にSeedream v4.0も追加したところだよ。
進歩が止まらないから、追いつくのが大変で潰されそうだよ。
https://seed.bytedance.com/en/seedream4_0
Nano Bananaの画像生成ってFluxモデルを使ってるだけじゃない?独自の画像モデルは持ってないみたいだよ。
視覚化はいいけど、’Long Neck’のプロンプト結果がおかしいね。Seedreamのキリンは首を下げただけで、思ったより短くなってない。評価は自動か手動か教えてほしいな。
Hi Isharmla、キリンの件は難しかったけど、視点を調整しても、プロンプトの指示に従って首を短くしたと思うよ。
質問だけど、評価は全て手動でやってるよ。難しい結果の時は友達にも手伝ってもらってグループ評価することもあるんだ。
サイトの下にあるFAQにもっと詳しい説明があるから見てみてね。「パスする画像を明確には定義できないけど、見ればわかる」って感じだね。
gpt-image-1も追加してほしいな。厳密には編集モデルじゃないけど、グローバルなピクセルを変えるから、すごく複雑なプロンプトや画像参照にはNano Bananaより参考になるよ。
実はもう入ってるよ。編集モデルのフルリストはNano-Banana, Kontext Dev, Kontext Max, Qwen Edit 20b, gpt-image-1, Omnigen2だよ。
グローバルなレベルで変更を加える傾向があるけど、慎重なプロンプトで変更を最小限にできるっていう意見には同意するよ。
なんでOpenAIは’Girl with Pearl Earring’で別の画像が出るの?
それは間違いだよ。Gpt-image-1はサポートされる出力解像度がかなり厳しいから、トリミングされた画像を使ってるんだ。今週中にテストを修正するね。教えてくれてありがとう!
比較画像を投稿してくれる?
まだ時計(例: 1:15 am)が正しく表示されないし、漫画画像のテキストも100%正確じゃないよ。
Grokはテストしないの?
すごいモデルだね。想像力だけが限界で、1枚0.04ドルだよ。記事には書いてないけど、これはGoogle Geminiの画像生成モデルだよ: https://ai.google.dev/gemini-api/docs/image-generation
良い作例集だね。職場には不適切な例を2番目に選ぶのは本当に変だよ。
もっと詳しく言うと、Nano Bananaは画像編集用にチューニングされてるんだよ:
https://gemini.google/overview/image-generation
うん、Googleは通常の画像生成にはImagen4やImagen4 Ultraを使うのを推奨してるんだ。それなのに、Flash 2.5は俺のテキストから画像への比較で驚くほど高得点だったよ。画質は専用のテキストから画像へのモデルほどじゃないけどね。OpenAIのgpt-image-1に1ポイント差まで迫ったよ。
これって単一のモデルなの、それとも複数のモデルのパイプラインなの?
単一モデルだよ、画像出力機能が内蔵されたGemini 2.5 Flashだね。
彼らが言ってるのはHN投稿のCase 1 Illustration to Figure、メイド服を着たアニメフィギュアのことだよ。
俺はOPが実際の投稿を意味してると思うよ。『Case 1: Illustration to Figure』の2番目の例はパンチラだよ。
「Nano Banana」の画像に関する問題が報告され、最近削除されたみたいだけど、GitHubのissueはまだクローズされてないよ。
URL: https://github.com/PicoTrex/Awesome-Nano-Banana-images/issue…
みんな混乱してるみたいだけど、問題のあったサンプルは10分前に削除されたよ。
見たいならここを見てみたら?
URL: https://github.com/PicoTrex/Awesome-Nano-Banana-images/tree/…
アート系の製品に対して、そんなに厳しく批判できる神経がマジで分かんないんだけど。
Nano Banana (gemini-2.5-flash-image-preview) を使っても全然良い結果が出ないんだけど。キャラクターの写真とシーンを渡しても、スタイルとか色とか無視して切り貼りするだけだし。ChatGPTの方が断然マシなんだよね。モデル選び間違ってるのかな?
もっとコメントを表示(1)
うん、俺もそう思う。Nano Bananaはたまにすごい良いのが出るけど、90%は変な画像だったり品質が低かったりするんだよね。切り貼りしたみたいに見えるし、安全性のせいでいろんなリクエストを拒否されるのがイライラする。(特に実写人物だとそうなる)感動するより、正直うんざりしてるわ。
このページを見て、やっと疑問が解けたよ。この例って、特定の入力やプロンプトで出た結果なの?それとも奇跡的にうまくできたものなの?って思ってたんだ。正直、品質の高さにちょっとビックリした。前に画像生成触ったときは、結構イライラしてたからね。
ここ数日Nano Bananaを使ってみた感じ、公開されてる画像はめっちゃ厳選されてると思うわ。多分、それぞれの画像は10回以上とか、何度も試行錯誤した結果じゃないかな。
俺の経験だと、Nano Bananaは大丈夫だと思ったらバンバン切り貼りするよ。だから、キャラクターをシーンに自然に馴染ませて、とか明示的にプロンプトに書かないとダメなんだ。ちゃんとプロンプトすれば、他のモデルよりマジで優秀だけど、プロンプト作り自体がたまにマジで面倒くさいんだよね。
コメントに良い参考資料があるよ: https://genai-showdown.specr.net/image-editing。これを見ると、すごい結果を出すのに18回も試行錯誤が必要な場合もあるってことがわかるね。
プロンプトをいろいろ試してみなよ。Gemini 2.5 Proにプロンプトを改善してもらってから、Gemini 2.5 Flashに送ってみるとか。何がうまくいって、何がダメなのかを学ぶことが大事だよ。
モデルがひどい結果ばっか出すんだよな。妻の写真をアップして前髪頼んだら「安全のため」とか言って拒否されたり、別人になったり。やっとできても同じ画像ばっかで修正も無理、「コンテンツブロック」も多すぎ!
Gemini.google.com使ってるなら、Google AI Studioを試してみてよ。そっちなら安全フィルターを無効にできるかも。
AI Studio使ってるけど、フィルター無効にする方法なんてないぜ。
Seedream 4.0はGemini Flash 2.5(nano-banana)より常に良いわけじゃないけど、良い時は性能が段違い。Geminiより安いし、変な警告も少ないから、もうGeminiは使わないことにしたよ。
いやいや、それってまともな結果が出るまで何回もやり直した結果でしょ。99%はクソだけど、1%は良いって感じだよ。
君だけじゃないよ、Nano Bananaにはガスライティングとかアストロターフィングが多すぎる。この記事で同じ入力試しても、結果は全然ダメだった。筆者よりずっと悪いし、たぶん彼らも使える結果が出るまで何度もプロンプトを試してるんだろうね。
https://imgur.com/a/aSbOVz5
最近、Nano Bananaで画像生成できるPythonパッケージ「https://github.com/minimaxir/gemimg」を公開したんだ。テストで分かったのは、Markdownリストを使ったLLM風プロンプトと「受賞歴のある」みたいな昔ながらのAI画像品質表現がGemini 2.5 Flash Imageにめちゃくちゃ効果的ってこと。Googleも後者を推奨してるよ。あと、32kコンテキストウィンドウを使えば、HTMLを画像化したり(https://github.com/minimaxir/gemimg/blob/main/docs/notebooks…)、詳細なJSONで安定した生成もできるんだ(https://github.com/minimaxir/gemimg/blob/main/docs/notebooks…)。
モデルの失敗例を公開してくれてるのは良いね。ケース2の2番目は全然違うし、ケース5は顔が変わっちゃってる。ケース8はポーズ無視、ケース9は車の位置変更。ケース16は変なラベルだし、「mittic」って何?ケース27、29はテキストがおかしいね。ケース33はただのサッカー場、ケース37は意味不明なラベル。「モデルはワイヤーフレームが分からない」ってのもあるけど、能力について正直なのはマジで素晴らしい!
ケース16はテキストができるように見えるけど、「Pul??nary Artereys」って変だし。ケース27の大きな問題は、ウォーターマーク頼んだら女性から巻物が消えたことだよ。よく見たら、ケース28も変なところが多いね。
編集: うん、ケース28はやっぱりちょっとおかしいわ。拡大してなかったからプレビューじゃ分からなかった。底の線が何なのか謎すぎる!君の言う通り、巻物も消えてるし、元の透かしまでなくなってるね。
Case 16の心臓の図、上大静脈以外全部ラベルが間違ってるじゃん!
こういうベンチマーク評価するわ。コメントにあった別のGen AI Showdownも良いね。8回試行のベストって言ってたし。
残念だけど、一部NSFWだね。アメリカのテック系職場ではトップURLを回覧すると問題になるかも。個別例だけ使うのがいいかもね。
Case 1の半分がメイド服の女性がスカートをまくり上げて下着を見せてるやつで、トップURLで見れるよ。あれは一番やばいと思った。
俺イタリア人だけど、こういう態度を理解するのめちゃくちゃ難しいんだよね。正直マジで分からない。
たぶん、2500年のヌードが当たり前な芸術に囲まれてるせいかな。職場の人もヌードについてオープンだし。だから、このコメントはすごく違和感あるんだ。俺が間違ってるのかもな…。
イタリアには豊かで美しい文化がたくさんあるのは知ってるけど、この件での違いを理解するほど詳しくはないんだ。俺の別のコメントは、USの企業文化がどうして違うのか説明してるかな?
URL: https://news.ycombinator.com/item?id=45226202
US市民じゃないけど、アメリカ人のリモートチームで唯一のイギリス人だった身からすると、これマジで理解できないんだよな。少なくともUKでは、職場で誰かの画面にこれがあっても、最初はちょっと驚くくらいで、文脈さえ分かれば何も問題ない。みんな『AIモデルの比較だよ!すごいだろ?!』って言えば、仕事に戻るよ。
職場でこれを見たらどうなるの?クビになったりする?それとも同僚が見て我慢できないとか、そういう個人の問題なの?
これってほとんど清教徒的な偏見だと思うわ。
関係を強化したり、男性のコミットメントへの決意を弱めたりする複雑な力学を理解することは、啓発的かもね。
アメリカの職場ではセクハラ問題が昔からあって、不適切な画像を同僚に送るのはデリカシーがないし、モラルも下がるよね。会社もセクハラ訴訟やスキャンダルは避けたいし。
もし誰かがメイドの画像を職場チャットに貼ったら、マネージャーや人事部(HR)が注意する可能性は高いよ。繰り返したり、苦情が出たり、訴訟沙汰になったら解雇もあるかもね。俺がマネージャーなら、やんわり注意するけど、状況次第では人事部(HR)に相談するかな。
Nano Bananaが下着の例を生成できるなんてマジでびっくりだわ。前にNano Bananaの安全フィルターをオフにしても、「呪われた侍の兜、古い木製のテーブル、血を流す死体、漫画スタイル」みたいなリクエストは拒否されたのに。
追記: このリクエストは今でもブロックされるみたい。
混乱してるみんな、問題になったあの画像、10分前に消されたってさ。
参照画像がどう見ても誰かのすごいデジタルアート作品ってことに、俺はもっと引っかかるんだよね。AIやLLMモデルのグレーな部分はみんな知ってるけど、普通はこの分野の人たちは、ドキュメントで他人の著作物を直接使うのは避けるものだよ。
合法かどうかは置いといて、こんなにあからさまに他人のアートを使うのは、倫理的に間違ってる気がする。
例に使うなら適切な許可は必要だってのは同感だけど、問題の画像はAIが作ったって俺はかなり確信してる。最近のAI生成画像のクオリティはヤバいし、プロの目で見てもAIかどうか見分けるのが毎日難しくなってるよ。
アーティストの情報源はこれ: https://x.com/curry3_aiart/status/1947416300822638839
参照されてる画像もAIが作ったものだよ。このコメントは、みんなが既存の偏見にどれだけ影響されやすいかを示してるよね。
もっとコメントを表示(2)
俺が好きな(というか、嫌いな?)のは、本物のアーティストの作品をAIだって言うことなんだよね。これ、最近よく見るようになってるし、反AI派からのひどい言葉のせいで、何人かのアーティストがSNSやめちゃうのも見たよ。
うん、それも悪いよね。でも、親コメントがやったのは逆でさ、AIが作った画像を「明らかにすごいデジタルアート作品」って言っちゃったことだよ。
結局は同じことだよ。AIが作ったアートと、そうじゃないアートを見分けるのがどんどん難しくなってるし、モデルは常に良くなってるから、状況はもっと悪くなるだけだよ。
「> 残念ながら一部にNSFW(職場での閲覧注意)な部分がある。」ってさ。だから俺たちは良いものを手に入れられないんだよ。
モデルは検閲なしにして、NSFWなものは自分で生成しないようにすればいいんじゃない?
個人的には、このモデルにはがっかりしたな。提示された例は都合の良いものばかりに感じるよ。失敗例をいくつか挙げるね。
- 直射日光下の顔写真のひどい影は消せなかった。
- 白黒写真をモダンなDSLRで撮ったような鮮やかな色にできなかった。色付けはできるけど、くすんだ色にしかならない。
- 3x3のヘアスタイルグリッドを作ろうとしたら、2x3になったり、3x3でも1人が黒人になったりした。
- 実写と合成できない。イルカがチュチュを着て雲の上を飛ぶ画像を作ろうとしたら、ひどいPhotoshopの切り貼りみたいになったよ。
ARでビルをハイライトする3番目の例はクールだと思ったよ。同じプロンプトを使ったら、スカイラインで一番目立つビルなら機能するけど、別のビルを指定するとひどく失敗したんだ。
ミッドタウンマンハッタンの画像でクライスラービルディングをハイライトしようとしたら、「画像にない」って言われた(実際はあった)。432 Park Aveを指定したら、全く違うビルを画像に挿入して、説明はめちゃくちゃだったよ。
シカゴの博物館キャンパスからの写真で2 Prudentialをハイライトしようとしたら、Hancock Centerが挿入された(画像には見えなかった)し、テキストも間違ってたな。
提示された例ですら完璧じゃないね。「違う時代の自分」のやつは「キャラクターの顔を変えないで」って言ってたのに顔が完全に変わってた。「ケース21: OOTD Outfit」は間違ったカメラを使ったし、「Virtual Makeup Try-On」はメイクがおかしかった。「Lighting Control」はライティングを台無しにしたし、ジョーカーのミニフィグはただのSH0133 (https://www.bricklink.com/catalogItemInv.asp?M=sh0133)だよ。「Design a Chess Set」は入力画像不要って言ってるのに、プロンプトには含まれてない画像を元にしろって書いてあって、出力もかなり怪しい(あのポーンは何だよ!)。
でも、それでもかなりすごいし、Photoshopがない人や手作業で仕上げるプロジェクトのスタートには役立つかもしれないね。
「提示例は都合の良いものばかり」って言うけど、デモや画像、映像、プロジェクトなんかで都合の良いものを選んでないものなんて見たことないよ。
これすごいね。少し前までは、同じキャラクターを何度も安定して出力させるだけでも大変だったのに、今ではこのレベルの構図と一貫性が見られるんだからね。生成モデルの進歩のスピードはとんでもないよ。
たくさんの例を集めてくれた著者(と多くの貢献者)にも感謝するよ。ツールの可能性を理解するのに信じられないくらい役に立つからね。
僕は、心の中で何かを想像する人間の精神的な能力、例えば違う髪型をした自分の姿を思い描く能力に何か特別なものがあるって信じるのが好きだったんだ。そのスキルが僕自身の想像力と同じレベル、あるいはそれ以上に機械によって再現されるのを見るのは、なんだか居心地が悪いね。自分の想像力って、コート掛けがコートを地面から持ち上げる能力と変わらないくらい当たり前なのかなって感じちゃうよ。
僕はアファンタジアなんだ。みんな同じ土俵に立てて嬉しいよ。
僕はいつも想像力が豊かだと思ってたんだ。でも、一度Hello Internetでアファンタジアの話が出て、調べてみたら、こういうコメントとか見て、正直…どうやって確認すればいいかさえ分からないよ。いろんなテストによると僕はアファンタジアだと思う。でも、それが無い状態がどういうものなのか、全く想像できないんだ。欠けている感覚はどんな風にも説明できない、そういう謎の一つなんだろうね。
子供たちからアファンタジアについて聞かれた時に僕が教えた簡単なテストは、青い点3つが付いたリンゴを想像するってものだよ。それができたら、点がリンゴのどこにあるか説明してみて。アファンタジアじゃなければ、頭の中で点がリンゴのどこかに配置されてるのが「見える」はずだから、点の場所を説明するのは簡単だよね。もしかしたら一列に並んでたり、三角形になってたり、真ん中だったり、てっぺんだったりするかな。
「青い点3つがあるリンゴを想像して」と言われても、俺は抽象的なリンゴと点3つを思い浮かべるだけで、幾何学的な配置は後で聞かれない限り考えない。意識体験としては{リンゴ, 点, 点, 点}って感じ。色はタグ付けされてるだけ。
オフィスの描写も全体像じゃなく、机の白い脚、木製の天板みたいに、順々に特性を挙げる感じ。たまに寝る前に集中すると、目の錯覚絵みたいに fleeting imagesが見えることもあるよ。
みんなそんなもんだって気づいたよ。誰も頭の中でHDの3D画像を本当に見てるわけじゃないんだね。
こんなことできるのは、何百万もの人間の作品で訓練されてるからだよ。
最初の文を読んだらすぐに、リンゴの横に下向きの三角形に配置された3つの点が見えたよ。面白いことに、その3つの点はリンゴの上に載ってるというより、画像に重ねられたみたいに平らだった。
アファンタジアの人はどう答えるんだろう?
著作権侵害を示唆する議論は、今後はあまり役に立たないし、真実でもなくなるだろうね。AdobeやMoonValleyみたいに、著作権的に安全な画像や動画モデルはもうたくさんある。
技術的には人間の作品はもう必要ないんだ。Unreal Engineとか使って全部合成的に生成できるし、光学の物理学は信じられないくらい簡単に進化するからね。
動物界では視覚は頻繁かつ急速に進化したけど、意識的な知能はそうじゃない。それに、光学の数学的記述、描画アルゴリズム、レイトレーシングなど、描画やアニメーションのための豊かな数学は前からあったよね。
賢い、考える機械? まだ全然分からないよ。Generative Imagesの進歩はLLMよりもすごいね。
俺はVVIQで5点なんだ。3Dのリンゴが見えるし、手に持って回したり、皮のくぼみで光がキラキラするのを見たり、友達に投げたりするのも想像できるんだ。
みんなと違うってことが、俺にとっては同じくらい驚きだよ。
技術的には人間の作品はもう必要ないって?
それはどうかな。今でもほとんどの作業は人間がやってると思うけど。
機械が新しいアートスタイルを生み出せるかが、真価が問われるところだね。例えば、漫画やアニメのアートスタイルは何十年も進化してるけど、もし人間が(おそらくやめないだろうけど)その進化を止めたら、機械はそれを続けられるかな?
原理的には可能だけど(俺たちも一種の生体機械だし)、現在のAIアーキテクチャでは無理だろうね。
公平に見て、モデルの能力は俺たちが生成した訓練データから来てるんだよね。