Gemini 2.5 Flashが画像編集の常識を破壊!AI界にGPT-4級の衝撃が走る?
引用元:https://news.ycombinator.com/item?id=45026719
DeepMindのGemini画像ページと、TechCrunchの2025年8月26日の記事も見てみてね。
https://deepmind.google/models/gemini/image/,
https://techcrunch.com/2025/08/26/google-geminis-ai-image-mo…
これが画像編集モデルのGPT-4モーメントだよ!Nano bananaことGemini 2.5 Flashは本当にヤバい。
lmarenaで171ELOポイントもアップしたんだって!Twitterで「nano banana」で検索すると、とんでもない結果が見れるよ。
例: https://x.com/D_studioproject/status/1958019251178267111
何週間かテストしてるんだけど、マジでヤバい結果を出せるんだよね。でも、まともな画像を得るにはプロンプトを何十回もやり直さなきゃいけないんだ。神じゃないけど、間違いなくとんでもない進歩で、SOTAだよ。
Photoshopで同じ結果を出すのにかかる手間と比べたら、これはもう段違いの進化だよ。
雰囲気コーディングは嘘かもしれないけど、雰囲気グラフィックデザインはマジだね。
https://imgur.com/a/internet-DWzJ26B
これで誰でも簡単に画像やビデオを作れるようになったよ。
「これは画像編集モデルのGPT-4モーメントだ」って言うけど、違うよ。
gpt-image-1から編集機能はあったし、これは速くて”piss filter”より見た目がいいだけ。
Flux Kontext、SeedEdit、Qwen Editも強力なモデルだし、特にQwen Editはスゴい。
Flux KontextとQwenはローカルでファインチューンもできるし、QwenはApacheライセンスだよ。
Alibabaはオープンだから応援したくなるね。
Dall-E, Stable Diffusion, Midjourneyの「プロンプトだけ」の時代は終わったんだ。
ComfyUIみたいなツールも、機能がモデルに組み込まれるから不要になってきてるみたい。
モデルが発表される前は、アリーナでコードネームを使うんだよ。
ネットで見ると、新しい秘密のモデルについて投稿してる人や、それが誰のモデルか推測しようとしてる人がいるのがわかるはず。
要するに、これは画像編集モデルにとってのGPT-4モーメントってことだよ。
GPT-4はGPT-3.5と「根本的に違う」わけじゃなくて、ただ「より良い」だけなんだ。
それが元のコメントが言いたかったことだよ。
「アリーナ」って一体何なの?
記事の画像は色々なモデルを組み合わせて作ったんだ。Midjourneyで背景、Qwen ImageでPGの再スタイル、Gemini 2.5 FlashでPG編集とYCロゴ追加、Kling Proでアニメーションって感じ。
細かい修正には時間をかけなかったよ。自分で作ったデスクトップツール「Artcraft」で作業したんだ([1] https://getartcraft.com)。近いうちにオープンソース化するつもりだよ。
AI登場前は、Googleが世界トップクラスのエンジニアを広告販売にしか使ってないって文句言われてたよね。でもこの例を見てごらんよ。AIっていう新しいフロンティアが来たのに、結局商品配置に使われてるだけじゃん。すごい進歩だよね(皮肉)。
ブラインド評価の戦いの場だよ。例えばこれとかね → https://lmarena.ai/ (Google検索のトップに出るやつ)
3番目の手の向きが変だよね、どっち向いてるか分からないよ。でもそれはGemini 2.5 Flashが変にしたんじゃなくて、元々の画像からそうなんだよ。
もう一つ細かくて悪いんだけど、画像に編集で追加されたピンクのダウンジャケット、元の参照画像と全く同じじゃないよね?すごく似てるけど、もし商品配置で使うとか、そういう細かい部分を気にするなら、これはちょっと困るなあ。
「nano banana」って色々な組み合わせでドメインが登録されてて、それぞれ独自のUIを持つ画像生成サイトになってるみたいだけど…これってみんな、人気モデルの名前を使ってクレジットの裁定取引をしてる中間業者なの?
Photoshopを毎日使ってる身として、心から同感だよ。あとさ、昨日「nano-banana」で動かなかったタスクが、リリースされたモデルで試したら一発でうまくいったんだ。もしかして、リリース版で何か変更があったのかな?
これって一体何なのか全然分かんないんだけど?サイトのAIに「imarena.aiって何?」って聞いたら、意味不明な幻覚みたいな答えが返ってきたよ。
Demis HassabisがXに投稿した生成画像見た?2年前のスロップ(ひどいもの)みたいだよ。→ https://x.com/demishassabis/status/1960355658059891018
AIなんて無かったPhotoshop時代から、商品写真はあてにならなかったじゃん。もちろん、今はもっとひどいけどね。
モデルがプロンプトをうまく理解できないの?それともプロンプトが曖昧だから?テキストモデルでも同じようなことあったけど、画像モデルだと意図を正確に推測するのって、もっと難しいよね。
AIが作った顕微鏡で見たバナナの画像が超バズったから、それでしょ。
それにしても、Googleってあらゆるモデルやロボット(車とかね)の最先端にいるんだから、彼らがどれだけすごい知的巨人なのか、忘れがちだよね。
前ね、AIを使って製品のポスターを作ったことがあるんだ。真面目なプロジェクトじゃなかったけど、結果はすごかったよ。他の大きな出展者より全然良かった。
完璧にするのにめっちゃ時間かかったけど、プロのスタジオに頼むより何千ドルも安く済んだんだから。
Google AI Studioでテストしたんだ(数時間だけだけど)。プロンプトの理解が信じられないくらい良いね。僕のテストはね、https://unsplash.com/s/photos/random に行ってランダムな画像2枚を選んで、「2枚目の被写体を1枚目に統合して」ってプロンプトを送るの。Gemini 2.5 FlashはChatGPTよりも断然良いと思うよ。FluxKontextは全然ダメだった。もしかして使い方が間違ってたのかな、いつも1枚の画像しか見てくれなかったし。
追記: 正直、’GPT-4級の衝撃’ではないかも。複数画像の組み合わせは得意だけど、凝ったテキストプロンプトの理解はChatGPTの方がまだ上だと思う。
これって油田の掘削機?それとも風力タービン?どっちでもいいか!グラフィックデザインって今や超簡単だよね!
あれ?gpt-imageでほとんどできると思ってたけど、単一点編集には向いてないってことかな。GPT-3から4への進化ほどの「すごい!」感はないよね、もうできるモデルがある気がしてたし。
ねえ、これでクライアントが元の画像との一貫性を保ったまま130回編集してほしいって言ったらどうするの?ひたすらプロンプトを再生成するしかない?それは大変そうだなあ。
GenAI Image比較サイトをGoogle Gemini 2.5 Flashモデル(通称nano-banana)に対応して更新したよ!https://genai-showdown.specr.net
このモデルは12個中8個のプロンプトで正解してて、Imagenやgpt-image-1に迫る性能で、旧Gemini Flash 2.0から大幅アップだね。gpt-image-1は、編集機能としてはほぼ使い物にならないのがポイントだよ。
なんでHunyuan、OpenAI 4o、Gwenはタコテストをパスしてるの?「各触手」をカバーしてないのに。Midjourneyは8本腕のうち9本をソックパペットで覆ってるし。
良い指摘だね。モデルが進化するにつれて、合格基準はもっと厳しくする必要があるかも。
Midjourneyは不合格判定だから、あなたの言いたいことがよくわからないな。あと、あれはソックパペットには見えず、せいぜいストッキングだよ。
もっとコメントを表示(1)
もちろん、編集には専用のベンチマークが必要だよね。
面白いのは、Imagen 4とGemini 2.5 Flash Imageがいくつかのテストケースでめちゃくちゃ似てることだね。もしかしたら、Gemini 2.5 FlashはまずImagenをバックグラウンドで呼んで詳細なベース画像を作って、それをGeminiが編集してプロンプトの忠実度を上げてるのかも?
うん、Redditで従業員が言ってたよ。Geminiアプリだと、ゼロからの画像生成はImagenにルーティングされて、その後の編集はGeminiがやってるんだって。
これ、めちゃくちゃ便利!昨日の夜、自分でモデル比較を手動でやってたから、これが見れて本当に嬉しいよ :)
ただ、個人的には忠実度は有用だけど、モデル間の質的な違いを見逃してる部分もあると思うんだ。例えば「spheron」テストで「4oが圧倒的」って言ってるけど、個人的に嫌いなChatGPT系の画像によくある、黄色くて筋張った、絵の具を厚塗りしたような感じが出てるんだよね。だからChatGPTで画像生成するのをやめたくらい。スタイルを客観的に測る指標って何だろう?ChatGPTとClaudeのソフトウェア開発の比較みたいに、ベンチマークじゃ測れない部分もあるよね。
ああ、やっぱり例の「おしっこフィルター」問題がまた出てるね。GPT-image-1の画像は、KritaとかPhotoshopでトーンマップやLUTを通さないと、この色の偏りを軽減するのは難しいよ。こんなに顕著な色の問題なのに、まだ改善されてないのはちょっと驚きだな。
gpt-image-1は全体を変えちゃうから、Kontext、Qwen、Nano-Bananaみたいな部分的な編集じゃなくて、画像編集には向かないって。この情報が知りたかったんだ。記事でもインペイントみたいな編集機能の比較を追加するの、どうかな?
画像編集機能のセクションを追加するのはすごく良いアイデアだね。QwenとKontextを試してかなり感動したんだ。部分的なインペイントができるモデルが3つもあるから、並べて比較するのを見たいな。ここも参考になるよ:https://mordenstar.com/blog/edits-with-kontext
編集プロンプトをテストする時は、「only change …」から始めるのがベストだよ。そうしないとモデルが全部変えちゃうんだ。Nano bananaでさえそうなるからね。
君のサイト、本当に好きだよ。色々なモデルがスタイルガイドにどれだけ従えるか比較するサイトって知ってる?それか、記事にそういう機能を追加するのどうかな?例えば、本をイラスト化する時に、全部のイラストが同じアーティストの絵みたいになるか、とか。
Hi Jay、残念ながらスタイルの一貫性を評価できるサイトは見たことないけど、それって良い機能だよね。ゲームとかコミックみたいに、キャラクターとかスプライトの一貫性が必要な場合は、マジで必須だよ。
これをレビューするの楽しかったよ!良い仕事してるね。
残念ながら、他の多くのリリースと同じで、安全主義に苦しんでるね。半分のプロンプトが拒否されちゃうんだ。モデルが人間を編集できないなら、キャラの一貫性なんて無理だし、ほとんどの写真編集は人間が絡むから結局使い物にならないよ。Googleがディープフェイクの責任を避けたいのは分かるけど、これは避けられない流れだよね。社会が適応するしかない。こういうガードレールを設けるツールはマジでイライラする。自由を取り戻すために新しいOSSムーブメントが必要かも。
若い頃の彼女といとこの古い写真があるんだ。クリスマスドレスを着てツリーの前で、何十年も離れ離れになる前のもの。写真自体も低品質で物理的にも傷んでるんだけど、今のところどのモデルもきれいに直してくれないんだよな…。
Redditには、写真編集のスキルを提供してくれるコミュニティがあるよ(どれかは思い出せないけど、検索すればすぐ見つかるはず)。もしロボットたちがHAL 9000みたいに「できません」って言うなら、本物の人間を試してみる価値はあるかもね。
Redditの/r/PhotoshopRequestってコミュニティだよ。無料でやってくれることもあるし(例えば「息子が亡くなって、これしか写真がないんです」みたいなケースとか)、チップで依頼することもできるよ。
NSFWに抵抗なければComfyUIエコシステムに手を出してみなよ。NSFWな側面もあるけど、プロも使ってて、ワンショットプロンプトモデルより結果が段違いに良いんだ。自分で直すか、10-15ドルで誰かに頼めばいいよ。
GPUがあればQwen Editがたぶんやってくれるし、拒否もしないだろうね。でも、どんな編集モデルも魔法じゃないから、顔のピクセルがなかったら、モデルが勝手に想像して作るだけだよ。
Flux KontextとかQwen image editみたいなオープンソースモデルは拒否しないよ。強いGPUか、runpodみたいなクラウドサービスで借りる必要はあるけどね。ComfyUIを使えば、処理パイプラインの構築もそんなに難しくないよ。SOTAじゃないけど、結果は悪くないはず。
20回くらいプロンプト試したけど、まだ拒否されたことないよ。どんなことお願いしてるの?僕は服とかアクセサリーの変更を試してみたけど。
「この男性のメガネを外して」「写真のみんなを笑顔にして」「写真のみんなの目を開けて」みたいな簡単なことだよ。人間なら“安全じゃない”って思わないようなことばっかり。僕はEUに住んでて、Google AI Studioの安全設定を全部オフにして使ってるよ。
不思議だね。安全ルールが地域で変わるとは思わなかったな。僕はメガネを変えたりシャツを変えたりってリクエストしたら、問題なく両方やってくれたよ。シャツを脱がせるのも成功したけど、顔と肩までだったからNSFWじゃなかったし、肩の表現はあんまり上手じゃなかったな。
友達との冗談で、自撮り写真をハゲのカトリック司祭に変えてもらったり、ハゲの友達に髪を追加してもらったりしたけど、拒否されなかったよ。Copilotは、僕のメガネを外して目を茶色にしてくれた。
VPNをUSAに設定したら、拒否されることがずっと少なくなったのに気づいたよ。
2日前にVeoで動画を無料生成してたんだけど、ちょっとでも悪い響きの言葉を全部削除したのに拒否されちゃった。結局諦めたけど、今思うと、自分自身を生成しようとしたのが原因だったのかもしれないな。
Gemini 2.5 Flash Imageは、マルチモーダルだから、他の編集モデルにはできない複数画像の同時組み込みができるんだよ。Flux KontextだとVAE前に画像を連結しなきゃいけないけど、これはその問題がない。大規模なプロンプトでも忠実度が高いし、シンタックスシュガーも効果的みたい。まだテスト中だけど、このモデルは業界をひっくり返すだろうね。
友達の隣人が旅行中で、代わりに魚の世話をしてるんだけど、水槽の写真を撮ってGeminiに「この魚たちと街の観光名所を巡る日帰り旅行」みたいな合成画像を作ってもらってるんだ。毎日一枚ずつ送ってるんだけど、友達もすごく喜んでくれてるよ。ちょっとしたことだけど、お互い笑顔になれる素敵な使い方だよね!
ちょっと面白い話。奥さんが初めて旅行で家を空けた日、俺はSDXLでまだよちよち歩きの子どもが危ないことしてる画像をLORAで学習させて、奥さんに送りまくってたんだ。全部楽しいジョークだったんだけど、ある日トイレに行ってる隙に、子どもが犬用ドアから初めて脱走してさ。探してる時に竜巻警報まで出てマジ焦ったよ。幸い、犬がどこに行ったか教えてくれて、デッキを降りて庭を横切り、怒った雲を見上げてるところを無事に見つけられたけどね。
Geminiは、何人かの人を一枚の写真にまとめられない問題がまだあるね。それに、オブジェクトの除去とかだと、Flux Kontextの方がうまくいくケースも見たことあるよ。
gpt-image-1は複数の入力画像に対応してるよ。4枚以上の画像でも、うまくいくことが結構あったんだ。
家族写真をデジタル化したんだけど、色がおかしかったり、汚れてたり、フィルムに指紋がついてたりして、大量にあるから修正が本当に大変なんだ。AIが細部を変えずに、特に顔とかを損なわずに一括で修復できるようになるのをずっと待ってたんだよね。今回のGeminiは、詳細をいじったり、ない部分を勝手に追加したりせずに画像を復元する能力がすごく高そうだから、ついにその時が来たのかもしれない!
もっとコメントを表示(2)
君が挙げたような欠陥は全部、ICE機能付きフィルムスキャナーとVuescanみたいな自動スキャン・復元ソフトを使えば、自動で修正できるよ。何百枚(何千枚?)もの写真を、詳細がよくわからない proprietary のクラウドAIに突っ込んで、品質の悪い圧縮画像とか、どんな変なアーティファクトが出てくるかも分からないものを受け取るのは、あまり必要ないんじゃないかな。
写真は全部48-bit RAWでスキャンして、それをオリジナルとして扱ってるんだ。ICE用のIRスキャンや、メタデータの低品質スキャンもね。問題は共有なんだよ。重要な画像は手作業で修正してJPEGで出力してるんだけど、これに時間がかかりすぎるんだ(1枚あたり15~30分、全部で14000枚くらいあるから)。だから「一般的な家族の集合写真 #8228」みたいなのは、AIが顔とか他の重要な詳細をめちゃくちゃにしないなら、AIに任せたいんだよね。それまでは、基本的なトリミングと色補正をするスクリプトを作ってRAWをエクスポートしてるけど、最大の問題である色の修正はできないんだ。
これを聞いて、新しいPhotoshopのバージョンが出るたびに子供の頃に話してたジョークを思い出したよ。「これで写真から牛を消せるようになって、ついに曽祖父の顔が見えるようになるぞ!」ってね。
49bitとICEのデータってどうやって別々に手に入れたの?まさか全部2回スキャンしたの?今、両親の写真をスキャンしてる最中なんだ。教えてほしいな。
Vuescanはひどいよ。SilverFastの方がデフォルト設定はいい。でも、オリジナルのNikon Scanソフトを使った時のICE機能に勝るものはないね。ホコリや指紋なんかを完璧に除去してくれるんだ。ズームしてもね。SilverFastのiSRDと比較すると、iSRDは赤外線で検出した欠陥をぼかしちゃう感じだけど、Nikon Scanは周りの部分をクローンして直してくれるから、ズームしてもたいていすごくキレイに見えるんだ。どっちのソフトも、ズームしなければ素晴らしく見えるけどね。Vuescanの赤外線オプションは試したことないけど、Vuescanが出すポジティブな色が間違ってるというか、「死んでる」感じがしてね。
画像生成AIで大量の写真を劣化なく修正できるのは期待してるんだけど、家族のプライバシーをGoogleに渡して学習に使われるのは勘弁してほしいな。プライバシーを侵害するのはダメだし、気持ち悪いよ。送った写真がトレーニングに使われるって心配は正しい?それとも考えすぎかな?ローカルで動くAIがもっと良くなるまで待つべき?
オフラインで動くAIを探してるなら、高性能GPUで動くFlux Kontextってモデルがあるよ。性能や精度はそこそこだけど、多くのニーズには十分使えると思うよ。
このAIを使ったユースケースのポイントがよく分からないな。例えばダメージのない写真や遠くの物なんて、想像で補えるじゃん?AIが熟練のPhotoshop使いみたいにツールを扱う形なら理解できるけど、想像で新しい画像を生成するのは時間の無駄に思えるんだよね。
想像できるなら、そもそも写真なんて撮る意味なくない?
そう、それが言いたかったんだ。写真を撮るのは、その瞬間の光をありのままに捉えるリアルさに価値があるから。だから、生成AIで加工して”修復”するなら、そもそも写真撮る意味ないじゃんって思うんだよね。
2人が同じ写真を見て同じ体験を共有したいなら、写真って直す必要があるよ。想像に任せると、それぞれ違うものを想像しちゃうからね。
みんなが想像力豊かなわけじゃないからね。
アファンタジアについて調べてみてよ。
ビデオファイルを修正・改善するソフトを知ってる?認知症になった母さんの昔のVideo 2000やVHSをデジタル化してるんだけど、画質を上げたくて。デジタル化の準備はバッチリなんだけど、品質を少し改善したいんだ。
同じような問題でtopazlabs.comの製品を使ったことがあるけど、概ね満足してるよ。
Topazは動画修復の最先端らしいけど、ヘタするとめちゃくちゃになるから注意が必要だよ。AIの不具合がないか出力はしっかり確認しとけ。
VHSdecodeっていうのは、めちゃくちゃ深掘りする価値があるぞ。
動画じゃなくて写真だけ試したけど、写真の情報が少ないんだから、動画についてはさらに情報が見つからないんじゃないかな。
うまくいくといいね!彼らの“Prompt: Restore photo”の例だと、女性の顔がすごくAIっぽくなってるのが気になるな。もちろん、そのうち改善されるだろうけどさ。
12枚くらい試した結果、失敗することもあったけど(細部の変更、ダメージ残り、再試行が必要など)、うまくいくものもあったよ。AIの結果を人間がチェックして承認すれば、かなり時短になるはず。これ見てくれよ: https://i.imgur.com/MXgthty.jpeg (before) と https://i.imgur.com/Y5lGcnx.png (after)。手動の方が完璧だけど、重要じゃない画像ならAIで十分。次のバージョンが楽しみだね。
現実的に考えて、Afterの画像は良い修復だよ。失われたものはほとんどない(シャープネスは後で戻せる)。AIが苦手なのは顔だよね、人間の脳は顔のわずかな変化もすぐに見抜くから。だから、顔が隠れている今回の画像みたいなのはAIにぴったりなんだ。
もう一つ心配なんだけどさ、もし俺のグラマの古い写真をAIで修復したら、そのグラマが他の人の“ランダムなグラマ見せて”みたいなプロンプトで出回っちゃうことってあるのかな?
“世界一のグラマを見せて”ってプロンプトなら、出るかもね :)無料プランなら、それが普通だと思う。実際は、フィードバックとかテキストプロンプトだけ使われるのかも。無料のGoogleやOpenAI LLMはプロンプトが研究に使われるのは確実だよ。追記: グラマが直接トレーニングに使われる可能性は低いけど、プライバシーのためにオフラインモデルを使うよう頑張るはずだよ。
その時っていうのは、数ヶ月前にFlux Kontext(https://bfl.ai/models/flux-kontext)でとっくに来てたぜ。
オンラインの画像や動画、音声サンプルから、その人が酷いことをしてる高解像度動画をAIで作って、家族や友人にバラすぞって脅し、匿名アドレスに5000ドルの仮想通貨を要求する自動ボットとか、ありえそうだよね。で、もしそれが公開されちゃったら、脅迫されたって言うのが口実になる人もいるかも。AI生成されたものがAIだって常に検出できるソフトってあるのかな?もしランダムなノイズを加えたら、AIだってわかるシグナルは、人間が本物に見えるって感じるのと同じくらい残るんだろうか?