Qwen-Image:驚異の文字描写!新たな画像生成AIの幕開けか
引用元:https://news.ycombinator.com/item?id=44787631
これ、なんでそんなに話題になってないんだろう?オープンソースモデルなのに、gpt-image-1をあらゆる面で超えてて、Flux Kontextの編集能力も上回ってるみたいだし。これはかなりすごいことだと思うよ。
40GBのVRAMが必要ってのが、みんなの熱意を冷ましちゃってる原因じゃないかな。LLMではマルチカードの技術が成熟してるのに、画像モデルだとGGUF使ってもそうじゃないのが不思議。画像モデルがもっと大きくなれば、そういう機能も実装されるかもね。
gpt-image-1以外、AI画像生成の話題が減ってるよね。AIエージェントとかvibe codingに注目が集まってるのと、AI画像生成への社会的なスティグマが増えてるからかな。Flux Kontextは画像編集のすごいやつだけど、まだあんまり知られてない。Qwen-Imageはライセンスが緩いから、編集モデルが出たらもっと進化しそうだね。
40GBなんて小さいよ。MacBook ProとかM3 Ultra Mac Studioで動くし。家で使うならNvidiaはいらないね、Apple Siliconの方がコスパいいよ。M3 Ultraは4090と同じくらいのメモリ帯域幅で、5090には敵わないけど遅くはない。20Bモデルなら20GB VRAMで十分だし、FP8でも品質はほとんど変わらないから、Mac Studioならどれでも、低スペックのMacBook Proでもいけるよ。
1時間くらい触ってみたけど、やっぱりgpt-image-1(Imagen 3/4も)には及ばないな。複雑なプロンプトにどれだけ忠実かって点では、Qwen-Imageは50%くらい、gpt-image-1は75%くらいだった。迷路とかシュレディンガー方程式は無理だったね。
https://genai-showdown.specr.net
AI画像生成に社会的なスティグマなんてないよ。あれはただの”いじめキャンペーン”みたいなもん。シンセサイザーとかカメラができた時と同じ。怒ってる人たち以外は誰も本気にしてないし。実際、AI画像生成はもうどこにでもあるし、AI画像編集は主要なスマホに全部入ってるもんね。
MacBook Proで画像一枚作るのに20分待てるなら、動かせるよ。
gpt-image-1よりできること多いんじゃない?スタイル変換、オブジェクトの追加削除、テキスト編集、ポーズ操作に加えて、物体検出、セマンティックセグメンテーション、深度とかエッジの推定、超解像度、新しい視点合成までサポートしてるんだよ。マジで盛りだくさん!最初はgpt-image-1の方がシャープネスとかクリアさがあったけど、OpenAIが後処理で何かしてるんじゃないかって疑ってるんだよね。このモデルもほぼ同じくらい良いってのはすごいよ。OpenAIがしばらくリードすると思ってたのに。Flux Kreaも発表から4日しか経ってないんだし、このモデルが本当にgpt-image-1と同じ品質ならマジでやばいね。
40GBのVRAMって?24GBのGPUを2枚ってこと?それって最新のQwen coder(SOTAに近いし、プロプライエタリモデルにもベンチマークで勝ってるやつ)を動かすマシンと比べたら、かなり妥当な方だよ。
それにしても、fluxモデルは非商用利用のみだって話だよ。
これ、クオリティが今よりちょっと上がるだけでかなりお得になるって。
人間だと出来上がるまで何日もかかるのが普通だからね。
役立たずなAIアート(ほとんどがそうだけどさ)は、カメラとかシンセサイザーとは違うよ。
50~60代のママたちがFacebookでMinionのミームをシェアしてた時の感じに近いね。マジで無理。
良くなっても受け入れられないし、むしろ本物の作品が疑われるようになって、誰もチャンスをくれなくなるだけだよ。
fluxモデルのライセンスは月1,000ドルだよ。本格的な商用利用にとっては大した障害じゃないね。
OpenAIのタコは‘本物’って呼んでいいのかな?
どんな経験を期待してるんだ?
AIの良い作品に匹敵するようなものを20分で描けるアーティストの配信なんて見たことないよ。
彼らの優位性は、今んとこ作品のクオリティの上限が高いってだけだ。
分単位で見れば、AIの方がずっと優れてる。
ただ、今のモデルだとAIにGPUで時間をかけさせても、一貫して自分の作品を改善できないから無意味なだけさ。
LLMみたいに、画像モデルを2つのGPUに分割することはできないんだよ。
10万画像あたり、だね。それに画像一枚あたり0.01ドルが追加でかかる。
H100が1時間あたり1.5ドルで、5秒で画像一枚できると考えると、ベアメタルコストが画像一枚あたり約0.002ドル+ライセンスコスト0.01ドルって話だね。
絶対にあるよ。誰かがプレゼン資料や記事でAI画像をポイントの図解に使った時なんて、みんな呆れてるもん。
個人的には、低品質なAI画像よりストックフォトか、何もない方がマシだと思うね。
AIへの偏見というより、お前はアート全般が嫌いなんじゃないか?と主張してるね。
もし職人技のアートとAI生成作品に差がなく、品質が収束するなら両方捨てられるって言うなら、そもそもアートの価値って何だったんだ?って話だよな。
「みんな」って誰のこと?お前はどうしてそれを知ってるんだ?それって個人的な意見を一般的なことみたいに言ってるだけじゃないのか?
まだ数時間しか経ってないのに、デモがエラーだらけじゃん。興奮する前に、もっとみんながちゃんと触れる時間が必要だろ。
ローカルで動かすなら量子化されたGGUFとかComfyUIのワークフローが重要になるけど、このモデルは他のよりかなりデカいぞ。
面白かったのは、AlibabaとAlibabaを比較することになった点だね。Wan 2.2での画像生成は超人気だから、みんなQwen-ImageがFluxよりどれだけ進化したかじゃなくて、Wan 2.2からどれだけ飛躍したかを知りたいんだよ。
新しい画像モデルの本当の良し悪しを判断するのに最適なのは、リリースから約1週間後みたいだね。その頃には、みんながモデルをいじくり倒して、第三者による長所/短所が出てくるだろうからな。でも、これは期待できそうだ!
奴らが画像やエディタのウェイトを公開してないのに、出してるグラフだけでFlux Kontextより優れてるって結論をどうやって出したんだ?
もちろん、そんなことしないよな?
グラフのスケールちゃんと見たか?
これ、革命的だと思うぜ。俺のユースケースはVDMXのワークフローで使うビジュアルを作ることだったんだ。
クールな技を見つけたんだけど、グリーンバックのスタート画像を生成して、それをローカルのLTXビデオ作成ワークフローに入れて、VDMXでグリーンバックのビデオでクロマレイヤーを作って、そこから進めるんだ。めちゃくちゃクリエイティブで楽しいぜ。だからAIアートは無駄じゃない!
商業的に成功しないとダメになるSOTAクラスのモデルにしては、価格は妥当だと思うぜ。
モデルの推論サーバーもリリースされてるぜ。WanとQwen-Imageは問題なく分割できる。
https://github.com/modelscope/DiffSynth-Engine
それは間違った画像だよ。CDNが古いメディアをキャッシュしてたんだ。もうパージしたから、正しいのが表示されるはずだ。
指摘してくれてありがとう!
M3 Ultra以降のCPUコアってFP8のハードウェアサポートあるのかな?
40GBあれば、軽く量子化すれば5090に載せられるね。
いいリリースだね!GenAI Showdownサイトに追加したよ。全体的に40%くらいのスコアで、コンシューマー向けGPUで動かせるSOTAモデルだね(量子化すればさらに)。でも、txt2imgのプロンプト順守ではOpenAIのgpt-image-1にはまだ遠いかな。ただ、このモデルは編集とか色々なことができるってスレッドで言われてるね。
https://genai-showdown.specr.net
余談だけど、Imagen 3と4を混ぜるのは適切じゃないと思うな。全然違うモデルだから。
もっとコメントを表示(1)
Imagen3からの改善は大きくないと思ったけど、確かにその通りだね。最初はページがごちゃごちゃしてたんだけど、”Show/Hide Models”トグルを追加したから、その変更をするよ。
うん。”Imagen 4 Ultra”もあるんだよね(Gemini APIだと50%高いけど)。どれくらい違いがあるか分からないけど。
4oの画像生成みたいに、画像を勝手に変えちゃわないのがすごいね。4oで誰かの服を修正しようとすると、顔まで変わっちゃうことがよくあるんだ。これは編集が必要な要素だけに、認識できるAIの痕跡が適用されるみたいだね。
だからFlux Kontextはすごいんだよね。手動でコンテンツをマスクしなくても、img2imgのインペイント機能が使えるんだ。
https://mordenstar.com/blog/edits-with-kontext
みんなが自分で再現してみたいなら、プロンプト自体を含めないのは変だよね。
あー…それ良いアイデアだね!探してみるよ!
4oなら編集したい範囲を選べて、それ以外はそのままにできるよ。
gptはマスクを無視するんだよ。
そうなんだよな。OpenAIが言ってるけど、試しても全然うまくいかなかったよ。
普段やってる人には当たり前かもだけど、これ動かすにはどんなマシンがいるの?Linux機で16GB GPUと64GB RAMあるんだけど、SDは楽勝なのにQwen-imageはGPUもCPUもメモリ不足だったよ。どれくらい足りないんだろう?すごいハードウェアがいるの?
普段やってる人にも分かりにくいよ。VRAM使用量の計算は超難しい。オンラインの計算ツールも使い物にならないし。とにかくこのモデルには40GB以上のVRAMが必要。システムRAMじゃ無理、Apple Siliconの統合RAMでも速度は出ないよ。
あと、VRAMが40GBじゃなくて、40GBの”カード”が必要だと思うよ。前に書いたけど、1枚のカードがいるんじゃないかな。複数GPUの連結は無理なんじゃないかな。
ああ、そうだね、一部のDiffusionモデルはレイヤー分割できないのを忘れてた。画像生成モデルはあまり使わないから、LLMの知識だけで話してたよ。誤解させてたらごめんね。
意味がわからないか、LLMに詳しくないのかな?でもRTX 3090を2枚使えば動くし、GGUF化されたらRTX 3060みたいなローエンドカードでもいけるよ。
これはTransformerじゃなくてDiffusionモデルだよ。Diffusionモデルは計算ノード間で分割できないんだ。
https://github.com/pollockjj/ComfyUI-MultiGPUのこと?1つのGPUが計算して、他のGPUがVRAM拡張で協力するってこと?(このノードは使ったことないけど)
Nah, RAMでレイヤーを入れ替える方がはるかにいいぜ。テキストエンコーダもRAMに置いとけば特にマイナスもないし、それ以外に大して得るものもないよ。
たとえ容量が足りたとしても、Nvidia以外のGPUだと画像生成が遅すぎるから、やる価値ないよ。
モデルファイルと大体同じサイズだと思うよ。transformersフォルダを見たら、5GBくらいのファイルが9個あるから、GPUのVRAMは45GBくらい必要そうだな。後々、VRAMが少なくても動く量子化バージョンが出るだろうけど、ちょっと品質は落ちるかもね。
これについてはずっと彼らに言い続けてるんだよね。一つのリポジトリに複数のモデルウェイトがある場合があって、ファイルサイズを合計するだけじゃダメなんだ。でも「リポジトリサイズ」の表示はやっぱり便利だと思うよ。だから自分でツール作ったんだ。→ https://tools.simonwillison.net/huggingface-storage
Hugging FaceはGGUFモデルについては、選択したGPUでどの量子化バージョンが動くか表示してくれるんだ。この機能がもっと多くのモデルタイプに対応してくれるといいんだけどね。
Hugging FaceはただのGitホスティングサービスで、GitHubと同じようなもんだよ。ディレクトリ内の全ファイルサイズは自分で合計できるじゃん。
モデルサイズはVRAMに直結するって話だよ。FP16だと40GB、FP4に量子化すれば10GBくらいで動くかもね。
4bitに量子化されたバージョンが出るまで数日待つことになりそうだよ。これ、20Bパラメータもあるからね。
NF4量子化の設定例だよ。
こうするとVRAMは17GBくらい使うみたいだけど、あんまりうまく動かないね。このアプローチが推奨されてるらしいよ: https://github.com/QwenLM/Qwen-Image/pull/6/files
Qwen-Imageのフルモデルだと少なくとも24GBのVRAMが必要だけど、4bit量子化版ならAutoGPTQとか使って約8GBのVRAMで動かせるよ。
8bit量子化なら16GiBのRAMでいけるよ。これはSD3 Largeモデルを少しスケールアップしたものなんだってさ(38層→60層)。
プロダクションでの推論なら、H100一枚で十分動くみたいだよ。
P40カード2枚合わせれば300ドル以下で、これで動かせるらしいよ。
40GBのVRAMが必要って事実が、たぶんみんなの熱意を冷やしてるんじゃないかな。
PCならPCIe 4.0 x16以上のスロットが2つあるマザボに、24GB VRAMのGPUを2枚挿せばいけるよ。友達のPCも「ぶっ飛んだ」マシンじゃないけど動いてるみたいだし。
もっとコメントを表示(2)
「ぶっ飛んだ」マシンじゃなくても、安くはないよ。RTX 3090を複数枚使うならたぶん4,000ドルくらいかかるんじゃないかな。AI画像のためにそんな大金はちょっとね。
Diffusionモデルって、そんな風に分割しては動かせないんだよ。
画像生成AIって、ピクセルと同時にテキストのベクトル情報も出せば良くない?文字をピクセルで描くより、フォントとかサイズみたいな高レベルな情報で生成すれば、ビジネス資料とかでめちゃくちゃ綺麗になると思うんだけど。なんでそうしないの?
Qwen-Imageのデモ、英語の文字がおかしいよ。「The silent patient」が大文字になったり、「When stars are scattered」がスペース開いちゃったり。これで「すごい!」って言うのは、正直期待値が低すぎない?改善はしてるけど、まだまだだね。
数ヶ月前までは文字すらまともに生成できなかったのに、こんなに進化してるのに、みんなの期待値ってどんどん上がっていくもんだね。すごい進歩なのに、なんか評価が厳しくなる一方だ。
文字のレンダリング、どうやって学習させてるんだろうね?なんか文字だけ不自然で、影とか反射が画像と合ってないアーティファクトが共通してある気がする。OpenAIもFluxも同じ問題抱えてるから、もしかして同じ方法使ってるのかな?
テクニカルレポート14ページに書いてあるんだけど、合成データを作る時に元の照明を無視して文字を重ねてるんだって。だからモデルもその不自然な見た目を再現しちゃうんだよ。まさに「ゴミを入れればゴミが出る」ってやつだね。いつかリアルな文字生成のためのデータ作る方法が出てくるといいな。
それならレンダリングした画像を使うのが理にかなってるんじゃない?
そこまで「ゴミ」って言うほどじゃないんじゃない?合成データって、汎化のためにはむしろ役立つはずだよ。自己教師ありモデルのいいところってそういうことじゃないの?
ノイズからこんなに読める、正確な文字を生成できるのを「ゴミ」なんて言うなんて、IT系の人間の傲慢さには本当に驚くね。ここで何してるんだよ?
彼らが「ゴミ」って言ってるのは、訓練データのことだよ。拡散プロセスについてじゃないからね。
中国からこんなにたくさんの良いオープンソースモデルが出てくるなんて、マジで希望が持てるね。すごいことだよ。
これってAIバブルを後押しする戦略みたいだね。今の大手テック企業の設備投資は、もはや失敗できないレベルだからな。
LLMの世界で具体的なリードを取るのは、中国にとって国家的な大勝利になるだろうね。
セクション3.2のデータフィルタリングを見てみてよ。ここだよ:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Q…
英語と中国語以外の言語が言及されてないし、表示もされてないのはちょっと面白いよね…
記事は読んでないけど、最初のプロンプトをドイツ語で入れたら(HF-Demoで)ちゃんと生成してくれたよ。
天安門広場で戦車の列の前に一人で立っている人の画像を生成できるかな?
モデルの潜在的な欠点をオープンに議論せずに使ってるのが本当に心配になってきたよ。どこかでモデルとその問題点のリストを持つべきだね。
AIから”コンテンツセキュリティ警告:入力テキストデータに不適切なコンテンツが含まれている可能性があります”って言われたよ。
試してみたけど、すごく印象的な結果だったよ。Qwenチームがどうやってこれをこんなにうまく機能させたのか不思議だね。ここにアクセスしてみて:https://chat.qwen.ai/ (画像生成を選んで、Qwen3-235Bモデルを使うようにしてね。Coderも試したけどエラーになったよ。)
どの画像モデルも、例えば午後3時15分を示す時計を生成するみたいに、時間を表示するのは苦手みたいだね。