メインコンテンツへスキップ

Qwen-Image:驚異の文字描写!新たな画像生成AIの幕開けか

·2 分
2025/08 AI 画像生成 深層学習 自然言語処理 オープンソース

Qwen-Image:驚異の文字描写!新たな画像生成AIの幕開けか

引用元:https://news.ycombinator.com/item?id=44787631

rushingcreek 2025/08/04 18:51:22

これ、なんでそんなに話題になってないんだろう?オープンソースモデルなのに、gpt-image-1をあらゆる面で超えてて、Flux Kontextの編集能力も上回ってるみたいだし。これはかなりすごいことだと思うよ。

tetraodonpuffer 2025/08/04 20:03:46

40GBのVRAMが必要ってのが、みんなの熱意を冷ましちゃってる原因じゃないかな。LLMではマルチカードの技術が成熟してるのに、画像モデルだとGGUF使ってもそうじゃないのが不思議。画像モデルがもっと大きくなれば、そういう機能も実装されるかもね。

minimaxir 2025/08/04 20:57:05

gpt-image-1以外、AI画像生成の話題が減ってるよね。AIエージェントとかvibe codingに注目が集まってるのと、AI画像生成への社会的なスティグマが増えてるからかな。Flux Kontextは画像編集のすごいやつだけど、まだあんまり知られてない。Qwen-Imageはライセンスが緩いから、編集モデルが出たらもっと進化しそうだね。

reissbaker 2025/08/04 21:17:29

40GBなんて小さいよ。MacBook ProとかM3 Ultra Mac Studioで動くし。家で使うならNvidiaはいらないね、Apple Siliconの方がコスパいいよ。M3 Ultraは4090と同じくらいのメモリ帯域幅で、5090には敵わないけど遅くはない。20Bモデルなら20GB VRAMで十分だし、FP8でも品質はほとんど変わらないから、Mac Studioならどれでも、低スペックのMacBook Proでもいけるよ。

vunderba 2025/08/04 23:19:46

1時間くらい触ってみたけど、やっぱりgpt-image-1(Imagen 3/4も)には及ばないな。複雑なプロンプトにどれだけ忠実かって点では、Qwen-Imageは50%くらい、gpt-image-1は75%くらいだった。迷路とかシュレディンガー方程式は無理だったね。
https://genai-showdown.specr.net

ants_everywhere 2025/08/05 00:11:50

AI画像生成に社会的なスティグマなんてないよ。あれはただの”いじめキャンペーン”みたいなもん。シンセサイザーとかカメラができた時と同じ。怒ってる人たち以外は誰も本気にしてないし。実際、AI画像生成はもうどこにでもあるし、AI画像編集は主要なスマホに全部入ってるもんね。

42lux 2025/08/05 09:17:15

MacBook Proで画像一枚作るのに20分待てるなら、動かせるよ。

jug 2025/08/04 20:36:50

gpt-image-1よりできること多いんじゃない?スタイル変換、オブジェクトの追加削除、テキスト編集、ポーズ操作に加えて、物体検出、セマンティックセグメンテーション、深度とかエッジの推定、超解像度、新しい視点合成までサポートしてるんだよ。マジで盛りだくさん!最初はgpt-image-1の方がシャープネスとかクリアさがあったけど、OpenAIが後処理で何かしてるんじゃないかって疑ってるんだよね。このモデルもほぼ同じくらい良いってのはすごいよ。OpenAIがしばらくリードすると思ってたのに。Flux Kreaも発表から4日しか経ってないんだし、このモデルが本当にgpt-image-1と同じ品質ならマジでやばいね。

TacticalCoder 2025/08/04 20:07:56

40GBのVRAMって?24GBのGPUを2枚ってこと?それって最新のQwen coder(SOTAに近いし、プロプライエタリモデルにもベンチマークで勝ってるやつ)を動かすマシンと比べたら、かなり妥当な方だよ。

jacooper 2025/08/04 20:56:12

それにしても、fluxモデルは非商用利用のみだって話だよ。

roenxi 2025/08/05 10:30:17

これ、クオリティが今よりちょっと上がるだけでかなりお得になるって。
人間だと出来上がるまで何日もかかるのが普通だからね。

debugnik 2025/08/05 06:25:25

役立たずなAIアート(ほとんどがそうだけどさ)は、カメラとかシンセサイザーとは違うよ。
50~60代のママたちがFacebookでMinionのミームをシェアしてた時の感じに近いね。マジで無理。
良くなっても受け入れられないし、むしろ本物の作品が疑われるようになって、誰もチャンスをくれなくなるだけだよ。

doctorpangloss 2025/08/04 21:09:23

fluxモデルのライセンスは月1,000ドルだよ。本格的な商用利用にとっては大した障害じゃないね。

supermatt 2025/08/05 03:19:44

OpenAIのタコは‘本物’って呼んでいいのかな?

roenxi 2025/08/05 12:58:48

どんな経験を期待してるんだ?
AIの良い作品に匹敵するようなものを20分で描けるアーティストの配信なんて見たことないよ。
彼らの優位性は、今んとこ作品のクオリティの上限が高いってだけだ。
分単位で見れば、AIの方がずっと優れてる。
ただ、今のモデルだとAIにGPUで時間をかけさせても、一貫して自分の作品を改善できないから無意味なだけさ。

AuryGlenz 2025/08/05 06:50:34

LLMみたいに、画像モデルを2つのGPUに分割することはできないんだよ。

liuliu 2025/08/04 21:35:36

10万画像あたり、だね。それに画像一枚あたり0.01ドルが追加でかかる。
H100が1時間あたり1.5ドルで、5秒で画像一枚できると考えると、ベアメタルコストが画像一枚あたり約0.002ドル+ライセンスコスト0.01ドルって話だね。

torginus 2025/08/05 01:16:19

絶対にあるよ。誰かがプレゼン資料や記事でAI画像をポイントの図解に使った時なんて、みんな呆れてるもん。
個人的には、低品質なAI画像よりストックフォトか、何もない方がマシだと思うね。

roenxi 2025/08/05 10:35:53

AIへの偏見というより、お前はアート全般が嫌いなんじゃないか?と主張してるね。
もし職人技のアートとAI生成作品に差がなく、品質が収束するなら両方捨てられるって言うなら、そもそもアートの価値って何だったんだ?って話だよな。

orbital-decay 2025/08/05 03:04:37

「みんな」って誰のこと?お前はどうしてそれを知ってるんだ?それって個人的な意見を一般的なことみたいに言ってるだけじゃないのか?

zamadatix 2025/08/04 19:54:36

まだ数時間しか経ってないのに、デモがエラーだらけじゃん。興奮する前に、もっとみんながちゃんと触れる時間が必要だろ。
ローカルで動かすなら量子化されたGGUFとかComfyUIのワークフローが重要になるけど、このモデルは他のよりかなりデカいぞ。
面白かったのは、AlibabaとAlibabaを比較することになった点だね。Wan 2.2での画像生成は超人気だから、みんなQwen-ImageがFluxよりどれだけ進化したかじゃなくて、Wan 2.2からどれだけ飛躍したかを知りたいんだよ。
新しい画像モデルの本当の良し悪しを判断するのに最適なのは、リリースから約1週間後みたいだね。その頃には、みんながモデルをいじくり倒して、第三者による長所/短所が出てくるだろうからな。でも、これは期待できそうだ!

SV_BubbleTime 2025/08/05 06:24:51

奴らが画像やエディタのウェイトを公開してないのに、出してるグラフだけでFlux Kontextより優れてるって結論をどうやって出したんだ?
もちろん、そんなことしないよな?
グラフのスケールちゃんと見たか?

wsintra2022 2025/08/05 12:58:02

これ、革命的だと思うぜ。俺のユースケースはVDMXのワークフローで使うビジュアルを作ることだったんだ。
クールな技を見つけたんだけど、グリーンバックのスタート画像を生成して、それをローカルのLTXビデオ作成ワークフローに入れて、VDMXでグリーンバックのビデオでクロマレイヤーを作って、そこから進めるんだ。めちゃくちゃクリエイティブで楽しいぜ。だからAIアートは無駄じゃない!

Mtinie 2025/08/05 00:12:15

商業的に成功しないとダメになるSOTAクラスのモデルにしては、価格は妥当だと思うぜ。

42lux 2025/08/05 09:18:39

モデルの推論サーバーもリリースされてるぜ。WanとQwen-Imageは問題なく分割できる。
https://github.com/modelscope/DiffSynth-Engine

vunderba 2025/08/05 03:55:48

それは間違った画像だよ。CDNが古いメディアをキャッシュしてたんだ。もうパージしたから、正しいのが表示されるはずだ。
指摘してくれてありがとう!

RossBencina 2025/08/04 21:31:31

M3 Ultra以降のCPUコアってFP8のハードウェアサポートあるのかな?

cma 2025/08/04 20:15:43

40GBあれば、軽く量子化すれば5090に載せられるね。

vunderba 2025/08/04 21:37:09

いいリリースだね!GenAI Showdownサイトに追加したよ。全体的に40%くらいのスコアで、コンシューマー向けGPUで動かせるSOTAモデルだね(量子化すればさらに)。でも、txt2imgのプロンプト順守ではOpenAIのgpt-image-1にはまだ遠いかな。ただ、このモデルは編集とか色々なことができるってスレッドで言われてるね。
https://genai-showdown.specr.net

cubefox 2025/08/05 00:35:23

余談だけど、Imagen 3と4を混ぜるのは適切じゃないと思うな。全然違うモデルだから。

もっとコメントを表示(1)
vunderba 2025/08/05 01:33:20

Imagen3からの改善は大きくないと思ったけど、確かにその通りだね。最初はページがごちゃごちゃしてたんだけど、”Show/Hide Models”トグルを追加したから、その変更をするよ。

cubefox 2025/08/05 17:51:09

うん。”Imagen 4 Ultra”もあるんだよね(Gemini APIだと50%高いけど)。どれくらい違いがあるか分からないけど。

nickandbro 2025/08/04 17:36:49

4oの画像生成みたいに、画像を勝手に変えちゃわないのがすごいね。4oで誰かの服を修正しようとすると、顔まで変わっちゃうことがよくあるんだ。これは編集が必要な要素だけに、認識できるAIの痕跡が適用されるみたいだね。

vunderba 2025/08/04 20:06:25

だからFlux Kontextはすごいんだよね。手動でコンテンツをマスクしなくても、img2imgのインペイント機能が使えるんだ。
https://mordenstar.com/blog/edits-with-kontext

diggan 2025/08/05 09:48:16

みんなが自分で再現してみたいなら、プロンプト自体を含めないのは変だよね。

vunderba 2025/08/05 14:40:34

あー…それ良いアイデアだね!探してみるよ!

herval 2025/08/04 19:42:38

4oなら編集したい範囲を選べて、それ以外はそのままにできるよ。

barefootford 2025/08/04 20:28:28

gptはマスクを無視するんだよ。

icelancer 2025/08/04 20:48:00

そうなんだよな。OpenAIが言ってるけど、試しても全然うまくいかなかったよ。

rwmj 2025/08/04 19:04:40

普段やってる人には当たり前かもだけど、これ動かすにはどんなマシンがいるの?Linux機で16GB GPUと64GB RAMあるんだけど、SDは楽勝なのにQwen-imageはGPUもCPUもメモリ不足だったよ。どれくらい足りないんだろう?すごいハードウェアがいるの?

icelancer 2025/08/04 20:49:37

普段やってる人にも分かりにくいよ。VRAM使用量の計算は超難しい。オンラインの計算ツールも使い物にならないし。とにかくこのモデルには40GB以上のVRAMが必要。システムRAMじゃ無理、Apple Siliconの統合RAMでも速度は出ないよ。

cellis 2025/08/04 21:37:50

あと、VRAMが40GBじゃなくて、40GBの”カード”が必要だと思うよ。前に書いたけど、1枚のカードがいるんじゃないかな。複数GPUの連結は無理なんじゃないかな。

icelancer 2025/08/04 23:34:15

ああ、そうだね、一部のDiffusionモデルはレイヤー分割できないのを忘れてた。画像生成モデルはあまり使わないから、LLMの知識だけで話してたよ。誤解させてたらごめんね。

rapfaria 2025/08/04 22:04:55

意味がわからないか、LLMに詳しくないのかな?でもRTX 3090を2枚使えば動くし、GGUF化されたらRTX 3060みたいなローエンドカードでもいけるよ。

axoltl 2025/08/04 23:55:16

これはTransformerじゃなくてDiffusionモデルだよ。Diffusionモデルは計算ノード間で分割できないんだ。

karolist 2025/08/04 22:09:43

https://github.com/pollockjj/ComfyUI-MultiGPUのこと?1つのGPUが計算して、他のGPUがVRAM拡張で協力するってこと?(このノードは使ったことないけど)

AuryGlenz 2025/08/05 06:54:38

Nah, RAMでレイヤーを入れ替える方がはるかにいいぜ。テキストエンコーダもRAMに置いとけば特にマイナスもないし、それ以外に大して得るものもないよ。

AuryGlenz 2025/08/05 06:52:54

たとえ容量が足りたとしても、Nvidia以外のGPUだと画像生成が遅すぎるから、やる価値ないよ。

mortsnort 2025/08/04 19:30:27

モデルファイルと大体同じサイズだと思うよ。transformersフォルダを見たら、5GBくらいのファイルが9個あるから、GPUのVRAMは45GBくらい必要そうだな。後々、VRAMが少なくても動く量子化バージョンが出るだろうけど、ちょっと品質は落ちるかもね。

simonw 2025/08/04 21:08:54

これについてはずっと彼らに言い続けてるんだよね。一つのリポジトリに複数のモデルウェイトがある場合があって、ファイルサイズを合計するだけじゃダメなんだ。でも「リポジトリサイズ」の表示はやっぱり便利だと思うよ。だから自分でツール作ったんだ。→ https://tools.simonwillison.net/huggingface-storage

Gracana 2025/08/05 16:30:00

Hugging FaceはGGUFモデルについては、選択したGPUでどの量子化バージョンが動くか表示してくれるんだ。この機能がもっと多くのモデルタイプに対応してくれるといいんだけどね。

matcha-video 2025/08/04 20:23:44

Hugging FaceはただのGitホスティングサービスで、GitHubと同じようなもんだよ。ディレクトリ内の全ファイルサイズは自分で合計できるじゃん。

halJordan 2025/08/04 21:11:36

モデルサイズはVRAMに直結するって話だよ。FP16だと40GB、FP4に量子化すれば10GBくらいで動くかもね。

zippothrowaway 2025/08/04 19:27:32

4bitに量子化されたバージョンが出るまで数日待つことになりそうだよ。これ、20Bパラメータもあるからね。

pollinations 2025/08/04 21:33:22

NF4量子化の設定例だよ。
こうするとVRAMは17GBくらい使うみたいだけど、あんまりうまく動かないね。このアプローチが推奨されてるらしいよ: https://github.com/QwenLM/Qwen-Image/pull/6/files

ethan_smith 2025/08/04 23:26:18

Qwen-Imageのフルモデルだと少なくとも24GBのVRAMが必要だけど、4bit量子化版ならAutoGPTQとか使って約8GBのVRAMで動かせるよ。

liuliu 2025/08/04 21:07:44

8bit量子化なら16GiBのRAMでいけるよ。これはSD3 Largeモデルを少しスケールアップしたものなんだってさ(38層→60層)。

philipkiely 2025/08/04 22:52:04

プロダクションでの推論なら、H100一枚で十分動くみたいだよ。

cjtrowbridge 2025/08/05 01:58:14

P40カード2枚合わせれば300ドル以下で、これで動かせるらしいよ。

TacticalCoder 2025/08/04 20:12:07

40GBのVRAMが必要って事実が、たぶんみんなの熱意を冷やしてるんじゃないかな。
PCならPCIe 4.0 x16以上のスロットが2つあるマザボに、24GB VRAMのGPUを2枚挿せばいけるよ。友達のPCも「ぶっ飛んだ」マシンじゃないけど動いてるみたいだし。

もっとコメントを表示(2)
ticulatedspline 2025/08/05 00:44:12

「ぶっ飛んだ」マシンじゃなくても、安くはないよ。RTX 3090を複数枚使うならたぶん4,000ドルくらいかかるんじゃないかな。AI画像のためにそんな大金はちょっとね。

AuryGlenz 2025/08/05 06:56:29

Diffusionモデルって、そんな風に分割しては動かせないんだよ。

pradn 2025/08/05 14:10:21

画像生成AIって、ピクセルと同時にテキストのベクトル情報も出せば良くない?文字をピクセルで描くより、フォントとかサイズみたいな高レベルな情報で生成すれば、ビジネス資料とかでめちゃくちゃ綺麗になると思うんだけど。なんでそうしないの?

james_a_craig 2025/08/05 09:32:52

Qwen-Imageのデモ、英語の文字がおかしいよ。「The silent patient」が大文字になったり、「When stars are scattered」がスペース開いちゃったり。これで「すごい!」って言うのは、正直期待値が低すぎない?改善はしてるけど、まだまだだね。

sixhobbits 2025/08/05 13:06:40

数ヶ月前までは文字すらまともに生成できなかったのに、こんなに進化してるのに、みんなの期待値ってどんどん上がっていくもんだね。すごい進歩なのに、なんか評価が厳しくなる一方だ。

oceanplexian 2025/08/04 20:29:28

文字のレンダリング、どうやって学習させてるんだろうね?なんか文字だけ不自然で、影とか反射が画像と合ってないアーティファクトが共通してある気がする。OpenAIもFluxも同じ問題抱えてるから、もしかして同じ方法使ってるのかな?

yorwba 2025/08/04 20:39:20

テクニカルレポート14ページに書いてあるんだけど、合成データを作る時に元の照明を無視して文字を重ねてるんだって。だからモデルもその不自然な見た目を再現しちゃうんだよ。まさに「ゴミを入れればゴミが出る」ってやつだね。いつかリアルな文字生成のためのデータ作る方法が出てくるといいな。

Maken 2025/08/04 22:39:33

それならレンダリングした画像を使うのが理にかなってるんじゃない?

doctorpangloss 2025/08/04 21:11:10

そこまで「ゴミ」って言うほどじゃないんじゃない?合成データって、汎化のためにはむしろ役立つはずだよ。自己教師ありモデルのいいところってそういうことじゃないの?

halJordan 2025/08/04 21:13:56

ノイズからこんなに読める、正確な文字を生成できるのを「ゴミ」なんて言うなんて、IT系の人間の傲慢さには本当に驚くね。ここで何してるんだよ?

bavell 2025/08/05 04:24:49

彼らが「ゴミ」って言ってるのは、訓練データのことだよ。拡散プロセスについてじゃないからね。

artninja1988 2025/08/04 17:45:39

中国からこんなにたくさんの良いオープンソースモデルが出てくるなんて、マジで希望が持てるね。すごいことだよ。

owebmaster 2025/08/05 02:42:09

これってAIバブルを後押しする戦略みたいだね。今の大手テック企業の設備投資は、もはや失敗できないレベルだからな。

tokioyoyo 2025/08/05 07:56:41

LLMの世界で具体的なリードを取るのは、中国にとって国家的な大勝利になるだろうね。

djoldman 2025/08/04 17:06:46

セクション3.2のデータフィルタリングを見てみてよ。ここだよ:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Q…

numpad0 2025/08/04 20:44:36

英語と中国語以外の言語が言及されてないし、表示もされてないのはちょっと面白いよね…

entropie 2025/08/05 11:52:47

記事は読んでないけど、最初のプロンプトをドイツ語で入れたら(HF-Demoで)ちゃんと生成してくれたよ。

doubtfuluser 2025/08/05 16:33:42

天安門広場で戦車の列の前に一人で立っている人の画像を生成できるかな?

doubtfuluser 2025/08/05 16:34:43

モデルの潜在的な欠点をオープンに議論せずに使ってるのが本当に心配になってきたよ。どこかでモデルとその問題点のリストを持つべきだね。

qingcharles 2025/08/06 06:08:55

AIから”コンテンツセキュリティ警告:入力テキストデータに不適切なコンテンツが含まれている可能性があります”って言われたよ。

metadat 2025/08/05 09:18:03

試してみたけど、すごく印象的な結果だったよ。Qwenチームがどうやってこれをこんなにうまく機能させたのか不思議だね。ここにアクセスしてみて:https://chat.qwen.ai/ (画像生成を選んで、Qwen3-235Bモデルを使うようにしてね。Coderも試したけどエラーになったよ。)

android521 2025/08/05 09:34:37

どの画像モデルも、例えば午後3時15分を示す時計を生成するみたいに、時間を表示するのは苦手みたいだね。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。