「FLUX.1 Kontext」とは?GPT-4o画像生成との違いは速さ?価格?
引用元:https://news.ycombinator.com/item?id=44128322
今、ReplicateでFLUX.1 Kontext試してるところだよ。ReplicateにはFLUX Kontextを使った画像編集のアプリ例もある(URL省略)。
かなり良い感じ!シンプルなimage-to-image生成なら、GPT-4o image generationと同じくらいの品質かな。生成も速くて、1回あたり4秒くらいだよ。
でも、このページにある例以外のプロンプトはちょっと扱いにくいかな。スタイルとか特定の要素を変えるのはできるけど、具体的にしすぎると無視されがち。たぶんこれから改善されると思うけどね。
元画像の細部を維持する点では、4o image generationより正確だと思う。例えば、自分の3D動物キャラを渡して、照明を変えるみたいなちょっとした変更をお願いしても、4oはキャラの顔をめちゃくちゃに変えたり、体とか他の細部も微妙に変えちゃったりする。
でも、このFluxモデルは、ポーズや照明を大きく変えるようお願いしても、目に見える形状をほぼ完璧に同じまま保ってくれるんだ。
gpt-image-1(4o)は万能だけど、FLUX.1 Kontextもかなり良い線いってる。OpenAIやGoogleに画像生成を独占させない存在だね!
4oは指示通りに動く、品質、指示性とかすごくて魔法みたいだったけど、超遅い、高い、検閲きつい、ファインチューン不可、元画像編集できないっていう欠点があったんだ。
OpenAIが独り勝ちかと思ったけど、Black Forest Labsが見事に覆したね。Kontextは全部完璧じゃないけど4oと同じレベル感で、しかも速くて安い(10倍!)
4oほど指示は細かく聞かないけど、十分使える。画像モデルの足りない部分を埋めてくれたよ。
これからもっと速くて、指示通り動く、ポーズや参照をモデル内で扱える、ファインチューン可能な画像モデルが出てほしい。Black Forest Labs、頼むよ!
Kontextは良いモデルだ。OpenAIに負けるな、ヤバいモデルだよ。
最初にgpt-image-1を見た時、OpenAIがここまでリードしちゃって、もっとオープンなモデルは将来的に完全に置いていかれるんじゃないかって、同じように怖かったよ。
今回のリリースを見れて嬉しいね。これもOpenAIに、彼らのモデルをもっと検閲少なくして出力品質を上げるように圧力をかけることになるだろうし。これはみんなにとって良いことだね。
>Given the expense of training gpt-image-1, I was worried that nobody else would be able to afford to train the competition<
OpenAIモデルの訓練が高いのは、OpenAIにとって高い方が都合良いからじゃないかな。どうせサーバーファームで動かすなら、最適化の必要もないしね。
たぶん多くのチームは訓練に何百万ドルもかかるからDall-E 1+2の再現を試さなかったんだろうけど、SD1.5が教えてくれたじゃん?同じくらいの技術でも自宅PCで動くし、ゼロから訓練なら数千ドル、ファインチューンなら数セントでできちゃうって。
この解説、マジで一日を良くしてくれたよ、ありがとう!
AIインペインティングとか入ったウェブベースのペイント/画像エディタを今作ってるんだけど、値段的にも性能的にも、これは使うのに最高のモデルになりそう。
マジで同意。こういう大手企業の一つが全部独占するんじゃないって分かってマジ嬉しい!
画像生成については、LLMより断然特化モデルの方が正確だよ。ChatGPTとかGoogle Geminiとか全部そう。あれらは画像生成に最適化されてないんだよね。だからGoogleもVeoっていう全く別のモデルを出してるし、Veoでさえ最高の動画モデルじゃない。画像や動画に特化した人たち(例えばBlack Forest Labs)の方がずっと時間かけて開発してるから、結果として特化モデルの方が優れてるってわけ。
Replicateはいつも最新の状態にしてくれてて本当に大好き。AIの進歩が速い時代に生きてるだけじゃなくて、研究レベルの新しいモデルが出るたびにすぐAPI経由で使えるし、本番環境でも規模に関係なく使えるなんてすごすぎるよね。Replicateみたいな配信者たちが、これらのモデル公開のインパクトに指数関数的な力を加えてるってことは言っとくべき。
どっちの会社とも関係ないけど、ユーザーとして両方めちゃくちゃ使った感想ね。Replicateにはhttps://fal.ai/modelsって競合がいるんだけど、FALの生成速度は試したどのモデルでも常に速いよ。100ミリ秒以下の画像生成モデルもあるくらい。モデルの種類はReplicateの方がずっと多いけど、両方にあるモデルならFALの方がほぼ”Replicateだけど速い”って感じ。価格はかなり似てると思う。
Replicate創業者のベンだよ。うちの方がトップモデル全部で同等か速いはず。例えば、うちには最速のFLUX[dev]: https://artificialanalysis.ai/text-to-image/model-family/flu… があるよ。もし何か遅いモデルがあったら教えてくれたら直せるから。ben@replicate.comに連絡してね。
ベンさんありがとう!一つ聞いていい?a16zが競合含めこの分野のいろんな会社に投資してるけど、どう思う?ポートフォリオ内で相互利用とか進めるのかな?私自身この分野で何か作ってるから気になるんだ。この業界、毎週新しいモデル出ててすごいね。ついていくの大変だろうけど応援してるよ!
それってVCとしては、特定の市場向けのファンドを買うみたいなもんだし、割と普通じゃない?
A16Zは両方に投資してるんだよね。やばい。彼らは画像や動画のGenAI市場に投資しまくってる。誰が勝者になろうと、彼らはそのうちの一社、たぶん複数社に投資してるってことになるね。
それは下流の配信者ってよりは、モデル開発者自身が、モデルのアクセスのしやすさ(初日からAPIで使えること)がコミュニティの牽引に重要だと気づいたってことじゃないかな。モデルを自分たちのAPIだけで独占するのはもう通用しない。Llama 4も最近の例で、彼らは初日から使えるように配信者と明確に協力してたよ。
image-to-imageの簡単な実験では、これはGPT-4oよりも良い感じだったよ。4oは色がセピア系に強く寄る傾向があって、ちょっと見れば4oで生成されたってすぐわかる感じなんだ(特に繰り返し編集するとね)。FLUX.1 Kontextはもっと幅広い、カラフルなパレットを使ってるみたい。それに、Replicateで試してるMaxバージョンだけど、FLUXは4oが見逃すような細かい部分もちゃんと描いてくれる。ゼロからの生成は試してないから、プロンプトだけで生成する場合はどっちが良いかわからないけど、プロンプト経由のimage-to-imageに関しては、FLUXの方が明らかに優れてる気がする。
生成が4秒くらいで速いって?どんなGPUとかVRAM使ってるのか教えてくれる?あ、Hugging FaceのUI経由ってことなら話は別か。
オープンウェイト版は”近いうちに出る”って言ってるから、今はホストされてるやつしか使えないんだって。
ReplicateのUIに載ってるやつ経由だよ。あれBlack Forest Labsのインフラ通ってるから、そこのAPI叩くのとたぶん同じ結果になると思うよ。
これ試したらマジでウケる”文脈ズレ”が起きたんだよ。宇宙船の画像を生成して、編集で”もっとカラフルに、大きく”って指示したら、なぜかコンテナ船になっちゃった。チャット履歴あったのに、文脈落としちゃったみたい。
なんかサンプル画像ってかなり”いいやつ”だけ選んでるっぽいね。”Kontext Apps”のプロ用ヘッドショットアプリ試した人いる?自分の写真何枚か試したけど、完全に自分じゃない誰かにされちゃったよ。でも、できたヘッドショット自体はすごいプロっぽく見えるけどね。
flux playgroundでプロ用ヘッドショット試してみたんだけど、疲れたジムの自撮りでやったら自分自身のままだったよ。背景が変わった感じ。次に細かい指示を足したら、服装が変わって、ちょっとぎこちない笑顔になったかな。自分自身の特徴は結構残ったよ。
Replicateのサイトにはない情報だけど、Black Forest Labsの方の”Prompting Best Practices”ってとこに、維持したいものは具体的に指定してね、って書いてあったんだ。マーケティングとは違って、自動で全部やってくれるわけじゃないみたいだよ。
入力画像の縦横比と出力の縦横比って同じなの?なんかいくつか試してみたら、強制的に縦横比が変わる時におかしなこと起きるのに気づいたんだよね。
便利だけどさ、結果は無料ツールとかと比べて、正直そんなに劇的に良くないね。
じゃあ”consistent character”ってマーケティングの誇大広告ってこと?ほんとはできないってことじゃん?
全然できるよ。Draw side view of this character
とかDraw this character looking directly at viewer
とか試してみて。
1枚の画像で顔の同一性を維持する科学的な問題は誰も解決できてないんだよ。手の問題すら解決できてないのにね。
カートゥーンキャラを老けさせたリアルな画像作ってみたんだけど、すごくうまくいったよ。間違いなく同じ”人物”ってわかる感じ。
現時点で一番確実なのは、insightface
みたいなやつで顔を交換することだよ。
自分のGenAI画像比較サイトにFLUX Kontextモデルを追加するか悩んでるんだ。Max版はプロンプト遵守度が高いけどOpenAIのgpt-image-1には勝てないんだよね。サイトはこちら
https://genai-showdown.specr.net
Hunyuan’s Image 2.0も追加したけどリアルタイムモデルだからスコアは低かったよ。追記:Black Forest Labsに公平を期すと、このモデルはテキスト生成より画像編集に強いみたい。
もっとコメントを表示(1)
いいサイトだね!前に試して全然うまくいかなかったプロンプトの提案があるんだ。剣を持った騎士が僕らに背を向けて軍隊と対峙、頭上に盾を掲げ矢の雨を防いでるシーンだよ。
結構象徴的なのにモデルの性能が悪くて驚いたな。
正確なフレイル(棒 ー 鎖 ー 球)を作るのは面白い遊びだよ‥変なことになりがちだけどね。
サイトに“Flux 1.1 Pro Ultra”も追加できないかな?Fluxファミリーで一番性能が良くて、プロンプト遵守度も高いらしいよ。オープンソースモデルの公平な評価にもなると思うんだ。
サイトはすごくいいアイデアで、プロンプトも面白いね! :)
いいね!
比較評価にAdobe Fireflyも入れてくれたら最高だね。
ぜひ追加してよ!
いいサイトだね ありがとう
気になる人向けに技術レポートのリンク貼っとくよ:
https://cdn.sanity.io/files/gsvmb6gz/production/880b07220899…
実装は簡単みたいだね(他のHiDream-E1とかICEditとかDreamOとかと似てる)
すごいのはデータキュレーションの方だね(詳しいことはあんまり公開されてないけど)。
画像生成モデル最近全然追ってないんだけど
この新しいFluxモデルってやっぱりdiffusionベースなの?それとも4oみたいにブロック自己回帰型(アップスケーリングにdiffusion使うかもだけど)になったの?
ええとね
あれは”generative flow matching model”だよ
diffusionモデルとは違うんだ。
違いについてこの投稿がたぶん合ってると思うな:
https://diffusionflow.github.io/
diffusionベースだよ。
マルチモーダルLLMも一緒に訓練してないなら自己回帰型に移行する意味ないしね。
これらの会社はそれやってないし。
残念ながら誰もレポートなんか読みたがらないけど
みんなが本当に欲しいのはオープンウェイトモデルをダウンロードすることなんだよね。
そうすれば持って行って好き勝手に使えるからね。(貢献なんてしないし)。
https://bfl.ai/models/flux-kontext
ここで彼らはこう言ってるよ:
”FLUX.1 Kontext [開発版]
Kontextのオープンウェイトで蒸留されたバリアント
我々の最も先進的な画像編集生成モデルです
近日公開”
蒸留版ってのはマジで残念だね
でもAIスタートアップのCEOたちも飯食ってかなきゃいけないんだろうな。
オープンなコミュニティはBlack Forest Labsのオープンウェイトの蒸留モデルでかなり頑張ってるね。特にすごいのはChromaかな。リンクはこれ→ https://huggingface.co/lodestones/Chroma
みんながそのモデルで良いものを作れるってのは疑ってないよ。でも、実際のモデルを使えたらどうなるか想像してみてよ。
gooning crewがオープンモデルのダウンロードをかなり牽引してるってのは同意。HNでは、たいてい技術的な議論とか、これをどう製品化するかに関心がある人が多いね。ここではgoonerの側面を言うのは品がないとされてるみたい。普段は”censor”って言葉を使った、ダウンロード拒否に対する強い反応、みたいに婉曲されてるよ。
入力って画像1枚だけなの?もし複数の画像をインプットに使えたら、”画像Aのアイテムを画像Bの中に配置して”とか(例えば”画像Aのキャラを画像Bの風景に入れて”)みたいなプロンプトもできるのにね。
Falにはマルチ画像インターフェースがあるから試せるよ。(Replicateもそうかも、まだ確認してないけど)。このモデル、マジ最高!gpt-image-1ほどじゃないけど、ありえないくらい近い。画像や動画で堀を築くなんて無理だよ。GoogleとかOpenAIがクリエイティブ分野でずっと勝つんじゃないかってすっごく心配してたんだ。でも違ったね。誰でもこれを作れるんだよ。
実験的な”マルチ”モードがあって、そこに複数の画像をインプットできるよ。
今のネイティブ画像生成について僕なりに理解してるんだけど、間違ってるかも。教えてくれると嬉しいな。たぶん最初にGemini 1.5 Flashが出て、そのあとOpenAIの4oが出たんだよね。これがすごかったのは、Midjourneyとかと違って真の”マルチモーダル”だからだと思う。前はDalleとかImagenにプロンプト送ってただけだけど、新しいのは音声、テキスト、画像のトークンを同じモデルで理解するみたい。どうやって学習させたかは不明だけど、自己回帰と拡散モデルの組み合わせなのかなと思ってる。
これは完全に正しくないよ。Fluxに関わってる人たちは、2022年のStable Diffusionの論文を書いた人たちだよ。OpenAIは最初dalleeを持ってたけど、stable diffusionはdalleeを大幅に改善したものだったんだ。それからOpenAIはstable diffusionからヒントを得てgpt imageを作ったんだよ。
実際、ChatGPTの4oの画像生成は、”image_gen”っていうツールへの呼び出しだと思うよ。生成ツールが会話の全コンテキストを受け取ってるわけじゃないんじゃないかな。データエクスポートで見ると、dalleの時みたいに個別のプロンプトを使ったツール呼び出しになってるよ。画像をコンテキストとして渡すと、それもツールに渡されるみたい。脱獄対策のモデレーションのためだろうね。
これをローカルで調整したり学習させたりするには、どれくらい知識が必要なの?WindowsでRTX 4090を使ってFlux 1 dev上でLoRaのカスタム学習を2日間試したんだけど、うまくいかないんだ。このトピックやpythonライブラリをどれくらい深く勉強する必要があるのか分からない。この界隈にはスクリプトキディもいるの、それともエキスパートだけ?
https://github.com/bghira/SimpleTuner 使えばいいじゃん。
俺、これ使ってPythonライブラリとか全く勉強しないでLoRA学習できたよ。
SimpleTunerってMicrosoftのDeepSpeedに依存してるんだけど、それWindowsじゃ動かないんだよね :)
だから多分Ai-ToolKit https://github.com/ostris/ai-toolkit 使った方がいいよ。
OneTrainerも別の“簡単な”選択肢になるかもね。
オープンソースモデルはまだリリースされてないけど、FLUX 1 DevでLoRA学習するより簡単になることは絶対ないだろうね。
くっそー,半年で古くなるスキルとか勉強するのめんどくさすぎるわ。
俺,間違いなく選り好みしてサボってるわ。今フルタイムで働いてるしね。寝てる以外,ずっとって感じ。
普段はComfyUI通せば設定済みのものが見つかるのは簡単だよ.たまに,誰かYouTuberのPatreonの裏だったりするけどね。
もっとコメントを表示(2)
俺さ、WindowsでRTX 4090使ってFlux 1 devの上にLoRaカスタム学習させようと2日間頑張ったんだけど、全然うまくいかねぇんだよな。やっぱりWindowsが一番の問題かも。ちゃんと活用するにはlinuxが必要だよ。
いや、大丈夫だよ。Windowsでもほとんどのツールは使えるしね。一番大事なのはね、1. 適切なキャプション付きの良い画像を用意すること、そして2. どんな設定を使えばいいか知ること。2番目がめちゃくちゃ難しいんだよ。だって、間違った情報が多いし、たくさんのLoRaを学習させてる人たちはあんまり情報共有したがらないんだもん。でも、だいたいのプログラムには使えるデフォルト設定があるから、それでいけるはずだよ。
かなり良いね!繰り返し編集して顔とかシーンの一貫性をテストしてるのが好きだな。GPT-4oとか他のモデルにとっては大きな弱点だったんだよね。
オープンソースコミュニティのためにHuggingFaceにリストしてくれるといいな。素晴らしいモデルみたいだし!
公式サイトによると、彼らはDEVバージョンをリリースする予定らしいよ。これは蒸留版だから、残念ながら品質とか忠実さは落ちるだろうね。
オリジナルのオープンソース版FluxもHugging Faceにあったよ。
そのうち、”ツールに詳細を勝手に作らせるな!”って叫びが、他のどんな表現よりも頻繁になるだろうね。
顔から何かを削除する例がよく分かんないな。その人の顔を示す他の写真がないと、ただの典型的なイメージを使ってるだけなんじゃないの?
それはわかるけど、普通は”真実”の参照元と加工したいターゲット、みたいに2つの画像を入力するもんでしょ。
必ずしもそうとは限らないよ。”見ての通り、このChinese ladyは学習データにたくさんいたChinese ladiesを見てきたでしょ。snowflakeで見えてる部分と矛盾しないように、このladyの顔を想像してごらん”みたいなpseudocode promptでもいいんだし。(Damn、これはpseudocode promptだな。)
そうそう、つまりstereotypical imageってことね。僕の言いたいことが一番よく分かるのは、そのwomanの全てのphotoを見た時だよ。
別のimageを与えても(それができても)、modelはconcealedな部分について強いguessをしてるだけって言えるくらい、predictionをgeneralizeしてるんだよ。僕が言いたいのは、”ここでlineを引くの?誰かのfaceのpartialの、mostly accurateなreconstructionで?”ってこと。これ、数年前はscience fictionだったんだぜ。modelにtwo imagesを受け付けさせるtraining(できるけどreconstruction目的でじゃないけど、それもlearnする)ってのは、このissueをhandleするにはすごくtask-specific、downstreamなやり方に見えるね。このfieldは今、task specific modelsじゃなくて、robust、generalなwayでintelligent behaviorをemergeさせることなんだ。
でも、それってmostly accurateなの?どうやってわかるのさ?suppose顔がentirely covered with snowなasian womanがいたとしてみ?AIにremove the snowって言えばsome face will be revealedだろうけど、それがaccurateだって誰が言えるの?traditionalyはreference inputがあるのはそのためだよ。
君が言ってる「snowを取り除いたらfaceが出るけどaccurateかどうかわからないからtraditionaly reference inputがある」ってやつだけどね、何度かstatedした通り、modelはMULTIPLE IMAGESをSUPPORTしてるんだ。この記事は君のvery specificなreference-image-benchmarkはtryしてないけど、それはyou can’t do it yourselfって意味じゃないし、articleとかBFLがおかしいってimplyでもないよ。彼らはmerely presenting a common usecaseで、how the model should be usedをdefiningしてるわけじゃないんだから。
traditional workflowってどんなの?haven’t seen that done beforeなんだけど、it’s something I’d like to tryだね。”wrong” referenceもsupplyして、something specificをgetすることもできるのかな。
exampleをもっとclosely lookしてみてごらんよ。Clearly there is an opportunity for inference with objects that only partially obscureだね。
たぶん、彼らがdoing thatなのは、using real imagesだとmodelがfaceを変えちゃうからだと思うよ。So that problem is removed if the initial image doesn’t show the faceなんだね。