驚愕のAI動画Veo 3とImagen 4が登場!映画制作を変えるFlowとは
引用元:https://news.ycombinator.com/item?id=44044043
Redditで見たVeo 3のデモ動画,いろんなキャラが違う状況やアクセントで話してんのが,マジで今まで見た中で一番ヤバいAIデモの一つだわ.リンクこれね:https://www.reddit.com/r/ChatGPT/comments/1krmsns/wtf_ai_vid… Created by Ari Kuschnir
マジかよ.AIの変化はテキストとか画像と同じ流れだな.最初はヘンテコだったのが,どんどんまともになってきてる.特に動画の進化はヤバすぎ.数ヶ月前じゃ絶対AIだって気づけなかったレベル.創造性が次の進化のポイントかな.この短期間での変化はマジでぶっ飛んでるわ.
Redditで見つけたもう一つの超重要なデモ動画はこれね[0].これは襲撃から銃撃戦に至る一連のアクションシーンを集めたやつ.個々のシーンはだいたい大丈夫だけど,繋がりの流れがめちゃくちゃなんだ.AI動画の特徴的な一貫性の問題(部屋のサイズが変わったり,車から2回降りたり)がいくつもあるね.アクションシーンになると完全に破綻.“警官”同士が撃ち合う面白い間違いもあったな.https://www.reddit.com/r/ChatGPT/comments/1kru6jb/this_video…
昨日の夜,彼女に「なんで同じような味気ない動画ばっか何回も見てんの?」って聞かれたんだ.彼女が来てちょっと見てさ,”うーん,なんでこいつこんなにハマってんだ?まあ,いっか…”みたいな,ちょっと困ったような笑い方して,そのまま行っちゃった.俺が呆然とするのがやっと収まってから,あれAIだって言ったんだ.いや,特撮みたいなAIじゃなくて,完全に全部AIだって.
GoogleのAI studioでVEO使ってみたことあるならわかると思うけど,開始フレーム画像と終了フレーム画像をアップロードできるんだ,これクールだよね.でも,画像の中に人を入れちゃダメなんだ,カートゥーンの人間の描写でさえダメ.これ,使い道の可能性をかなり狭めてる.
AIが一線を超えたみたいだね.少なくとも,一人でも自宅の地下室からVeo 3を使って長編ドキュメンタリーを作れるようになる.カメラ撮影なんていらなくなるんだ.ヤバいね.これ聞いて思い出したのが,40年前のPixarのアニメのランプの動画だよ.あれから5年以内にToy Storyが出てきて,アニメ映画の作り方を全部変えちゃったんだ.今の状況は,リアルな映画でも同じことをやろうとしてるように見えるな.
もし完全にAIで生成された画像なら,一体何をドキュメンタリーにするんだ?
いい指摘だね,歴史関連のものなんかどうかな?Ken burnsは写真で似たようなことやってる.アニメーションがドキュメンタリーで使われてるのも見たことあるよ.だから代わりにAIを使うんだ.モキュメンタリー(擬似ドキュメンタリー)はどう?Spinal Tapが思い浮かぶね.
今言っておくわ.誰かがAIを使って”AI Killed the Video Star”の動画を作るだろうね.多分,これ[1]とか他の傑作を作ったのと同じヤツだろうな.[1]https://www.youtube.com/watch?v=EICWYazyqu4
”Video Killed The YTMND Star”のリンクを貼るかと思ったわー,あれ見るとかなりノスタルジー感じるんだよね:https://www.youtube.com/watch?v=D6D9arrHiLE
マジそれな。YTMNDって12年も前にTikTokとかVineのフォーマットを先取りしてたんだぜ。もし”モバイルにピボット”して、もっと簡単に使える作成ツールを追加してたら、まだ関連性保てたかもね。
いくつかテストしてみたけど、Imagen 4より俺の比較チャートでスコア高くねえわ。プロンプト遵守精度は約60%って感じ。詳細はこれ見てな。https://genai-showdown.specr.net
なんで成功したモデルは一回で勝利宣言して、失敗したモデルは何回も試すことにしたの? モデルが『正しくできるか』測ろうとしてんの? それとも『頻繁に正しくできるか』? 成功率の方が良い指標だと思うけどな。少なくとも試行回数を固定して、成功率のしきい値でモデルの成功を判断するとかさ。
OpenAI 4oの”The Yarrctic Circle”のwinning image、実はカットラス持ってねえんだよな。見た目はすごくいいんだけど、根本的な側面(パースがおかしいとか、解剖学がめちゃくちゃで片足が150%長いとか…)は全部間違ってんの。既存モデルの限界を知るにはすごく面白いリソースだよ。
新しいブレークスルーじゃなくて、ほんのわずかな改善を示してるだけだね。iPhone 1はパラダイムシフトだったけど、iPhone 10はiPhone 9をいじっただけみたいなもん。AI楽観主義者として、もうR&Dで収穫逓減が見られてるって知ったら残念だな。
iPhone 9は存在しないし、iPhone Xはデザインと機能でめちゃくちゃデカいパラダイムシフトだったぞ。OLED画面を導入したり、FaceIDを可能にしたIRカメラとか、Portrait modeの第一世代とかさ。俺みたいな開発者にも、高価なプロ機材が必要だった顔のモーキャプアプリを作れるようにしてくれたり、演劇用のライブ顔モーキャプエフェクトを作るのを可能にしてくれたり、ってよく知ってるんだ。
…こんなにキツく言ってごめん。でもお前の例、テクノロジーが停滞してるって言いたかったのに、製品ライフサイクルの後半でのブレークスルーの技術革新の例そのものなんだよ。
正直言って、OLED画面とかIRカメラはパラダイムシフトとは言えねえな。少なくとも、スマホ無しからiPhone 1になったくらいの変化とは比べもんにならねえ。
iPhoneの前にもスマホはあったしな。『ただのタッチスクリーン』って違いだけだ、って説明することもできるんじゃね?
もっと難しい例な。・ワインが縁まで満タンに入ってるワイングラス(つまり半分だけじゃない)
・V(10時と2時の位置の針)じゃない腕時計
・9ステップのIKEA棚組み立て説明図
・どんな体操とかスポーツアクロでも
https://icon.comみたいな会社って、既存のSOTAのプロンプト遵守精度がこんなに低いのなら、どうやって画像生成やってんの?
結果が失敗と判断する前に、何回試行するかってどうやって決めてるの?
iPhone 1には”タッチスクリーン、GPS、カメラ、iPod、ネット接続機能があったんだ。そのソフトの能力はスマホ業界のターニングポイントだったらしいよ”って(適当な情報源)。もしそれがターニングポイントじゃなかったって疑うなら、かなり強い根拠を出さないとね。
Google Flowは動画編集のUXとしてすごいけど、Imagen 4は画像生成の他のモデルと比べて特に目立たないね。それより先週こっそり出た全然注目されてないTencent Hunyuan Image 2.0がすごすぎるんだ。ミリ秒で生成、リアルタイム描画、視覚的指示、プロンプト忠実度がケタ違い。こんなモデル他にないよ。gpt-image-1とこれがあれば完璧。Tencentさん、お願いだからオープンソースにして!
どうやってImagen 4を使ってるってわかるの?Imagen 3じゃなくて?Geminiはどのモデル使ってるか教えてくれないみたいだし。Vertex AIを使ってるの?
「~を表示しない」っていうテストをする理由は何?現実でそんな要求してる人見たことないよ。みんな自分が本当に欲しいものを指定するでしょ。「10:10じゃない時計」じゃなくて「3:25を示してる時計」って頼むみたいにさ。面白いエッジケースだと思うけど、実際には関係あるの?
客観的な評価は難しいけど良い指摘だね。サイトにFAQを追加すべきかな。テストは純粋にPASS/FAILだよ。失敗ってのは、プロンプト通りの画像が「一度も」できなかったって意味。Midjourney 7は64回試してもダメだった。成功モデルの成功率も記録するアイデアはいいね。
Imagenと4oを自分で比べてみたよ。Imagenは指示に従うけど、4oはダメな時が多いけどキレイな画像。どっちが良いか難しいけど、使い捨ての画像に人はお金を出さないと思う。教育用イラストみたいな目的のためのツールにはお金を出すかも。そういうのは指示に正確に従えないとね。
モデル名の右に紫でリストされてるよ。
余談だけどね。ピスヘルメットであることと、スパイクが付いてることは、かなり無関係(直交)だと思うんだ。スパイク付きでもピスヘルメットじゃないヘルメットはたくさんあるし、ピスヘルメットでもスパイクがないのもたくさんある。これがテスト結果に影響するかは分からないけど、つい口出ししたくなっちゃった!
なるほどね。ただ、1回でPASSになったモデルと、5回でFAILになったモデルがいたのを見て、頭の中で統計的なアラートが鳴ったんだ。もし両方のモデルの成功率が5%だったらどうなる?僕たちのモデルの評価が正しいって、どれくらい自信持って言えるんだろう?面白い問題だね。そういえば、サイトかっこいいよ!共有ありがとう。
もっとコメントを表示(1)
広告で画像作る人は、プロンプトにそこまで忠実じゃなくていいんだろね.製品写真貼る背景とか.前はストック画像使ってたようなもん.あと”0〜99%完成”ってのは、出来が安定しないのかもねって感じ.
”Not the Bees”の優勝作品の手、ドライバーの手っぽく全然ないじゃん.あれを合格ってのはナシだな.
みんなiMessageのmemojiとかカスタマイズするのに、デジタルのステッカーパックにお金払ってるじゃん.それでどれだけ儲かるかはわかんないけど、Midjourneyみたいな画像生成サービスは儲かってるみたいだよ.
すごいショーケースだね!説明も面白い.これに似てるサイト他にある?
彼は,何回で止めるか(試行回数)をどう決めたか聞いてるんだと思うよ,何回で止まったかじゃなくてね.なんで成功は64回,失敗は5回で判断したかっていうのは,最初の5回くらい試してみて,ランダムでいけそうか著者が感じたかってだけだと思う.つまり,最終的な採点みたいに,結構主観的なんじゃないかな.
そうそう,”Hippity Hop”はSpace Hopperのことだよ!Wikipediaにもそう書いてあるしね:https://en.wikipedia.org/wiki/Space_hopper
物の名前の呼び方とか使われる頻度って,画像生成にどれくらい影響すんだろ?多分関係してると思うんだよね,学習データにいっぱい出てくる言葉の方が,良い画像になりやすいんじゃないかって.
> 面白い極端な例だけど,実際どう?
in practiceな.(細かいこと言ってるわけじゃないよ)画像で間違いって目立つじゃん.だから,画像作る時はネガティブプロンプトが超重要.人間のデザイナーとやる時も, exactly何が欲しいか分かんなくても,コレは違うって分かるっしょ.”それはナシ”ってこと.
Imagen 3使ってます,じゃなくてImagen 4使ってます,って言いたいんでしょ…みたいな?
記事のAI動画とは関係ないけど、iPhoneの話ね。ipodをmp3と解釈すると、iPhone前のケータイにも色々機能はあったし、むしろソフトは劣ってた。
iPhoneが革新的だったのは、指操作に対応した静電容量式タッチ画面がほぼ全てだと思うんだ。ペンの方が細かい操作は得意だったけど、iPhoneでデバイスが“作る”より“消費する”ものになったのが新しい考え方だった。
良いモバイルプランとのセット販売も当時珍しくて良かったね。
ついにプロ向けツール(Google, Runway)がオープンソース(wan, hunyuan)を大きく引き離し始めた感じだね。一番の差は編集ツールにあると思うんだ。動きとか方向、カット、音声結合なんかを指示できる能力が違う。
大手は代理店やハリウッド用途を狙ってるのが明確。いつこれが当たり前になるか楽しみだけど、まだ1〜2世代先かな。
コメントで言ってたwanとhunyuanについて、Tencent Hunyuanチームがすごいの開発してるよ。
Hunyuan Image 2.0が発表されたんだけど、マジで驚き。ミリ秒遅延で超高品質なtext-to-image/image-to-imageができて、Kreaみたいなリアルタイム描画アプリまで作れたらしい。
残念ながらクローズドソースみたい。
Hunyuan VideoはWanと同じだけど、WanにはVACEっていうマルチモーダル制御・編集レイヤーが最近追加されたんだ。Comfyの人たちがVACEとWanで盛り上がってるよ。
オープンソースは不便でもプロの現場ではまだ大事な強みがあると思う。ControlNetみたいに生成プロセスに手を入れたり、カスタムLoRAを使えたりする点だよ。
あと、ローカル生成ならプラットフォームの検閲に制限されない。
Comfy UIは最初は難しいけど、コントロールできない商用ツールは短期的にはプロじゃなく小規模制作で使われるんじゃないかな。
これは単に便利なだけじゃないと思うんだ。
14Bみたいな小規模な動画モデルじゃ、こういう結果は出ないからね。ComfyUIで色々いじれる方がずっと良いんだけど、オープンモデルはもう商用モデルと競争できないレベルだよ。コーディングで32BのLLMがGemini 2.5 Proと張り合えないのと同じ。
それに、少なくともコーディングならLLMの出力は簡単に編集できるけどね…。
14B動画モデルじゃ無理って話だけど、基盤モデルはもう消費者向けハードウェアの性能を超え始めてるよね。
NvidiaがGoogleのデータセンターTPUに先んじたいなら、エッジGPUコンピューティングを優先すべきだよ。
全部Googleのデータセンターへのシンクライアントになる未来もある。Nvidiaはそれを阻止するためにできること全部すべきだね。
君の投稿、Nvidiaが主に消費者向けグラフィックカード作ってるみたいに聞こえるの変だね。
最後にチェックした時、データセンターやってるみんなからのH100s/GB100sの需要を満たすのに全然足りてなかったんだよ。それに、最新の消費者向けハードウェアは「ペーパーローンチ」って何度も言われてる。おそらく、価格や利益率を考えると、消費者向けハードウェアは優先されてないからだろうね。
あのコメント、Nvidiaは特定の種類の消費者向け/プロシューマー向けハードウェアを優先すべきだって意味で読んだんだけど。
H100sを家で使ってる人なんていないし、ほとんどの動画会社も使ってないよ。だから彼らにとっての選択肢は、Googleから”レンタル”するか、ほとんど手に入らないNvidiaハードウェアに大金かけて投資するかだよね?レンタルの方が初期費用は安いし、今すぐ手に入る。
(おそらく)説明ありがとうね。でも、GoogleがNvidiaの唯一の顧客じゃない限り、Nvidiaが気にする理由ある?
全部Googleのデータセンターのシンクライアントになる未来について、Nvidiaはそれを防ぐべきって意見があるけど、メインフレームみたいに流行り廃りのサイクルだよ。技術トレンドはメインフレームからPC、ウェブ、スマホ、クラウドAIと来て、次は個人ロボットやレンタル群かも?
Control netとかはAPIで提供できるけど、オープンソースの本質的な利点はプライベートに学習したり推論を実行したりできることなんだ。
>代理店とかHollywoodでの使い道だって言うけど、広告用だよ。
個人的には誤解だと思うな。ソーシャルメディア広告は”サチュレーション”といって、同じクリエイティブを何度も見せる戦略が主流なんだ。対象に100回以上見せるには、ほぼ同じものが必要。これって、AIで無制限に個別化クリエイティブを作れるって利点とは真逆の考え方だよね。
オープンソースが既に競争できてるってのは見てきたけど、これはみんなが予想してたよりもずっと大きいことだよね。だってオープンソースなのに巨大なモデルを動かすなんて?
でもこれは、時間と共にオープンソースが今の商用提供品と同じくらい良くなるってことなんだ。ハードウェアはどんどん安くなるし、研究はオープンか遅れて公開されるからね。
誰か数秒より長い動画を作るっていう難問を解決した人いる?誰もこの問題に進展がないみたいだね。これが解決されない限り、これはほぼ無価値だよ。
しばらくそう思ってたんだよ。でもほとんどの長い動画が6秒ショットで構成されてるって指摘されて、考えが変わったんだ。
ショットごとに長い動画を作るっていうのは、ショット間の整合性が取れてる限り、ある意味納得できるよ。
ショットあたり6秒に制限されたら、できることがかなり狭まっちゃうね。平均がそうでも、それより長いショットはたくさんあるから。
それに、ショット間の整合性についても良い点を挙げてるね。それはそんなに難しい問題じゃないみたいだけど、それでも大きな問題だよ。
普通の人が長いショットを使わなくても気にしないよ。最高の映画、Children of menとか1917はすごく長いショットを使ってるんだ。
AI動画生成が5〜10秒のしょぼいショットから抜け出せない限り、主要な批評家から評価されるようなAI映画や関連作品は出てこないだろうね。
こういうツールって、たぶん推論にかかる時間が全然違うと思うんだよね。大手なら計算リソースに(赤字覚悟で)もっと金かけられるだろうし。まあ、あくまで推測だけどさ。
いやいや、人間には”自然な”汎用知能があるんだし、どんな作業でもエキスパートと初心者には歴然とした差があるじゃん。
インディー映画みたいに、品質より”一貫性”が大事なんだよね。AI動画は個々のクリップは良いけど、つなげて映画みたいな体験を作るのはまだ難しい。監督の演出みたいな”赤い糸”がないと。音声主導の短いもの(タイトルとか)なら使えるかもだけど、Hollywoodは全然心配いらないよ。ビジュアルアーティストは品質にうるさいし、フィルムの粒子や24pみたいに、わざと不完全さを求めることもあるんだから。
YouTubeのNeuralVizってチャンネル見てみたら?登録者18万人もいるんだぜ。AI動画ツールだけで”entire cinematic universe”をまるまる作ってるんだ。しかもここ数年で見た中でダントツに面白いショーだよ。だから”個々のクリップを超えてエンゲージするのは長い間無理”って主張は間違い。もうやってる人たちいるから。https://www.youtube.com/@NeuralViz
もっとコメントを表示(2)
へー、このチャンネル初めて見たけど、成功してるのは技術の限界を”逆手に取ってる”からだね。番組のフォーマットがほとんどクリップベース(街頭インタビューとかニュース番組とか)だし、明らかにジョークはユーモアのセンスがある人が書いてる。
これが、言ってる通り、AIを使って人々が共感できるキャラクターやストーリーをうまく作ってる例だってことは否定しないよ。ただ、成功してるのはやっぱりクリエイティブな人間の才能とセンスのおかげなんだなーって感じ。
”Lurking, Lifting, Licking”はウケたね。でもこれって、良いものが情報過多で見過ごされる問題も示してると思うんだ。選択肢が多いと、人は結局McDonaldsとかFriendsとかDisneyのリメイクみたいな、慣れた人気のあるものに戻っちゃう傾向があるの、なんか悲しいよね。
GenAIはあくまで”ツール”だってことを見過ごしてる人が多いよね。良いものを作るには、AIを使ってもスキルと時間が必要って事実を無視してる。アーティストがAIツールに取って代わられるんじゃなくて、既にIKEAみたいな大量生産品に置き換えられてたんだ。新しいツールを拒否するアーティストは、写真家が画家を置き換えたみたいに、受け入れるアーティストに取って代わられるだろうね。
”アーティストが、俺がiPhoneで使ってるAIツールに取って代わられることはないよ”だって?いや、もうとっくになってるって。https://societyofauthors.org/2024/11/soa-survey-reveals-a…
アーティストは置き換えられないって主張が全然わかんないな。俺なんて、必要なアートはもう自分でAI使って作っちゃって、外注するのやめたもん。
YouTubeのDor Brothersもさ、AI使ってめっちゃ面白いスタイリッシュなMV作ってるんだよね。AIの限界をうまく逆に利用してるっぽいよ。
これ何も映画全部に使う必要ないんだよ。特定の予算じゃ撮影難しいとか無理なシーンを1、2個作るだけで映画のクオリティ上げられるし。例えばCGIの代わりに数秒の古代都市のシーン作ってフェイクのパンで引き伸ばすとか。あとコミュニケーションツールとしても使えるよね。”ライブ”なストーリーボード作ってロケハンとか立ち位置決めとか、俳優へのメモ代わりにしたり。
あのストーリーボードのアイデア、マジでデカいよね。デイリー(日々の撮影結果確認)が逆方向に行くのを想像してみてよ、「こうしたい」ってイメージをまず見せるとか。
そうなんだよな、大学の課題でアマチュアの短編作った時、絵が全く描けないからストーリーボードが一番大変だったんだよね。頭の中のショットのアイデアを紙に落とし込むのがマジで苦痛で。言葉で視覚的なアイデアを表現できるのが、このAIブームの一番すごいところの一つだと思うわ。テキストとかコードとかはまあ、どうでもいいけど。
もう良いコンテンツなんて見きれないほどあるじゃん。アートの力と流通の力を切り離すなんて無理だし。世界の最大級の文化の配信者であるGoogleは、誰もが必要としてない問題(AIビデオ)に力入れててさ、アートの世界の皆が本当に困ってる問題には手をつけてない。理由は単純、Googleがこの分野(アート/流通の問題解決)が下手だから。
AIビデオはHollywoodにとって、写真が絵画にとってそうだったようなものかもね。写真って”絵画だけどもっと良い”んじゃなくて、別のものだったじゃん。AIネイティブのビデオも、よくあるHollywoodの三幕構成とは違うかもしれない。でも、もしAIビデオが十分な視聴者をHollywoodから奪ったら、結局Hollywoodは滅びちゃうかもね。
前の人の議論、矛盾してると思うんだけど。絵画は写真で滅びなかったじゃん。写真は写実的な描写の必要性をなくしたから、絵画の抽象的とか創造的な側面を増やして、新しいスタイルを生み出したんだよ。まあ、私自身は写実的な絵画スタイルも大好きだけどさ、あれは一瞬を捉えるのとは別の目的を果たしてるんだよ。
専門家じゃないから間違ってるかもだけど。でも僕の印象では、Pictorialist photographyは50年間絵画を真似してたんだ。
写真が”photography native”な芸術形式として確立したのは、Stieglitzとかが出てきた1905年頃から。
その頃には、Cubismみたいな非写実的な絵画スタイルはもう絵画の力を吸い尽くしてた。Duchampの1917年の小便器がとどめを刺したと言えるかもね。
今、絵画は昔の面影もない。世間の関心もオークション価格もそれを反映してる。
美術館もたまに抽象画展やるけど、人気ないから空いてる。街で好きな画派聞いたら、たぶんみんな100年以上前、もしかしたら数百年前の名前を言うよ。
1917年より前の絵画と後の絵画のオークション価格比べてみて。
DaliとかWarholみたいなちょっと有名なポップアーティストとか、Pollockみたいなミーム画家、BasquiatとかJohnsみたいな流行りの政治的な画家は別として、古い絵の方が圧倒的に需要があるんだ。
絵画は昔は議論をリードしてたけど、今は誰も気にしてないね。
>街で好きな画派聞いたらたぶんみんな100年以上前の名前を言うよ
たぶんあなたは一般人の美術鑑賞レベルを見くびってるね。平均的な答えはたぶん何も知らないって感じじゃない?
DaliとかWarholを”middlebrow”って呼んでるのはなんか変だけど、他は合ってると思うよ。
>絵画は写真で死んだわけじゃない。
商業肖像画はかなり早く消えたけどね。
Hollywoodとかの”本物の”映画って、動画コンテンツ全体のたった1パーセントみたいなもんだけどね。
YouTubeもトップ1パーセントがいいコンテンツで、あとはひどいのが山ほどある。
AIツールはどんなコンテンツにも使われるし、もうすでに”クソの山”にどんどん追加されてるよ。
ごめん、でもHollywoodとかインディーズ映画のほとんどってそんなに良くないと思うんだ。
このコメントとは完全に逆の意見だね。
役者を雇う必要とかに縛られないで、個人がAI映画を作るのをもっと見たいな。
悪いけど、AIで作られた動画って見てられないわ。
今ですごい出来でも、なんか本物っぽく感じないんだ。
アーティスト兼デザイナー(AI経験は正直限定的だけど)として、AIに足りないのは形式的な記述のサポートだと思うんだ。
’dog wearing a hat’みたいな内容はだいたい解決してるけど、’global contrast’とか’negative shape’、’overlap’、’saturation contrast’とかは、僕が試したAIモデルは首をひねっちゃう。
Veoがカメラの動きをサポートするのは好きだけど、’in-camera motion’と’camera motion’、それと’global motion’(雨とか雪の動き)の違いをちゃんと認識できるのかな?
Every Frame a Paintingへの義務的なリンクね。黒澤のモーションについて話してるやつ。
問題は、アーティスト(アニメーター、映画制作者とか)が、こういう要素を効果的に形式化したり、統一して名前を付けたりするのをうまくやってこなかったってことなんだよね。