MetaがSegment Anything Model 3を公開!画像認識に新たな波が来るか?
引用元:https://news.ycombinator.com/item?id=45982073
Metaがオープンソースに貢献し、SAM 3のようなモデルを共有してくれるのはありがたいね。この会社を嫌う理由はいくつかあるけど、こういう行動はすごく評価できるし、みんなのためになるよ。
みんな2023年にLlamaのウェイトが4chanにリークされたのを忘れたの?Metaはその後リーク停止のために削除要求を始めたよね。Metaがオープン路線を選んだのは、初期のAIへの進出が失敗したからで、それ以来他のAIを妨害しようとしてるんだ。結果は良いけど、高尚な意図のためだなんて思わない方がいいよ。
ちょっと待って。俺もMetaファンじゃないけど、あのLlamaのリークは内部からのものじゃなかったよ。Llamaは最初に研究者向けにウェイトを公開したんだ。リークは初期ユーザーの一部からで、Meta内部からじゃない。俺の記憶が正しければ、あのモデルはもともとクローズドウェイトにするつもりはなかったはずだよ。
同意!
前のコメントがHacker Newsに載ってるなんてどういうこと?
ここにいるみんな、Llamaリリースの一連の流れは追ってるでしょ。GitHubでの有名なちゃめっ気たっぷりなPR(torrentリンク付き)は、天才的なコメディだったよ。
Llamaのオープンウェイトでの単発リリースはこれで説明できるかもしれないね。でもOpenAIでさえオープンウェイトからクローズドウェイトに移行してるのに、Metaが戦略として本当にオープンウェイトに関心がなかったとしたら、どうして全てのモデルをこれほど多くのモデルファミリーにわたってオープンウェイトでリリースし続けることになるんだろう?
世の中には悪意が多すぎるから、一度くらいはMetaの行動を高尚な意図だと装ってみようよ。その方が気分がいいしね。
確かに、でも人々には疑問を呈する権利があるよね。たとえばZuckが財産の99%を寄付すると誓ったとき、あれは租税回避スキームじゃないかって指摘する人がいたでしょ。「優しくできないの?」って反論されたけど、人々には質問する権利があるし、時には質問が実際に起きている腐敗を明らかにするんだよ。
Zuckが資産の99%を寄付する理由に疑問を持つのは妥当だね。正直、Zuckは信用できるとは証明されてないから。でも同時に、彼はそれほど寄付しないこともできたわけで。99%がNPOに直接行ったわけじゃなくて、彼の財団に流れ、そこから何百万ドルも慈善団体に寄付されたけど、それは他には行かなかったはずの何百万ドルだよね。財団が数億ドルしか寄付してないのに99%寄付したと言うのは少し不誠実かな?うん、多分ね。でも数億ドルはゼロよりはましだし、それらの団体には間違いなく役立ってるよ。
ソーシャルメディア企業としてのMetaは好きじゃないけど、オープンソースへの貢献は評価せざるを得ないね。他のトップラボはどこもMetaみたいにモデルを公開してないし。
Metaだけがモデルをオープンソース化してるわけじゃないよ。Anthropic以外のトップラボはほとんどオープンウェイトモデルを持ってるし、Metaも今後はオープンソース化を慎重に進めるって言ってるから、以前の「オープンソースAIこそが道だ」ってレトリックとは変わってきてるよね。
Metaがオープンソース化してるのは善意からじゃないよ。「補完材のコモディティ化」っていう戦略で、OpenAIやAnthropicに対抗しようとしてるだけ。たまたま一般の人が得してるだけなんだ。Facebookはほんとひどい会社だし、Googleと一緒にオンライン広告を牛耳ってて、その膨大な資金をこんな脇道に投じてるんだよ。[1] https://gwern.net/complement [2] https://en.wikipedia.org/wiki/Careless_People
Facebookは好きじゃないけど、他の会社はMetaみたいにオープンにしないよね。Mark Zuckerbergはそれを包み隠さず話してたし、PRやマーケティングで飾り立てないのが変に尊敬できるんだ。OpenAIとは全然違うよ。
自分の利害と顔の見えない巨大企業の利害がたまたま一致するなら、もらえるものはもらっとくべきだよね。
モデルの学習に何年も費やした経験から言うと、推論が最終的な成果だよね。でも、データ準備が一番時間かかるんだ。Metaは昔から好きじゃないけど、ウェイトをオープンソース化してくれたことは、AI分野全体の発展に貢献してるから、それについては感謝しなきゃいけないな。
別にMetaを好きになってもいいんじゃない?ノーベル賞をあげるわけじゃないんだし。
Metaはトップ10のテック企業の中でも、一番オープンソースプログラムが成功してるよ。SAMやPyTorch、LLaMAファミリー、React、FAISS、Open Compute Projectとか、すごい数のプロジェクトがあるんだ。MetaのGitHubオーガニゼーションのスター数は、Google、Microsoft、Amazonを合わせた数よりも多いんだって。2025年には、現代AIの90%がMetaが無料でオープンソース化したものの上で動いているって言われてるし、これには感謝するしかないね。
これ、オープンソースじゃないと思うんだよね。SAMライセンスって書いてるし、多分ソースは公開されてるけど、純粋なオープンソースではないんじゃないかな。
ほんとそれ。Metaのコミュニティへの向き合い方、今めっちゃいい感じだよね。2005年頃に脆弱性を見つけて報告した時(中程度のやつね)は正直複雑な気持ちだったけど、SNSはあまりやらないけど、彼らの文化は良い方向に変わったみたいだね。
もしMetaが既存の画像や動画をちゃんと追跡して説明できるモデルを本当に作ったら、それってめちゃくちゃデカい進歩だよね。医療とか法律、監視、ソフトウェアとか、めちゃくちゃ役立つ場面がたくさんあるよ。他の競合は全然ダメだからね。
がっかりだよ。Zuckが何か無料のものを出すたびに、みんなすぐに彼とその会社が人類のガンだってことを忘れちゃうんだから。おいおい、『会社が嫌いな理由はいくつかある』なんて、全然納得いかないってば。
最初の印象だけど、このモデルめっちゃ良いよ。『ゼロショット』のテキストプロンプトでの検出、これまでの(古いゼロショット検出モデルもGeminiやQwenみたいな最近の汎用VLMも)と比べても、マジで一歩先を行ってる。人間がちょっと手伝えば、有用な教師モデルにもなるレベルだね。
前にクライミングホールド検出用にYOLOをチューニングしたんだけど(10kのラベルで訓練)、これはほとんどそのままの状態で90%くらい良いよ。小さいフットチップとかコントラスト低い木製ホールドはちょっと苦手だけど、手動アノテーションの手間がめちゃくちゃ省けそう。
10億枚の画像をラベリングするプラットフォームで働いてるんだけど、SAM 3なら作業の90%以上を自動化できるって確信してるよ。データ準備の仕方が、これまでの『人間がモデルを手伝う』じゃなくて、『モデルが人間を手伝う』に変わるね(autolabel見てみて: https://blog.roboflow.com/sam3/)。多くのユーザーが、データをキュレートするためにモデルをデプロイできるようになったってことだね、逆じゃなくて。
君、Stoktアプリかそれに似たのを作ってたんだろうね!クライミング界では間違いなく最高に確立されたアプリの一つになってるよ。
3Dメッシュジェネレーターもめちゃくちゃクールだよ: https://ai.meta.com/sam3d/ 。完璧ではないけど、オクルージョン処理(例えば、椅子に座った人を人と椅子のメッシュに分けられるとか)はすごく上手だし、めちゃくちゃ速いんだ。
めちゃくちゃすごいね。でも、3Dメッシュをエクスポートできるの?僕ができたのは動画のエクスポートだけだったんだよね。エクスポートするにはトークンとか買う必要があるのかな?
ダウンロードできなかったよ。モデルはSparc3DとかHuyunanとかと比べられるレベルに見えるけど、ダウンロードできないから何とも言えないね。でも、とにかくめちゃくちゃ速いのは確かだよ。
SAM3はここでダウンロードできるよ!
3Dはこれ→ https://github.com/facebookresearch/sam-3d-objects
ちなみに、個人的にはこのサイトで無料で試すのが一番簡単だったな。人物の匿名化に使えるか確認したかったんだ。
https://chat.vlm.run/chat/63953adb-a89a-4c85-ae8f-2d501d30a4…
生成されるモデルはGaussian Splatsだよ。だから、従来のメッシュが欲しいなら、Splatsからメッシュを作成できるツールが必要になるね。
本当に?彼らは「完全な3D形状ジオメトリ、テクスチャ、レイアウト」って言ってるよね。Splatsである可能性を排除しないけど、Splatsは単なる視覚化に使ってるだけとかはないのかな?
彼らの論文には、内部で「潜在3Dグリッド」を使ってるって書いてあったよ。それはデコーダでメッシュやGSに変換できるんだ。デモで表示されてた点の空間配置も、Gaussian Splatsとは似てなかったしね。
もっとコメントを表示(1)
親コメントの記事でも「メッシュまたはSplats」って何度も書かれてるし、君が言ったように、彼らの例はSplatsだけじゃ説明できないよね。彼らは明らかにメッシュをエクスポートできる能力を示してると思うよ。
このモデルはオープンウェイトだから、自分で実行できるよ。
これまでのモデルと同じく、私のユースケースである回路基板のフィーチャー追跡には苦労するね。ビーチのポニーみたいなものには素晴らしいけど、定型的な産業用途には本当に向いてないんだ。ちゃんとファインチューニングすればもっとうまくいくと思うけど、まだ試してないな。でも、オンラインには良い例がいくつかあるよ。
その特定のユースケースなら、DINO v3 [1] を試してみてはどうかな。それか、笑わないでほしいんだけど、Nano Banana [2] も。
[1]: https://github.com/facebookresearch/dinov3
[2]: https://imgeditor.co/
へえ、それはすごく面白いユースケースだね!その例いくつかリンクしてくれる?
特にリンクできるものはないんだけど、線画で自分で試してみたらどうかな。マンダラとか塗り絵みたいな画像でね。このモデルはエンティティ全体を捉えようとしてるんだ。モノのサブフィーチャーには興味がないんだよ。マンダラだと、シンボル全体をセグメント化したがるんだ。葉っぱの形をした一部とかはセグメント化するけど、ステンシルのような線だけをセグメント化しようとはしないんだよね。これで意味が通じるといいんだけど、ざっくりとした表現を使ってるよ。素晴らしいモデルなんだけど、私のユースケースには合わないってことだね!
LLMとVLM組み合わせれば、こんなケースでも使えるかもね。俺、回路基板で試したんだけど、これ見てよ。
https://chat.vlm.run/c/f0418b26-af20-4b3d-a873-ff954f5117af
試してくれて、共有もありがとう!うちの問題は、ベアボードの50~100ミクロンくらいの欠陥なんだ。熟練の技術者が顕微鏡でやっと見つけられるレベルで、マジで難しいよ。
学習とか修理、デバッグ、リバースエンジニアリングにすごい可能性がありそうだね。この技術、めちゃくちゃクールな使い方だよ!
一般的には「自動異常検出」って呼ばれてるやつだね。
君のケースにもっと合うモデルは見つかったの?
質問への回答だけど、SAMがSOTAだから、他のモデルは探してないんだ。自分たちでもモデルを作ってみたけど、あんまりうまくいかなかった(俺は専門家じゃないけどね)。今は古典的なコンピュータービジョンのアプローチを進めてるよ。モノクロ画像のセグメンテーションって、昔のフラッドフィルと似てるし、実際そうかもね。この素晴らしいSAMモデルは、うちのアプリには多分合わないな。
これは「クラシック」なマシンビジョンのタスクで、昔は学習じゃないアルゴリズムで解決されてきたんだ。(それのおかげで、今の電子機器の大量生産と欠陥ゼロが実現したんだよね。)市販のMVツールもいろいろあるよ。将来的にはDeep Learningベースの手法が絶対に使われるようになるだろうけど、今はクラシックな手法が主流だね。ハードウェアが安くて、電力や熱管理も楽なのがメリット。NPUが安くなってきたから最近は変わってきてるけど、機械の寿命が何十年もあるから、まだまだ時間がかかるだろうね。
これを聞いて最初に思ったのは、学習に使えるってことだね。LLMに回路がどう動くかとか、部品は何かって話せるようになったら、めちゃくちゃクールだろうな。
背景除去(俺のニッチなユースケース、子供の絵の背景除去だと—
https://breaka.club/blog/why-were-building-clubs-for-kids)では、birefnet v2の方がまだ少し良い感じだよ。SAM3は画像トレースがあんまり正確じゃなくて、子供の絵の線がはみ出てても気にしないし、鋭い角の周りでは苦戦して、切りたい白い部分まで含んじゃうみたいだ。もちろん、SAM3は画像を切り取るだけじゃなく、もっとたくさんのことができるから、かなり強力だよ。子供の絵が何を表してるか識別できるみたいだしね。これはマジですごい。AIモデルって普通写真とか大人のイラストで学習するから、子供の絵は苦手なんだ。だから、内容の識別には使えるかもね。子供たちにもっと自由に描かせて、ゲーム内で絵に合った動きを自動でつけられるかも。
SAMみたいなモデルは画像エンコーダでいろんなサイズの画像特徴を作ってて、特定のタスク(君のユースケースだとポリゴン予測とか)ならファインチューンで簡単に使えるよ。プロンプト型モデルの主なメリットは、元々こういう作業を減らすことだけど、特定の高負荷タスクがあるなら、ファインチューンした方がずっと正確で価値があるかもね!
BiRefNetでの背景除去に興味あるんだ。今利用できるモデルで一番良いと思う?他に人気だけど、そこまでじゃないオプションってあるのかな?
俺、この分野の専門家じゃないんだけど、Bria RMBG 1.4、Bria RMBG 2.0、古いBiRefNetとか、名前忘れたけど他にも試したよ。主に白い背景(紙)を消してるから、結果が一般的な背景除去とはかなり違うかもね。BiRefNet 2は、腕を腰に当てた時みたいに完全に囲まれた部分も、背景を正しく除去してくれるのがすごく上手いんだ。それだけじゃなくて、他のモデルだと過剰に除去しちゃって、子供が塗り残した白い部分とか、意図的に白く残してる目の部分まで消しちゃうことがあるんだけど、BiRefNet 2はそういうのがない。切り取った画像をゲームの世界で使うから、透過しすぎるとすごく変に見えちゃうんだよね。
SAM3はマジでクールだよ!chat.vlm.run [1]で既にインタラクティブに使えるし、もっと色々なことができるんだ。俺たちの新しいOrion [2]モデルがベースで、SAMや他のコンピュータービジョンモデルと本当に構成可能に統合できたんだ。ビデオセグメンテーションとトラッキングももうすぐリリースされるよ!
[1] https://chat.vlm.run
[2] https://vlm.run/orion
うわー、これマジで結構すごいね!同じチャットで人や犬をセグメントできたよ。
https://chat.vlm.run/chat/cba92d77-36cf-4f7e-b5ea-b703e612ea…
長距離ショットでもちゃんと動くんだ。
https://chat.vlm.run/chat/e8bd5a29-a789-40aa-ae31-a510dc6478…
平均レイテンシーが4秒だと、これってリアルタイムビデオには使えないってことだよね?(追記:この4秒って、このスレッドのroboflow.comリンクから拾ったんだ)
その数字をどこで見たか知らないけど、それって単純に計算資源を増やせば解決する問題じゃない?ブログ記事には「この優れたパフォーマンスは高速な推論で実現される — SAM 3はH200 GPUで100以上のオブジェクトを検出する場合、単一画像で30ミリ秒で動作する」って書いてあったよ。
最初のSAMモデルだと、入力画像をエンコードするのに約2秒(一般的なGPUで)かかってたけど、その後その画像で検出する処理はミリ秒単位だったんだ。ブログ記事はこれについてあまり明確じゃないけど、俺の推測だと30ミリ秒ってのはエンコーダーと検出器を100回動かした時間じゃないかなって思ってる。
たとえ4秒かかったとしても、フレームを並列処理すれば「リアルタイム」に見せられるよ。出力の遅延は4秒になるけどね(もし120か240のGPUクラスターを用意して、4秒分のフレームを並列で処理できるならだけど)。30msで1枚の画像なら、ビデオストリームで60fps出すにはGPUが2枚で十分だよ。
このモデル、めちゃくちゃデカくて重いんだ。リアルタイムで使うのは難しいと思うな。でも、すごく柔軟で正確だから、軽量なCNNの教師モデルとして最高だよ。ここに本当の価値があるんだ。数字なんてどうでもいい、多くのエッジコンピューティング向けCNNの入力には重すぎるビジュアルトランスフォーマーエンコーダじゃあ、うまくいかないよ。
RoboflowのサーバーレスAPIだと、SAM3の画像とテキストプロンプトでp50遅延が300〜400msだよ。RoboflowでSAM3ブロックだけのワークフローを作って、入力パラメータをモデルに渡すようにすれば、簡単にHTTPエンドポイントとして使えるんだ。JSONレスポンスだけ欲しいなら可視化ブロックを削除すれば、ちょっと速くてペイロードも小さくなるよ。
社内では約200msのHTTPラウンドトリップで動いてるんだけど、ユーザー向けのAPIは、GCPで確保できる以上のGPU容量がある別のクラスターにプロキシしてるせいで、追加の遅延があるんだ。
俺たちRoboflowは、このモデルを数週間先行して使ってたんだけど、これが本当に、本当にすごいんだ。これってコンピュータービジョンにとって歴史的な瞬間になる気がするよ。ビジョン版の“GPTモーメント”として歴史に残る可能性が十分あると思うね。
短期的にこのモデルが革新的になるのは、迅速なプロトタイピングと蒸留の2つの分野だと思う。
2年前、俺たちはAutodistill[1]っていうオープンソースフレームワークをリリースしたんだ。これは大規模なファウンデーションモデルを使って、小さなリアルタイムモデルの訓練データを作るためのもの。アイデアは正しかったと確信してるんだけど、当時はまだ早すぎたんだ。蒸留する価値のあるほど良い大規模モデルがなかったからね。SAM3がようやくそのモデル(そして今日からAutodistillで利用可能になるよ)。
俺たちはSAM3に大きな賭けをしていて、Roboflowのビルドからデプロイまでの全パイプラインに、不可欠な部分として組み込んだんだ[2]。例えば、SAM3の世界でコンピュータービジョンパイプラインを再構築した「Rapid」[3]っていう新しい製品もそう。ラベルなし動画からファインチューニングされたリアルタイムセグメンテーションモデルまで、最小限の人手で数分でできるなんて、本当に魔法みたいだよ(そして、俺たちは先週、新しいSOTAリアルタイムセグメンテーションモデル[4]のリリースを急いだんだ。だって、それが大規模でパワフルなSAM3の完璧な軽量な補完になるからね)。
モデルを他のVLMと比較できるプレイグラウンド[5]も用意してるよ。
[1] https://github.com/autodistill/autodistill
[2] https://blog.roboflow.com/sam3/
[3] https://rapid.roboflow.com
[4] https://github.com/roboflow/rf-detr
[5] https://playground.roboflow.com
SAM3は、小さいセグメンテーションモデルを訓練する時に蒸留元として使うのに良いモデルだろうけど、DINOv2の方がいろんなコンピュータービジョンタスクの蒸留元として、より良い大規模ファウンデーションモデルの例じゃない?セグメンテーションや深度推定の出発点として使われてるのを見たことあるよ。もしかしたら、v3もすぐ出るかな?
https://dinov2.metademolab.com/
DINOv3は今年の初めに出たよ: https://ai.meta.com/dinov3/
彼らがDINOv3でやった研究がSAM3に入っているかは確信ないな。論文をざっと読んだだけだけど、特に言及は見当たらないよ。
もっとコメントを表示(2)
俺たちのRF-DETRモデルのバックボーンにはDINOv2を使ったんだ。これはリアルタイム物体検出とセグメンテーションでSOTAだよ: https://github.com/roboflow/rf-detr
SAM3を蒸留するのに最適なターゲットになるね。
“SAM3を蒸留するのに最適なターゲット”ってどういう意味?事前学習済みのDINOモデルをスタート地点にして、SAM3で訓練データを生成してDINOをセグメンテーションモデルにするってこと?それともDINOの重みを固定して、最後に小さなアダプターを追加してその出力をセグメンテーションに変えるってこと?
彼らのサンプルから理解しようとしてたんだけど、画像内のいろんな“もの”をどうやって分解してるの?プロンプトごとに個別に実行してるだけ?
モデルはバッチ推論をサポートしてるから、すべてのプロンプトをモデルに送って、結果をパースしてるよ。
リンクありがとう!rf-detrをブラウザで背景除去に使えるかドキュメント見ても分からなかったんだよね。
RF-DETRをサポートするJS SDKがあるよ: https://docs.roboflow.com/deploy/sdks/web-browser
このモデルはすごいのに、またまたAIモデルの発表で誤解を招くグラフが出てきたね。SA-Co Goldのグラフは特にひどいから、僕の初級統計コースの悪いグラフ例がまた増えちゃったよ…
僕のユースケースでは医療画像の3Dセグメンテーションが全て。SAM 2も試したけど2Dスライスアプローチがメインで、現在のゴールドスタンダードのnn-unet[1]には勝てないと思うな。
[1. https://github.com/MIC-DKFZ/nnUNet]
U-netは素晴らしいアーキテクチャで、256x256から実際の画像へセグメンテーションマスクをスケールアップする点では、まだSAMを凌駕するみたい。U-netはビジュアルトランスフォーマーによる大規模な内部特徴サイズから恩恵を受けているとも思わないけど、SAMがプロンプトに依存しない画像エンコーディングを作れる能力には感銘を受けたよ。このトレーニングアプローチから、より価値あるエンコーディングのためにU-netにも活かせるヒントがあるかもね。
Unetが過去10年間、医療画像で一番使われてきたモデルってのは同意。LLMとVLMの組み合わせが医療画像の進歩になるかもね。ここで試したらめちゃくちゃうまくいったよ。https://chat.vlm.run/c/e062aa6d-41bb-4fc2-b3e4-7e70b45562cf
僕も同じだよ。ユースケースは超音波セグメンテーション。これらのモデルは医療画像だと、やっぱり苦戦するね。
体型を3Dに変換するの、うまくいくみたいだけど、画像しかくれなくてエクスポートしたり使う方法が見当たらないんだよね。回転はできるけどそれだけ。何か機能を見落としてるのかな?SafariとFirefoxで試したけどダメだった。
開発者ツールを開けば、blobをダウンロードできるよ。それは.plyファイルだから、どのsplatビューアでも見られるよ。
あんまり詳しく見てないけど、これが意図的なものだとしても驚かないな。Meta/Facebookのプロジェクトの多くはオープンライセンスじゃないから、ウェブデモ止まりで製品化されないことが多いんだよね。彼らの音声クローンモデルもそうだったし。
SAMモデルは本当に素晴らしいよ。VideoVanish (https://github.com/calledit/VideoVanish)っていう動画編集GUIを作る時に最新版を使ったんだけど、SAM 2でもう完璧に近かったからSAM 3の必要性はあまり感じなかったな。入力なしでのセグメンテーションがもっと良くなるくらいかな。
でも、新しいテキストプロンプト入力は超便利だね、自動化しやすそう。
promisingなツールだね。readmeにパフォーマンスセクションを加えると、どんなGPUでどれくらいの速度か目安になっていいと思う。ウォーターマークみたいな静的なものを消す用途で似たものを検討中なんだけど、diffueraserのページを見ると720pで1fps未満って、めちゃくちゃ遅いよね。
ffmpeg blurとかinpaintingで色々試したけど、フル動画のinpaintingはまだ実用的な速度じゃないんだ。品質を犠牲にしてもパフォーマンスを上げる方法はないのかな?自動化とか、低解像度で処理してAIアップスケールするとか考えてるよ。
いい点だね、READMEに追加するよ。マスキングはほぼリアルタイムで速いんだけど、インフィルはリアルタイムじゃないんだ。3090 GTXで860pだと約0.8 FPSだよ。もっと速いモデルもあるけど、現時点ではコンシューマーGPUで動く最高の画質を出すモデルはないんだ。VideoVanishはプロや趣味の動画編集向けで、手動インペイントに何日もかける手間を省くのが目的だよ。
低解像度でインフィルするオプションもあって、画質と速度をトレードオフできるよ。
動画のロトスコープ、グリーンスクリーン、マスクがもっと手軽にできるようになるのが待ち遠しいな。Runway MLも試したけど、ちょっと物足りなかったし、ウェブUIでの修正も問題があったんだ。
髪の毛とか透明・半透明なものにはどういう風に機能するのか気になるな。きっと最高ではないんだろうけど、どこにも触れられてないよね?直線とかベクトルじゃなくて、アルファとかで処理されるのかな?
透明なガラスマグで試してみたけど、かなり良い感じだったよ。他のモデルよりはマシだね: https://i.imgur.com/OBfx9JY.png
もし面白い結果を見つけたら教えてね - https://playground.roboflow.com
DaVinci Resolveにはもうこの機能があるはずだよ、追跡もできるし。無料版で使えるかは知らないけどね。
この5年くらいコンピュータビジョンは進歩が遅い気がするな。まだ人間のパフォーマンスには及ばない。言語理解(LLMは人間レベルに達した)とは対照的だよ。ファウンデーションモデルは物体セグメンテーションで苦戦するし、科学画像みたいなドメインには汎用性がない。何が足りないんだろう?動画データは十分あるし、計算能力?タスクが情報不足?3Dでのエージェンシーが必要?
専門家じゃないけど、直感的に世界モデルが足りないと思う。自分の視覚を意識すると、形を認識できなかった時に、追加の知識や文脈、推測を使って何であるかを導き出すことが多いんだ。例えば、リビングの写真を撮ると、見慣れない人には識別できないものが、家族には簡単にわかる。夜の運転で暗い影が見えた時、地元の人なら「あの畑には馬がいる」とか「警告標識を見た」とかで何かわかる。
人は意識してないけど、目からの情報だけだとすぐに不十分になることに気づくよ。