ジョン・カーマック Upper Bound 2025 講演!
引用元:https://news.ycombinator.com/item?id=44070042
Carmackの文章はエンジニア向けで、思考プロセスとか失敗も詳しくて助かるね。研究のリアルタイム重視は疑問かな。オンライン学習をリアルタイムでやるみたいだけど、Bitter Lessonとか見ると、今リアルタイムで可能なcomputeレベルを超えた解決策もあると思うんだ。人間の脳がゲーム解く唯一の例だけど、その能力も不明だし。リアルタイム要件を緩めて学習効率に集中する方が良くない?これは素朴な疑問ね、専門家じゃないけど。jumping spidersがneurons 10万個で問題解く例もあるし、何が出来るか分からないけどさ。
AGIってほんとに必要なのかな。それより専門特化AIsの方が大事じゃない?そういうのがいくつか出てくれば、社会に結構な影響を与えると思うよ。それはそう遠くないかもね。
ゲームはフィードバックとかあるからAIでも解きやすいんだよね。「Joystick拾う」のが難しいって言うならそうだけど、なんでロボットに人間用のインターフェースを使わせる必要があるの?それって「馬なし馬車」みたいだよ。サルとイルカでJoystickの成績比べても知能とは関係ないでしょ。ロボットにR2D2みたいなポートでゲームに直接繋がせれば、問題はもっと早く解決できると思うよ。
きっと90年代にCarmackがやってた荒削りな仕事に対して、他の人たちも今のAIみたいなこと言ってたかもね。彼の強みは「少ないもので多くを成し遂げる」こと(idとかOculus、AA初期)だったと思う。大きな組織や確立された技術だと成果が落ちる気がする。自分もリアルタイム系の仕事してるから、今のAIブームの「計算力増やせ」アプローチに彼は軽蔑を感じてるんじゃないかな。彼がLLMのために投資家から金集めなくてよかった。最高のシナリオは、idみたいに相性の良い仲間と組んで、最先端技術を一般に広める方法を見つけることだと思うよ。
90年代のCarmackのことね。SGIとかPixarが3Dグラフィックス研究してて、専用ハードのゲーム機(Sega SaturnとかSony Playstation)も出た。Carmackがすごかったのは、普通の386 chipみたいな汎用ハードで3D(実際はWolfenstein 3d, Doomは2.5Dだけど)ゲームを動かしたこと。浮動小数点苦手なチップだから整数で全部やる方法とか編み出したんだ。彼は超制約下のハードで、あり得ないスケジュールで、無理そうなことをやる達人だった。Doomがもし94年とか95年に出てたら、今みたいに歴史に残ったかな?
OpenAIも昔、AGIを約束してDota 2を「解いた」って見せたよね。「自分だけで学習した」って言ってたけど、他のAIや人間のテクニック使ってたのは明らか。あのプロジェクトを諦めたのも驚かないし、もうああいうのはやらないと思う。他のマーケティングに金使った方がいいもんね。
あれは全然Dota 2を学習したってレベルじゃないよ。ゲームは超単純化されてて、決まったチーム構成で交互にプレイするだけ。キャラの9割、構成の99.999999%以上が対象外で、他のルールもAI用に変わってたんだ。複雑さを全部なくしてから「Dota解いた」って言うのは、Chessの後列全部がBishopsになったバージョンで「Chess解いた」って言うのと同じくらい大げさだよ。
AGIが「不要」って言うのは、電気が不要って言うようなもんだよ。もちろん電気がなくても生活はできたけど、AGIは電気みたいに世の中を大きく変える可能性があるんだ。もちろん、その間に専門特化ツールを作るのは良いことだけどね。
専門特化AIsは1960年代から社会に影響与えてるよ。AIって、新しい技術が出るたびに名前が変わって、AIのおかげって認められないまま重要になるって問題がずっとあるんだ。今のAI界隈の人は、ハイプがAIの役に立ってないから、LLMsが早くこの状況を変えてくれるのを願ってると思うよ。
AGIの定義が人によって全然違うから、この議論はマジ疲れるわ。定義集めてみたんだけど、誰もやってないみたいでさ。この概念の定義の範囲が広すぎてイライラするんだよな。みんな定義することに関心持たないんだろうな、多分。
人間(とか他の動物)が新しいことを学ぶのが超簡単なのは、ゼロから始めるんじゃなくて、めっちゃでかい先天的な能力とか知識があるからなんだよ。計算能力のせいじゃないんだよね、正直。
専門AIと比べて、どうやって変革をもたらすのか例を挙げてくれる?
>DOOMが1994年か1995年にリリースされてたら、同じように記憶されてただろうか?
多分ね。WolfensteinとDOOMの人気の一側面は、PCハードウェアで技術的に他の何年も先を行ってたことだよ。もう一面は、ゲームプレイデザインの基準を作ったジャンル定義のタイトルだったこと。1995年にDOOM Deathmatchは流行ったと思うな,1993年から1995年の間に目立ったPCネットワークマルチプレイヤーゲームは本当に少なかったから(Command and Conquerくらい?)。
DOOMがない世界の1995年を想像するのは難しいよね。同時期に3Dゲームも出たけど,DOOMのクローンもあった。DOOMは技術よりゲームプレイ革新の方が影響大きかったと思う。最近のDOOM開発者も元の高速アクション路線に戻ってるしね。
AGIは私たちの想像を超えるかもしれないからね。人間は盗みや欲といった欠点があるけど,AGIが私たちを律して,仲良くするように強制してくれるんじゃないかって期待してるんだ。まるで親が子供に分け与え方を教えるみたいにね。全人類をAGIがベビーシッターしてくれるイメージかな。
ヒーロープールを制限するのは大幅な単純化だってのは同意するよ。でも彼らは,vergeによると(https://www.theverge.com/2019/4/13/18309459/openai-five-dota…),制限された17体のヒーローとイリュージョン/コントロールユニットなしで,完全な5v5の標準Dotaをプレイしたんだ。それでプロを打ち負かした。
元Dotaプレイヤーとして,これはフルオンで全ヒーローがいるDotaにそれほど遠くないと思うんだ。確かに君が言ってるほど遠くはない。
そしてDotaは最も複雑なゲームの一つだよ,例えばAIはAimがゲームの大部分を占めるCSなんて即座に「解決」するんじゃないかな。
昨日,うちの70代後半の親父が,ビデオストリーム付きのGeminiを使ってサーモスタットをプログラムしたんだよ。で,俺を呼んでサーモスタットをプログラムしてもらうんじゃなくて,そのことを俺に電話で伝えてきたんだ。
これは誇大広告だって言うかもしれないし,LLMが10M LOCのコードベースで動けるようになるまでは全部誇大広告かもしれない。でも,LLMはこれまでのAIの進歩とは全く比べ物にならないシフトだってことを認識してくれよ。
人間が生まれつきとんでもなく大きな知識ライブラリを持って生まれてくるなんて信じる理由は何もないし,完全に不可能に聞こえる。どうやって保存されて,どうやって進化するんだ?
そんなの必要ないんだよ。画像生成器の潜在空間にカンガルーが見つかるみたいに,感覚を処理することを学ぶ副産物として,物事がどう動くかの抽象概念や原理を学ぶんだ。
AGIへの道は,映像生成器とLLMか何かを,直感的に物事を理解できるように組み合わせる方法を見つけることかもしれない。ただひたすらたくさんの統計的なデタラメをやるんじゃなくてね。
ゲームAIがデータに直接アクセスするのはズルいって問題点があるね。特にCSみたいなゲームでは。CSをプレイするAIは,画面を見てマウスで操作すべきだよ。シミュレーションで位置をプロットするだけじゃ,実際にゲームをプレイしたことにはならない。サッカーの試合でシミュレーションだけするのと一緒で,ゲームの本質じゃないんだ。
あの論文読んだ?Dota 2 bot APIへのアクセスはあったけど、あれ全部じゃないし。反応時間もプロゲーマーより遅い220msに制限されてたんだぜ。でも、それがまさにポイントなんだよね。チェスボットだって膨大なメモリ使えるのに誰も文句言わないじゃん。AIのベストと人間のベストを比べるのって全然アリだよ。AIの得意なものをわざわざ取り上げて「ほら、AIはダメだ」って言うのはフェアじゃない。逆もそうだしね。人間がbot APIだけでDota 2できると思う?絶対無理でしょ。
あれもう6年前の話じゃん。今OpenAIが本気出したら相手にならないと思うよ、まあOpenAIはやらないだろうけどね。今は他の奴らに先越されないように、人類言語全部解くのに忙しいだろうし。
なんか世の中、歴史を書き換えてUltima Underworldのこと忘れ去ってるみたいだね。Doomより前に出てたのにさ…
もしかしてAGIって、単にたくさんの専門AIが集まっただけだったりして?
人間の汎用的な知能だって、すんごくたくさんの専門的なプロセスの創発的な特性っぽいし。
AIも同じなのかなーって思うよ。
あれはマーケティング用語だよ。それだけ。AGIが何かってのを必死に定義しようとするのって、Happy Mealが何かって説明しようとするのと一緒。あれって別に食べ方革命するために生まれたわけじゃないじゃん。普通の食べ物に変なラベル貼って、広告目的で付けたタイトルだよ。AGIの定義集める意味なんてないって。新しいものとか、証明されて存在するものを説明するために考えられたわけじゃないんだから。大人向けの”Happy Mealマーケティング”だよ。
人間の脳の計算能力ってまだよく分かってないけどさ。
ニューロンの信号伝達速度ってめちゃ遅いんだよね。だから認知反応時間測れば、どれくらいのニューロンが順番に関わってるかの上限が推測できるわけ(せいぜい100くらい)。ってことは、「アルゴリズム」ってそんなに複雑じゃないんじゃない?(100回のmatmul+tanhくらい?)
もちろん並列処理とかフィードバックもあるけど、結局AGIのアルゴリズムが見つかれば、ミニバージョンは2025年くらいのハードウェアでリアルタイムで動くはずだって、俺含め多くの人が思ってるよ。
なんか、それ定義する意味あんまりない気がするなー。「天国」を定義するのと同じっぽい。
あれって、一部の人が信じてる理想像で、俺らはずっとそこに向かって行進してるだけなんだよ。
マジそれな。でもこの話で驚くのはOpenAIじゃなくてさ、投資家がこんな露骨な…まあ、現実の”誇張”って言っとこうか、それを見抜けずにまだお金つぎ込んでるってこと。俺だったら絶対投資しないけどな。まあ、だから貧乏なのかもしれないけどさ。
他の動物についてはそう言えるかもだけど、人間はそうかな?わかんないな。
人間みたいに幅広いスキルを教えられる動物なんていないし、専門スキルでは優れてる動物もいるけど、人間には何か特別で、すごく多才にしてるものがあるのは明らかだよ。
だから、サルみたいにすごく近い親戚でも人間ほど汎用的じゃないってことは、人間が汎用的になれた「シンプルで小さな何か」があったんじゃないかって思えるんだ。
俺らが生まれつきめちゃくちゃデカい知識ライブラリ持って生まれるなんて、信じられないし、ありえないと思うんだよ。どうやって保存するんだ?どうやって進化するんだ?
確かに俺ら、そういうの持ってるよ。高所恐怖症とか感じたことない?あれって習ったんじゃなくて、生まれつきなんだ。小さい動くもの、例えば蜘蛛とか蛇への恐怖も同じ。ああいうのって記憶とは全然違う形で学習/保存されてるけど、絶対そこにあるし、動物だってああいうの持ってるの見れるじゃん。猫が長いものがいきなり出てくるとめちゃくちゃ怖がるみたいにさ。キュウリとか。あれ遺伝的な本能が蛇だと思うからなんだって。
>お父さんがサーモスタットの設定頼む代わりに、電話で済ませたって話?AIのせいで親父さんと一緒に過ごす機会を奪われたみたいに聞こえるね
もっとコメントを表示(1)
直接リンク貼っとくね:
https://docs.google.com/presentation/d/1GmGe9ref1nxEX_ekDuJX…
https://docs.google.com/document/d/1-Fqc6R6FdngRlxe9gi49PRvU…
OpenAIのインサイダーからの興味深い返信だよ:
https://x.com/unixpickle/status/1925795730150527191
いや、全然面白くないよ。部外者への曖昧な一蹴なんて、自信のない学者タイプによくある反応だろ。具体的に説明してくれたら会話の役に立ったかもしれないのに。結局、”OpenAI insider”対 John Carmack と Richard Sutton って構図になったわけだ。どっちに賭けるか、俺は分かってるよ
”Graphics Carmack”は天才だけど、だからって”AI Carmack”もそうだとは限らないよ
過去20年で彼が出荷したものって何? Oculusはまあそうだけど、あれはグラフィック最適化の得意分野ど真ん中だったし。ハードウェアは Abrash たちがやったろ。Carmackが天才なのは間違いない。でも天才ってのは、特定分野で誰よりも集中して練習した結果だよ。
それを他の分野に広げようとするのは、彼みたいな多くの人たちの失敗の原因になってるんだ
Romeroがいなくなってから、id Softwareはメモ確認 Quake II、Quake III、Doom 3、Quake 4 を出したね。面白いことに、Romero自身も大して出してないけど。個人的には、最も象徴的な”コンビ解消”の一つだと思うよ。全体は部分の総和より大きいってやつ
俺は彼に逆らって賭ける気はないね。”The Bitter Lesson”は、歴史的にGPUを使った並列計算で最大限の性能を引き出す最先端にいた人物にアドバンテージがあるかもしれないってことを示唆してるんじゃないかな。グラフィックレンダリングとAIは同じ技術のピラミッドの上にあるんだ。そして、そのピラミッドには”JC”のイニシャルが刻まれたレンガがたくさんあるってわけだ
権威に訴える論証ってのは論理的な誤りだよ。人は、ある分野で高度な知性と専門知識を持ってるからといって、一つかそれ以上の他の分野でも専門家になれるって思い込みの罠に陥りがちなんだ。こういうのはよく見る光景だよ
面白いね、ついさっきもここで似たようなコメントしてたんだよ、ここ見て→https://news.ycombinator.com/item?id=44071614。このOpenAIのインサイダーみたいに詳しいわけじゃない俺でもそう思うんだ。だから、俺みたいな素人目にもこう見えるってことは、かなりヤバいんじゃないかな、違う?
あれはスレッドなんだよ。Twitterは使う側に優しくないゴミみたいなサービスだから、最初のツイートしか見てないのかもね。”教訓:根本的に、こういうゲームの解法は低次元なんだ。ゼロから訓練しても、小さいモデルが大きなモデルとほぼ同じくらい上手くいく。なぜ?学ぶべき情報量がそんなに多くないからだ。”ここ見て→https://unrollnow.com/status/1925795730150527191
RageはCarmackがid Softwareを出る前の最後の大きなゲームだったね。Romeroはid Softwareを出てから27本ものゲームに関わってるよ。詳細はこちら→https://en.wikipedia.org/wiki/John_Romero#Games
Xのアカウント持ってる?ログインしてないとスレッドの最初の投稿しか見れないんだよ。
彼はOpenAIの研究者で、彼らの成功したプロジェクトのいくつかに関わってるんだ。彼のXのスレッドでの批判はすごく分かりやすいと思うよ。Atariのゲームを効率的に学習できるシステムは、それぞれのゲームの解法が(現実世界の問題に比べて)シンプルにエンコードできるっていう事実を利用してる。さらに、現実世界には応用できないトリックを使って、そういう解法に誘導できるんだ。
”Graphics Carmack”の2001年以降の貢献に疑問。Commander Keenの”Adaptive tile refresh”やDoom/Quakeでの最適化は評価できるけど、特に新しい発明ではなく既存技術の実装だった。Fast Inverse Square Rootや”Carmack’s reverse”も彼独自のものではない可能性が高い。Rageの”Megatextures”も広まらず、OculusでのVR貢献も不明。彼は才能あるプログラマーだが、一般的に言われるほどの”神”や10Xプログラマーではないと思う。
x.com/… を xcancel.com/… に変えると見れるよ。
そうだね。俺も彼を知ってるし、好きだよ。天才プログラマーなのは確かだけど、みんな忘れがちなのが、彼がリリースした最後の成功作が20年以上前のDoom 3だってこと。Armadilloは失敗だったし、Oculusも大したことなかった。彼は数学がそんなに得意じゃないって自分でも認めてるんだけど、AIで何か成し遂げたいなら数学は必要だよね。(WolfensteinやDoomやってた頃の3Dグラフィックスについても同じこと言えたかもしれないから、また驚かせてくれるかもだけど)とにかく、彼には上手くいってほしいな。
ここでの返信、一部はTwitterの全文見てるっぽいけど、他の人(ログインしてない?)は最初のツイートしか見てないのかな.最初のツイートだけだと、洞察がないただの却下に見えちゃうね.
QuakeとかDoomみたいなid時代の成功作には及ばないね.リストを見ると、息子のGunman Taco TruckとかDoom改造版のSIGIL、Dangerous Daveのリメイクがある.id後のお金のほとんどはFacebookの農場ゲーから.何もしてないとは言わないし才能は認めるけど、idを離れてから彼もidも昔の成功は再現できてないって言いたいだけ.時代が変わったのかもだけどね.
Xでツイート全文読めてない人いるかも.リカバリできたのはこれだけ.>スライドは2018年みたいで、Johnたちも俺が苦労したのと同じ教訓得ると思う.こういうゲームの解法は低次元.学ぶ情報少ないから小さいモデルでも大きいモデルと同じ.『スコアが上がったトリック』は研究者のハードコードでAIじゃない.単純なRLに汎用知性なし.ジェネレーティブモデリング必要.フレームスタッキングがRNNと同じくらいなのは環境が知性を促さないからさ.
この話の流れでPhilo Farnsworthについて読むといいと思うよ.
ビジネス運営の判断とかセンスはいいと思うからCarmackには期待したいな.でもAIとグラフィックスに共通点があるなんて全然思えないんだ.もっとうまいこと言える人もいるかもだけど、俺には分かんない.彼がグラフィックスでやったみたいな中レベルの簡単そうな成果はAIにもきっとあるだろうけど、なんか全然違うゲーム(分野)に見えるよ.
計算能力がネックの場合だけだね.GPT-4.5はそうじゃないって示してるよ.
Carmackはいつだって天才だけど、ほとんどの人と同じで運も必要だし、結局は胴元が勝つ(ハウス・ハウス)みたいなものだね.かわいそうなArmadillo Aerospace.
このリンク読んでみてよ。
https://twobithistory.org/2019/11/06/doom-bsp.html と https://30fps.net/pages/pvs-portals-and-quake/
あと、x86のすごいやつはほとんどAbrashがやったと思うよ。
カーマックがAIに集中してるって聞いてマジで興奮したんだよね。動画上がったら絶対見たい!でもスライドだけ見るとAtariで遊べるシステム作ろうとしてるっぽい?楽しそうなプロジェクトだけど、これからどうなるのか、論文とか出るのか気になるな。
Atariゲームは強化学習(RL)の研究で標準的なベンチマークとしてすごく使われてるんだ。
https://github.com/Farama-Foundation/Arcade-Learning-Environ…
目的は、他のタスクにも応用できるアルゴリズムを開発することだよ。
昔はAtariがよく使われてたけど、もう7年も前に人間超えちゃったんだよね。でも汎用的なアルゴリズムは生まれなかった。AI研究者としてはAtariは楽しい学術演習でしかなかったな。今はMinecraftとかもっと複雑なゲームが主流だけど、多分これもまだ足りない。現実世界に対応するには、まず現実世界みたいな高度な物理シミュレーション環境を作るのが必要だと思う。Nvidiaとかが物理シミュレーションと画像生成を組み合わせる研究してるけど、なんかまだ重要なピースが足りない感じ。
重要なピースは継続的な学習だよ。人間は新しい状況に既存の知識を応用できるし、ほとんどのAIもそう。でも現実世界での行動結果を永続的に覚えられないから知識が増えないんだ。例えるなら、幼児は熱いオーブンを触って『危険』って学ぶけど、今のAIは文脈窓の外に出ると忘れちゃう。物理的に相互作用するAIには、周囲と安全に関わるために絶え間ない評価と学習が絶対必要。
永続的な学習みたいな文脈管理って、最近の巨大な文脈窓を持つLLMでもそんなに難しくないんだよ。ChatGPTが永続メモリとして記憶したり、AnthropicのClaude 4がポケモン学ぶ例を見てみて。残ってる課題は、保存した知識をモデルの重みにどう反映させるかだけど、文脈をRAMみたいにうまく管理できれば、それすら必要ないかも。現実世界で特定の場所に入ったら、VDBみたいな永続ストレージから情報取ってきて文脈に入れればいいんだよ。
現実世界でそれをやるのが難しいって言ってるんだよ、そこがポイント。人間の脳は毎日ずっと外部入力に適応して学習してる。しかも訓練用のフィルター付き。変な酔っ払いの話とかは忘れるけど、AIは訓練データを選別しないと、ヘンな情報を学んじゃう。大きな文脈窓だって答えじゃない。奥さんの誕生日ケーキの話、AIの執事が1年後覚えてると思う?プロンプトだって完璧じゃないし、Grokがヘンなこと言い出した例もあるじゃん。
もっとコメントを表示(2)
人間の脳が毎日86400秒ずっと全ての入力から学んでるなんて、全然違うよ。特にトランスフォーマーモデルの文脈みたいにはね。昨日何秒目に何を見たか全部覚えてる?人間は驚きが伴う特定の刺激からだけ、永続的かつ効果的に学ぶんだ。そのサンプルレートはめちゃ低い。それはLLMの既存の永続メモリシステムで再現できるレベル。ほとんどの人のコアな経験や記憶なんて1000ページの本に収まるし、最新の文脈窓にも収まるよ。もっと深い詳細なことは別のシステムに任せればいい。
「既存の知識を新しい状況に応用できる、ほとんどのAIもできる」って書いてあるけど、記事では違うって言ってなかった?AIはAで学んだことをBに応用できないって。
「サプライズと結びついた刺激からしか学ばない」って嘘だよ。たった2分の会話でも人の考え方は大きく変わるし、高校の先生の一言がいまだに残ってたりする。驚きがなくても職場の文化に慣れるみたいに、経験を通して微妙に考え方や行動は変わるんだ。経験自体が学習で、脳は常に学んでるんだよ。
彼の目標はAtariゲームを解くことだけじゃないんだ。それはもう済んでること。彼の目標は汎用的な方法を開発することなんだよ。それを使えばもっと複雑なゲームとか物理世界でもいけるようにね。でも、彼の見解は、Atariの設定をリアルタイム対応とかに修正するだけでもテストできるし、複雑なゲームから現状では新しい洞察はそんなに得られないってこと。
AtariゲームをクリアしたAIはたくさんいるけど、この分野にはまだやるべきことが山ほどあるんだ。俺は修士論文で、少ないインタラクションから学ぶ方法について書いたよ。そうすれば、もしアルゴリズムを実際のロボットに移植しても、何百年も転び続けないで済むからね。いくつかのゲームのやり方を知ってたら新しいゲームのやり方が直感的にわかる、みたいな、より高レベルな汎化についての徹底的な研究はまだ見たことないと思う。
ライブで講演見たよ。彼の主な主張は、Atariは「解決済み」に見えるけど、再検討する価値がたっぷりあるってことだと感じた。物理インターフェースからの学習(latencyなどロボットの課題)や破滅的忘却の研究(一つのゲームで学んでも他を忘れないように)の良い環境なんだ。今はまだ良い問題源に見えるね。
Atariコントローラーのためだけにすごく特化したロボットって、そんなに違う?レイテンシを気にするなら、エミュレートされたコントロールとかビデオにランダムノイズを加えれば良かったんじゃない?
「学習」の定義が不完全で、人間の脳にLLMの考え方を当てはめてるね。LLMは訓練中しか「学習」しないけど、脳は経験することが学習で、常に経験してるんだ。意識してなくても脳は学習してて、寝てる間に整理される。トークンから物理的な動きにいけるか興味あるけど、LLMは物理世界で動くには冗長でエネルギー食いすぎて、経済的に無理だと思うな。
オープンソースにするって言ってるのはクールだね。でも、何が新しいのか俺もよくわからないんだよ。物理コントローラーとカメラを使ってノートPCのGPUでリアルタイムに動かすのはすごいけど、それが可能ってこと自体は驚きじゃない気がする。もし以前の研究よりサンプル効率がすごく高いとか、汎化性があるならすごいけど、どうなんだろうね?
でもこれ、NVIDIAがすでにやってることとどう違うの?NVIDIAはすごく正確なGPUシミュレーション環境でNNを訓練して、リアル世界でどんな複雑な動きもできるロボットを持ってるよ。Atariスティックをちょっと動かすのは、食料品を仕分けするとか比べたら大したことないように見えるね。NVIDIAとか他の研究室のアプローチは明らかにうまくいってるし、ロボティクスがNLPとかチャットボットみたいに解決されるまであと1、2年でしょ。
vectorDBを使ったことあるけど、まだまだ全然だよ。現実の記憶に使えるような十分なコンテキスト量なんてないんだ。直近のことなら使えるけど、一日中LLMと話してみなよ?一時間も経たないうちに前の話が消えるんだ。コンテキストは大切なペットみたいに扱わなきゃダメだね。
でっかいコンテキストウィンドウってさ、重み(weights)を更新する代わりとしては全然ダメなんだよね。記憶力がヤバくなったからって日記つけてるみたいなもんじゃん。
まあさ、ChatGPTって90年代の Balkan wars のこと知ってるんだよね。LWTでそのエピソードやったか知らないけど、それについて John Oliver っぽい脚本書かせてみたらさ、マジでびっくりするくらい John Oliver っぽくて、しかも結構正確だったんだわ。
これさ、調べなくてもすぐ言えるんだけど、ゲームデザイナーって新しいゲーム作る時に、もう知られてるインターフェースのパターンとかゲームの仕組み(game mechanics)を使い回すんだよね。それって現実世界のアナロジーになってることが多くて、人間が直感的にゲームできるようになってる。もしゲームが直感的にできなきゃ、「ダメなゲームだ」って言われるかもな。
俺もそう思うよ。Latency は問題の一つにすぎない。物理コントローラーは変な入力(phantom inputs)出すし、actuators も摩耗で遅くなる。物理的な Atari ロボットはこういう問題にも強い、質的に違う戦略学ぶ必要あるんだ。Emulators だと時間かけ放題だけど、物理だとリアルタイム。だから、物理ロボットはロボティクスで出てくる問題に取り組むのにいい方法だと思うな。
要は Carmack がスライドで言ってたのは、AIにゲームAとかBとかCをやらせても、ゲームDをゼロから学ぶ能力は全然上がらなかったってことだろ。それってさ、まさに汎用知能(general intelligence)について話す時に探してるもんじゃん。つまり、知ってることを、全然知らないことにも適応させる能力のことだよな。
VectorDBs ってさ、技術的な限界で能力が足りない部分を補うための、たくさんの言い訳の一つにすぎないんだよ。問題がモデル自身で解決されるか、それともこういうサポートシステムで解決されるか、今は50:50だと思ってる。前は80:20だったけど、モデルって周りに作ったツールよりずっと速く使えるようになってきてるからね。
>俺は LLM ってさ、言葉をオウム返しする機械から、適当な指示で現実世界で動けるようになるには、話が長すぎるしエネルギー使いすぎだと思う、って考えだけど、これって可能とかじゃなくて、もう起きてることなんだよ。Chatbot のメディアの騒音に隠れてるだけ。Nvidia が去年やった研究とか、この分野の今の研究見てみなよ。
俺の印象だと、Atari は80%解決したら次行っちゃった。会社は自動運転、Chatbot、そして今はヒト型ロボットを80%解決して VC から稼ぐ。結局、アテにならない技術ばかりだ。Atari にはまだ難しい問題が残ってる。失敗がすぐ出るから勇気ある奴しかやらない。LLMは計算パワー突っ込んでも何も達成できないかもしんないけど、やったっぽく見せることはできるから失敗はない、みたいな。
昔すげー使われてたってのは良いことだね。比較する時のベンチマークになるじゃん。