アンドレイ・カルパシーが警告!AIエージェントの完全な実用化まで10年必要
引用元:https://news.ycombinator.com/item?id=45619329
アンドレイ・カルパシーが言ってた”ナインズの行進”ってのは、AIの進歩を理解する上で超重要だよ。特定のベンチマークだと進歩は指数関数的に見えるけど、次の9(つまり完成度を上げる難しさ)も指数関数的だから、広い目で見ると実は線形的な進歩なんだよね。
最近リッチ・サットンとのインタビューを見たんだけど、AGIは単に”9”を追加するだけじゃないって印象を受けたよ。インタビュアーが「言語を理解するには世界モデルが必要だ」って前提で話してたんだけど、サットンは即座にそれを否定してた。彼の懐疑的な意見は正しいかもね。
世界モデルの話は面白いし、ヤン・ルカンも触れてるね。でもビデオ拡散モデルは”ビデオ世界”をよく表現できるし、SOTA LLMも基本的な反実仮想シナリオをうまく予測できるよ。動物の脳が情報を圧縮するように、LLMや拡散モデルも”テキスト世界”や”ピクセル世界”をうまく圧縮してる。情報を圧縮するにはある程度の内部モデルが必要で、それがサットンやルカンが言う世界モデルに当たるかは言葉の問題だと思うな。
光子が人間の目に当たって、人間がそれを言語化してLLMに学習させた。LLMはその関係の一部を捉えられるけど、光子を実際に感知したり、思考したりしてるわけじゃない。LLMの”世界モデル”は現実世界から何段階も離れてるんだ。因果連鎖を圧縮して得たモデルの断片は、実際の因果連鎖を生成できないなら大した意味ないよ。
「知識を理解するには世界モデルが必要」っていうのは、ちょっとした、でも大事な間違いがあるね。知識を「暗唱する」だけなら世界モデルは不要だけど、「理解する」には世界モデルが必要だよ。テストで点数が取れても理解してない人がいるようにね。物理学や数学みたいに、詳細を理解するには世界モデルが不可欠なんだ。AI分野の多くの人が今のやり方では限界があるって長年言ってきたけど、”AGIはスケールすれば解決する”って話が主流になって、研究は阻害されたとCholletも言ってるね。数学的にスケールだけじゃ足りないって示されてたのに、お金の流れは変わらない。成果の評価の仕方もおかしいよ。
この意見に賛成!いい例えは、人間が夜空を美しいと言うのは本当にそう”見える”からだけど、LLMが言うのは訓練データに十分そう書かれてたからってことだね。
俺の意見だけど、”理解する”ってのは”賢い”とか”美しい”みたいに技術的な意味を持たない、ただの民間心理学の言葉だよ。他人の行動の集合をラベリングするだけだね。この見方だと、機械が人間と同じくらいタスクをこなせば、人間と同じくらい理解してることになる。理解の仕方じゃなくて、タスクの実行の仕方が問題なんだ。この視点に立つと、”理解”の問題は消え去るよ。これは30年以上AIに携わってきた俺の専門的な意見ね。
Anthropicの研究で、LLMが世界をモデル化してる証拠があるよ。彼らの”思考”を追跡した論文[0]は興味深いね。LLMが言語間で翻訳するとき、同じ概念(例えば「大きさ」)で”点灯する”(fMRIみたいな感じ)んだ。これは単に”X語の後にY語が来る”じゃなくて、概念と相関するパラメータのクラスターがあるってこと。そうでなきゃ、中国語、フランス語、英語がそれぞれ別の場所に固まるはずだけど、そうじゃない。知識を理解するのに世界モデルが必要かは分からないけど、言語に関してはLLMはすごくモデル化してるみたい。
[0]: https://www.anthropic.com/research/tracing-thoughts-language-models/
じゃあ、俺のトースターはトーストを理解してて、俺は理解してないってこと?だったらなんで俺がトースターを操作してて、逆じゃないんだ?
トースターがトーストを作るタスクができないのと同じくらい、六角レンチで組み立て家具を組み立てるタスクはできないよ。
ばかげてる。QCオペレーターは、開発した博士号取得の化学者と同じかそれ以上の精度でテストできるけど、詳細を説明はできないだろ。AI研究者が“理解”って言葉を意味不明だと思うからLLMが過大評価されてるんだよ。
ねぇ、みんな気づいてる?今すぐChatGPTに行けば、夜空の絵を生成できるんだよ。LLMは何千もの夜空の画像や絵を見てるからね。お前のロジックは知識が古くて間違ってるよ。LLMは言語データだけじゃなく視覚データもエンコードしてるんだから!
夜空を“美しい”と思うのは、その言葉を他の人が使ってるのを聞いた経験から意味が作られてるからだと思うんだ。だから、LLMよりも深い意味を知ってるわけじゃないよ。昔、心の哲学を研究してたけど、LLMは心と機械に質的な違いがあるって主張する人たちの余地をかなり減らしたね。
マルチモーダルな部分がどう機能するか誤解してるよ。エンコーディングの根本単位は、まだセマンティックなんだ。お前の心の中とは違うだろ?夕日の言葉を知らなくても夕日を経験できるんだからさ。
いや、根本的な現実を誤解してるよ。LLMは言葉を入力として必要ないんだ。画像から画像を生成できるし、セマンティックな言葉は全く必要ない。それに、あらゆるものは1と0の文字列にエンコードできるから、LLMは何でも学習できるんだよ。
俺が見たマルチモーダルアーキテクチャは、モダリティ間のレイヤーはまだテキストだし、画像エンベディングとテキストエンベディングは完全に別々だよ。脳とは違う。画像から画像を生成できても、人間の指示なしじゃ意味のあるものは得られないだろ。遺伝子の例も、エンコードだけじゃ機能しないことを示してるじゃん。
言語の構造をモデル化するのは、語順や結合親和性の問題だよ。チャイニーズルームの思考実験だね。根本的に不完全な“理解”でも、それなりの出力が出せればいいのかな?言語自体は世界をモデル化しようとするけど、日の出に関する単語のパターンを知るだけじゃ、日の出を理解したことにはならない。でも、詩の中で同じことを理解するなら、LLMもずっと近づけるだろうね。
人間は夜空を美しいと思うように進化したんだよ。それも一種のトレーニングだ。もし人間が夜に外出するたびに雷に打たれたら、夜空を美しいとは思わないだろうね。
表現能力と表現意図を混同してるよ。モデルはテキスト、ピクセル、音を気にしない。すべて同じ高次元空間にマップされ、パターンは構造で整うんだ。“セマンティック”は、俺たちが言語を通して解釈したときの内的な関係性を示すラベルにすぎない。宇宙のあらゆるものはこうしてエンコードでき、LLMは何でも学習できる。LLMは普遍的なんだ。遺伝子の例は、正しいデコード環境があれば機能するってことだろ?LLMがその役割を果たすんだよ。意味は言葉じゃなくて、データの形にあるのさ。
To play devil’s advocate, you have never seen the night sky.Photoreceptors in your eye have been excited in the presence of photons. Those photoreceptors have relayed this information across a nerve to neurons in your brain which receive this encoded information and splay it out to an array of other neurons.Each cell in this chain can rightfully claim to be a living organism in and of itself. “You” haven’t directly “seen” anything.Please note that all of my instincts want to agree with you.“AI isn’t conscious” strikes me more and more as a “god of the gaps” phenomenon. As AI gains more and more capacity, we keep retreating into smaller and smaller realms of what it means to be a live, thinking being.
LLMは、人間の経験の「領域」じゃなくて「地図」を扱ってるんだ。人間の経験はもっと高次元で、LLMはそれを低い解像度でマッピングしてるだけ。美しさや新生児を抱く感動みたいな経験はエンコードできないし、LLMにはできないよ。「ここ」や「今」っていう僕らの基本的な意識もね。
美しさや感情って、全部物理法則に従う原子のパターンなんだ。有限の物理プロセスは、有限の文字列にエンコードできるし、高次元性も可逆コードで一次元化できるよ。LLMが美を経験できないってのは、証明したいことをただ繰り返してるだけ。理解できないのは規模と複雑さのせいであって、不可能じゃないんだ。
マラソンってさ、最初の32kmは普通だけど、その後の最後の10kmが一番きつくて、人生で一番ヘトヘトになるんだってさ。
これって面白い挑戦だね。僕らの「世界」は脳内にあるだけなのに、LLMが人間の知識(脳を経由したもの)で学習して、その結果がまた僕らの脳に戻ってくるなら、一体何が違うんだろう?
君の言ってる機械は、現在の物理じゃ無理だよ。人間の心を物理的に再構築するなんて、不可能に近い。脳の状態を捉えるのに10の42乗ビットも必要なんて、現在のモデルとかけ離れた理論的な話で、現実からかけ離れてるね。
言語って、思考の表現であって、思考そのものじゃないんだよ。
君はトースターが自分でトーストする意思がないからトーストできないって言ってるの?それはrobotresearcherの言ってることと全然違うし、彼のロジックも自己矛盾してるよ。意図をどう測るのさ?タスクの成功とは違うはずだ。
「無理」と「知らない」を混同してるよ。人間の脳は、君が不可能だっていう物理的な機械そのものだ。10の42乗ビットなんて大間違いで、実際はもっと少ない。現在のAIの計算能力はもう生物を上回ってるし、君の言う「デコーダー」は僕らの脳そのものだよ。不可能じゃない、ただまだ理解できてないだけさ。
言語が知性や理解に必須だっていう考え方もあるよね。例えば「ゲシュタルト」や「ツァイトガイスト」みたいに、名前がついて初めて理解できる概念もあるし。もしかしたら、他の動物が知性に欠けるように見えるのは、複雑な言語がないからかもしれないね。
AI、生物学、脳について知るほど、生命と機械の違いは複雑さだけだって思えてくるんだ。人間ってめちゃくちゃ複雑な機械って感じ。でも、人間の心と今の機械には明確な質的違いがあって、それはウサギが石や木片と質的に違うのと同じように、創発的な性質なんだよね。最近のAI専門家や楽観主義者のほとんどは、心の複雑さを過小評価してると思うな。LLMがどう学習され、どう設計されてるかの最先端は知らないけど、心における接続の多様性や細胞タイプの多様性はまだモデル化できてない気がする。(Siletti et al., 2023, Science)みたいな研究を見てもね。
もっとコメントを表示(1)
「言語こそ知能だ」っていう見方があるけど、深く掘り下げると限界が見えるよ。「言語」って何を指す? Elizaもその基準を満たさないって言えるかな? もっと高度なバージョンならどう? なんてったって、僕らは何十年もTuring Testをパスしてるんだからね。
「言語が理解に必要だ」っていうのも、君の前の発言と矛盾しない? もし言語が必要条件なら、知能より言語が先行することになるよね。じゃあ、君が知的だと考えるすべての生物に合うように言語の定義を見直すべきだよ。そうすれば、反証可能な主張ができて、進歩できるはず。僕はアリも知的だと思うけど、アリは平均的な人が思うよりもずっと洗練されたことをしてるよ。知らないことを知らないのは陥りやすい罠だね。でも、上記のようにすれば発見を助ける道筋が見えるでしょ?
「アイデアは名付けるまで頭に留められないかもしれない」って話だけど、Anendophasiaって知ってる? 内言がない状態で思考する人たちのことだよ。言葉なしで考えるんだ。これで言語の定義の曖昧さが見えるよね。
「この地球上の他の動物が僕らに知能が欠けているように見えるのは、おそらく言語がないからだ」って話だけど、言語が社会や知能に必要かどうか、切り離して考えられないかな? 僕はいい例を知らないけど、タコや他の多くの頭足類はかなり非社会的な生き物だよね。なのに、適応性と創造性から高度に知的だと考えられてるんだ。
おそらく言語は高度な知能には必要な条件だけど、知能単独にはそうじゃないのかもね。内的な言語とは違う、コミュニケーションや社会性が重要なのかも。社会集団は個々の総和以上のことができるのは間違いないからね。でも、これらのものが本当に必要かどうかが大きな問題だよ。正しい因果グラフを得て、交絡変数を取り除くのは簡単なことじゃない。でも、僕らは違うアイデアを探求し続けるべきだと思うんだ。僕は君が正しいとは思わないけど、僕が僕の道を追求するのを応援してくれるなら、君が君の道を追求するのも応援するよ。僕らは競い合えるけど、それは友好的であるべきだね。なぜなら、僕らの競争が互いのモデルの欠陥を見つける手助けになるから。社会的な要素は必要条件じゃないかもしれないけど、有益なツールであることは間違いないよ。僕は、問題が解決済みだと主張したがる人たちにうんざりしてるんだ。分野を超えた専門家の間で一般化やコンセンサスを得るのがこれほど難しいんだから、明らかに解決済みじゃないよ。
世界で最も優秀なAI研究者の一人、アンドレイ・カルパシーは教育に注力してるんだ。過去10年のイノベーションを次世代がアクセスできるようにして、僕らにはまだできないことを彼らが作れるようにするってね。彼に魔法のような思考はないし、AIが僕らを時代遅れにするっていう漠然とした話もない。Karpathyは、今はより優秀な人間が唯一の道だと見てるんだ。
AI開発者が「例外」を死ぬほど恐れる理由を推測すると、OpenAIが最近書いてたことと同じで、とにかく答えを出して精度指標を上げようとするからだろうね。例外は不確実性のサインで、問題についてもっと学ぶ必要があるってことなのに、それじゃポイントにならない。「正しい答え」だけがポイントになるんだ。
最先端のAI研究は、最終的な正解や勝利条件がない進歩の概念をまだ運用できてないみたい。だからAIはPokemonがまだ下手なんだよ。Pokemonみたいな終わりがない長期タスクを完了するには、面白いことを起こすモチベーションが必要で、どんなことが面白いかという最低限の感覚も必要だし、学びながらその面白いという感覚を調整する能力も要るんだ。
AIに詳しいのに、AIバブルを煽ろうとしない人のコメントが見られるのは良いね。今、この分野のほとんどの人は、AGIがすぐそこだって大声で叫んでるけど、実際にはポルノボットや広告、チャット内ショッピングを展開してる。AGIが近いって本気で信じてるなら、この行動は矛盾してるように見えるね(AGIのTAMは前者より指数関数的に大きいハズだから)。
Zviがこの前この点を指摘してたんだけど、それに対する僕がもっと同意する反論があったんだ。もしAGIが近いと思ってるけど、2〜3年(あるいは「すぐそこ」がその会社にとって何を意味するかによるけど)指数関数的なデータセンターの成長を維持する必要があるなら、消費者向けの経常収益(ARR)確保のための「ランドグラブ」が、短期的な収益(そして次の資金調達で高い評価額)を得るより早い方法なんだ。
OpenAIもF100企業やUSGと仕事してるけど、そっちの収益計上には時間がかかるんだよね。
ポルノやショッピングを売ることで、AGIが仕事を奪い始めたときに必要になる規制当局との関係をある意味弱めているんだけど、これを二次的な問題と考えて、競争に勝つことがもっと緊急だと考えることもできるよね。
AGIがすぐそこだと証拠もなく言ってるだけなら、そんなに価値はないね。
もしAGIがすぐそこだと確信してて、それを裏付けられるなら、なぜ投資家を説得して、今後2〜3年の不足分を補ってもらわないんだ? ポルノボットとかで規制当局との関係を弱めるより、ずっと良い戦略に思えるけど。
むしろ、これは彼らがAGIにそんなに早く到達できると自信がないように見えるね…彼らは最終的な成果であるAGIを最適化してないんだよ。
なんで二者択一なの? AGIに夢中な投資家からはAGIのピッチで資金調達して、AGI懐疑派からはB2C成長ストーリーで資金調達すればいいじゃん。
お金が増えれば、GPUも増えるんだから。
「ポルノボット」って正確には何なの?
「例外は不確実性のサインで、問題についてもっと学ぶ必要があるってこと」じゃないよ。それは警告だね。例外は、何かが失敗して継続不可能になったっていうサインだよ。
多くの例外は回復可能だよ。これは文脈や、ソフトウェアがいかに洗練されているかにもよるね。
はい、その通り。回復不可能とは言ってなくて、継続不可能だって言っただけだからね。エラーで一つのパスで実行が続けられなくなったから、別のパスでキャッチする必要があったんだ。ifループみたいな普通の条件分岐との違いは、ほとんど意味論的なものだよ。例外は予期せぬエラー(技術的にはエラーの集合だけど、構文はエラーグループをキャッチするために設計されてるし、一つのエラーに対応したいなら戻り値を使った条件で十分で、それはもはや例外じゃないんだ)。
例外に死ぬほどビビってる博士を想像してみてよ!これでKarpathyが、RLのアップウェイトがLLMの学習にとって破壊的なドラッグみたいだって言ってた理由がわかったわ。
どうやらAndrejの「エージェント」の定義は、人間従業員を完全に置き換えられる存在のことみたいだね。彼が言うには、現状のClaudeやCodexじゃ全然ダメで、必要な知能もマルチモーダル性も継続学習もないから、あと10年くらいかかるってさ。
Karpathyは、労働者を置き換えるエージェントだけでなく、現状のエージェントが全く役に立たないって言ってるよ。「業界はすごいって見せかけてるけど、実際は手抜きだ」って。彼らが作るコードはtry-catchだらけで肥大化してるし、APIも古い。結局、ネットでは役立たずだってさ。
投資家がこれだけお金を出すのは、AIがすぐに人間並みになるって約束があるからだよ。もしAltmanがLLMはそこまでいかないってハッキリ言ったら、業界への投資なんて激減するはずだよね。
全然同意できないな。AGIがなくても、今のLLMで会社のいろんなワークフローを変えられるよ。今の投資は、現在のLLMへの需要に対応するためなんだ。うちの会社なんて、必要な容量の100倍も需要があるのに確保できないんだから。AGIはもっとすごいけど、今のAIの価値は全然減らないよ。
Karpathyは、エージェントが全く役に立たないと言ってるわけじゃないと思うな。人間レベルのソフトウェア開発者には及ばないってだけ。彼はRustのコード変換に使ったり、定型文やよくあるコードには使えるって言ってるよ。定型文とかCRUD作業って、開発の大部分を占めるから、エージェントはかなり使えるし、大規模なコードベースの検索とかコードレビューにも役立つよ。
俺みたいな一般人でも、その評価には同意だよ。一番の収穫は、俺たちがめちゃくちゃ運が良かったってこと。少なくとも今は、経済的、社会的な影響に備えるチャンスが少しでもあるからね。
OpenAIの収益が130億ドルって言っても、そのうち7割は月20ドルのChatGPTからだろ。Arizona Iced Teaだって30億ドルも稼いでるんだぜ。需要が100倍って言っても、絶対値が小さかったら大したことないし、不採算で100倍成長するために1000倍の支出が必要なら、あっという間に破産するぞ。
僕も同じことを考えてるよ。何が僕たちを人間たらしめているのか、そして共通の基盤をどう価値づけできるのか、考え始めるべきだね。
これって本当に重要だよね。AIについてめちゃくちゃ考えてみたら、最終的な答えは”愛する能力”だった。ロマンチックに聞こえるけど、実用的に真剣に考えてるんだ。もっと詳しくはこちら: https://giftcommunity.substack.com/
彼がエージェントは全然役に立たないって言ってるわけじゃないよ。一部のタスクには使えるって引用文にもある通りだ。彼は「エージェントは全く役に立つか?」って質問に答えてるだけで、「エージェントが人間を置き換えられるか?」には答えてないんだ。彼の答えは概ねNO。オートコンプリートの方が好きみたいだけど、限定的なタスクには使えるね。
これって正しいよね。OAIやAnthropicが数十億ドルの評価額に見合うって思ってる奴は目を覚ますべきだ。AKのAI for codingの分析は良かったけど(防衛的すぎたり、スタイルや機能性の意識が欠けてたり、カーゴカルト的だったり、間違ってることが多いけど)、オートコンプリート自体は超貴重だし、シンプルなフロントエンドコードを生成してUI作成問題を解決できるのはめちゃくちゃ価値があるよ。
うちは普通のSaaS企業だけど、AIを使ってめちゃくちゃ価値を出してるんだ。評価額やバブルについては何も言ってないよ。多少バブルや誇張はあると思ってるけど、それでもAIは信じられないくらい価値があるってことだね。
もう聞いたかもしれないけど、もし聞いてなかったらこれだよ。彼も君の意見に共感してるみたいだね: https://podcasts.apple.com/us/podcast/freakonomics-radio/id3…
最大の学びは、エージェントやLLMは、ソフトウェア開発を熟知した人間がサイド・バイ・サイドで使うとすごく役立つってことだね。でも、「適当なものを送って10分放置して結果をマージ」みたいに扱うと、すぐに制御不能になるよ。つまり、「vibe-coding」は、最終的に捨てるつもりじゃないプロジェクトには向かない。LLMで人間の知性を拡張するのは生産性アップだけど、人間の同僚をLLMに置き換えるのは、まあ、頑張ってねって感じ。
示唆に富むコメントありがとう、Simon。Redditで一日中議論してたのに知らなかったよ。彼は賢いし筋の通った議論をするけど、巨大組織で働いていることで少し視野が狭まってる部分もあると思う。「何か言っても覚えてない」っていう彼の意見とかね。単一のLLMを単一のコンピュータに入れて完全な人間にするには10年かかるかもしれないけど、実際はもうそうじゃない。LLMはFrame Problemを避けるためにAGIに必要なものだけど、それだけじゃない。コンピュータでの”記憶”はもう得意だし、LLMアンサンブルと繋ぐのに10年もかからない。実際、統合システムではもうかなり上手くやってるよ。MinskyのSociety of Mindを読むのを強くお勧めするよ。リンクもいくつか貼っておくね。
A short summary: https://apps.dtic.mil/sti/tr/pdf/ADA200313.pdf
Book description: https://en.wikipedia.org/wiki/Society_of_Mind
Favorite paper: https://www.mit.edu/~dxh/marvin/web.media.mit.edu/~minsky/pa…
Frame Problem: https://plato.stanford.edu/entries/frame-problem/
Unified systems: https://github.com/modelcontextprotocol/servers/tree/main/sr…
まだ完全には実現してないユースケースがいっぱいあるんだよ。コーディングに関して言えば、LLMには欠点もある。でも、自動化できる作業はたくさんあるよね。コンピューターとのやり取りが必要な作業は、ある程度は自動化できるようになるはず。どこまでいけるかは時間だけが教えてくれるよ。
俺の報告ルートはどんどん伸びてるけど、来年には自律エージェントを導入することにめちゃくちゃ投資してるんだ。
OpenAIの評価額が妥当かは分からないけど、AGIがすぐそこになくても需要は絶対あるって確信してる。AGIがなくても、数えきれないほどの産業を変革できるはずだよ。うちはAI事業で利益を出してて、クライアントにめちゃくちゃ価値を提供してる。OpenAIの経済状況はよく知らないけど、彼らのモデルが持続可能かどうかって疑問は確かにあるよね。きっと彼らも考えてて、プランがあるんじゃないかな?
まあそうだけど、コンピューターの作業を自動化するのにAIは必須じゃないよ。みんながレポートとかデータ入力でやってるExcel作業をちゃんと仕組み化するだけでも、十分キャリアになるしね。
もっとコメントを表示(2)
これは比較的まともな意見だね。残念だけど、ほとんどのAI投資家とか素人はそう思ってないんだ。GPT 1以来、ホワイトカラーの自動化で年率100%以上のGDP成長を実現するって話ばかりだった。AKに同意なんだけど、実際のGDPへの影響はほぼ無視できるレベルだろうね。すでにどれだけ資金が焼かれたかを考えると、経済的には完全な大惨事だよ。
たぶん、彼らが言いたかったのはこれだろうね: https://freakonomics.com/podcast/how-can-we-break-our-addict…
超高品質な人的資本を持つ個人が、LLM(その個人に対して十分な性能のLLMがあれば)と組むと、強力な組み合わせになるのはかなり明らかだよね。
問題点は、
1) そういう個人の供給が足りないこと
2) その種のLLMが存在しないこと(少なくとも安定しては)
3) 今やってる投資額が、必要なリターンに見合わないこと
面白いことに、アンドレイ・カルパシーも教育(人的資本の供給レベルアップ)に注力してるみたいだね。俺も1ヶ月くらい前に同じ結論に達したんだ。そして、これが正しいって『感じる』よ。
このすさまじい価値ってどうやって測ったの?やり方と結果をぜひ教えてほしい!すごいね、おめでとう!読むのが楽しみだよ!
リンクある?あと、自分たちで分析できるように、やったことを細かく、段階的に説明してくれない?
君、俺が話してる相手じゃないよ。俺が返信してる奴は「エージェントが全く役に立たないとは言ってない、人間の開発者には程遠いって言ってるだけ」って言ってたんだ。俺が前の部分を支持してるって思われたみたいだけど、違うんだよ。
「何か教えたって覚えてない」って問題が、なんでみんな10年先の話だと思ってんのか不思議だよ。
これができないなら、従業員みたいなAIエージェントじゃなくて、ただのAI強化スクリプトだろ。人間を置き換えるには、まずこれができないと始まらないって。
「エージェントが今、全く役に立つのか?」って言い方は、すごくネガティブな印象だよね。それ聞いたら「いや、全然役に立たない」って思われがちだよ。
もっと中立的に「エージェントが今日どれくらい役に立つのか疑問を呈してる」って言えば、誤解もされなかったのに。
Andrej Karpathyは、マジで世界的な宝だと思うよ。
彼がコンセプトや考えを説明する時の比喩や一般化、面白い言い回しのおかげで、全然知らない分野の話でも何時間も興味を惹きつけられるんだ。
彼は超賢いし、傲慢じゃなくて、本当に親切でフレンドリーなコミュ力も半端ない。マジでスゴい才能だよ。感動してる。
同意するよ。彼が取り組んでることを過剰に宣伝したり、思想的リーダーに見せかけたりしない、その知的な正直さもすごいと思うね。
物事の現実について、すごく明確で実践的、そして知的に正直な考え方をしてるんだ。
使い切れないくらいお金があったら、本当にやりたいことや言いたいことができるようになる、って感じだよね。
彼の昔のRubik’s cubeのYoutubeガイドはすごく良いって有名だから、彼にはそういう才能があるのは間違いないよ。
(URL: https://www.youtube.com/user/badmephisto)
俺もエージェントに懐疑的な専門家がいるのを見て安心したよ。LLMの現在の弱点(セキュリティ、再現性、ハルシネーション、バイアス)がエージェントで悪化するんだ。
ビジネスが自律的なエージェントに広く任せるとは思えないね。重要なことは全て人間がチェックするワークフローになるはずだ。ソフトウェア開発は特殊で、現実は違うんだよ。
「重要なことは全て人間がチェックするワークフローになる」って意見に同意だね。
俺の医療分野では、AIエージェントが単独で何かを生成するような問題はほとんど見当たらないよ。LLMが患者の病歴を処理するのは面白いけど、信頼性が低すぎて、結局は臨床医の確認が必要になるんだ。
完全に自律的なエージェントは誇大広告だけど、知識労働者の8割の仕事を自動化するだけで10兆ドルの市場がある。これは完全な自律性を必要としないよ。Karpathyが言う”エージェント”はAGIに近い。俺の考えだと、非AGIでも短時間タスクのエージェントはありえるし、METR評価で4〜8時間の人間のタスクをこなすなら、エージェントタスクと言えるんじゃないかな。
トランスクリプトが正確なら、KarpathyはこのインタビューでAGIが10年先だとは言っていないし、AGIがどれくらい先かについても具体的なことは何も言ってないよ。Patelの記事のタイトルは誤解を招くね。
良い指摘だね。HNの80文字制限に合う引用をトランスクリプトから探したけど見つからなくて、「It will take a decade to get agents to work」ってタイトルを考えたんだ。Karpathyが言ったことに近いけどね。もっと良いタイトルあったら変えられるよ。”For now, autocomplete is my sweet spot”も考えたけど、明確じゃないかな。今は”It will take a decade to work through the issues with agents”にしたけど、誰かもっと良いアイデアない?正確さのためにも協力してほしいな!
関連のYouTube動画(https://www.youtube.com/watch?v=lXUZvyajciY)のタイトルを使うのはどう?“Andrej Karpathy — “We’re summoning ghosts, not building animals””
良い提案なんだけど、”autocomplete”の引用が狭すぎたように、これはたぶん範囲が広すぎるかもね。どちらも記事のポイントをうまく表していないんだ。
スレッドの投稿者に公平に言えば、彼はPatelの記事タイトルをそのまま使っただけなんだ。不正確なのはPatelの方だよ。
ああ、それはわかってるよ。投稿者は何も悪くないんだ。ただ、HNでは記事タイトルが誤解を招いたり、クリックベイトだったりする場合、別のタイトルを探すのがルールなんだ(https://news.ycombinator.com/newsguidelines.html)。一番良いのは記事から代表的なフレーズを見つけることなんだけど、この時はうまくいかなかったんだよね。
dang!! AIの超能力について話してるのに、人間が記事タイトルを一生懸命考えてるなんて、この皮肉な状況にすごく尊敬するよ。こういう出来事がこれからも時々起こるような未来であってほしいな。
彼がエージェントについて、こう言ってるよ。
「知能が足りない、マルチモーダルじゃない、コンピュータも使えない。継続学習もなくて、何かを教えても覚えられない。認知能力が足りなくて、全然うまくいかないんだ。」
「これらの問題を全て解決するには、約10年かかるだろうね。」(2:20)
彼がエージェントの問題を解決するのに10年かかるって言ってるのと、10年後にAGIができるって言ってるのは同じじゃないからね。