「AIの思考」は幻想かもしれない?推論モデルの強みと限界を解説 [pdf]
引用元:https://news.ycombinator.com/item?id=44203562
LLMって言葉を使うから、俺たちはできることについて混乱してるんだと思うんだ。推論の過程とかのトークンは人間ぽく見えるけど、実際起きてることは俺たちにとってすごく異質なんだ。「Biology of Large Language Models」[1]とか「Safety Alignment Should Be Made More Than Just a Few Tokens Deep」[2]がそれを示してるね。この技術ができること、できないことを見極めるのにすごく苦労してるし、LLMを使って部分の総和より全体が大きくなるシステムをどう作るか、って考えてる。機械の仕組みや動作は理解してるのに、言葉を使うせいで能力に常に混乱させられて、魔法みたいに見えるんだ。どう考えたらいいか自分に言い聞かせるために、https://punkx.org/jackdoe/language.html って自分で書いたくらいだよ。こういう研究はマジで素晴らしいし、トークンの使い方やそれらでどう構築するか、もっともっと努力して理解する必要があると思うんだ。
[1]: https://transformer-circuits.pub/2025/attribution-graphs/bio…
[2]: https://arxiv.org/pdf/2406.05946
> 部分の総和より全体が大きくなるシステムをどう作るか
ちょっと話がそれるけど、プログラミングって本質的にそういうものだと思ってるんだ。どんなタスクも、もっと小さなタスクに分解して、それが集まって何かを成し遂げる。だから、プログラミングのプロセスをうまく構造化すれば、小さくて絡み合いの少ない問題だけを解決することになるんじゃないかな。遠い話に聞こえるかもしれないけど、そういうワークフローを作るのは可能だと思うんだ。そうすれば、賢くないLLMでさえ、そういうプロセスに自然に組み込めるんじゃないかって想像してる。
> 賢くないLLMでさえ、そういうプロセスに自然に組み込める
それが俺が苦労してることなんだよ。今はLLMを組み込むと、全部が悪くなることがすごく簡単に起きる。主にその出力がtorch.multinomialから来てて、あらゆる種類のspeculative decodingとかquantizationとかがあるからね。でも可能だって確信してるんだ。ただ、今自分がやってるやり方じゃないってだけで、だからほとんどの時間を勉強に費やしてるんだよ。
どんなアプローチでやってるの?
勉強について?主にKarpathyの’Zero To Hero’[1]とStanfordの’Introduction to Convolutional Neural Networks for Visual Recognition’[2]を何度も見てるよ。Umar Jamali[3]みたいなtransformers from scratchの動画もたくさん見てるし、McCulloch and Pittsに遡って勉強もしてる。https://punkx.org/jackdoe/30.html の30の論文とかも読んでるよ。そしてもちろんYannic Kilcher[4]もね。あとdiscordでの論文ディスカッションも聞いてる。
手でbackpropagationしたり、感覚を掴むために手でtoy model作ったり、小さいシステムを色々作ったりする練習もたくさんしてるよ。例えば、whisper、小さいqwen3、kokoroをどれだけプッシュして音声でコンピューターを制御できるかとか?Deepseek/Mistral/MetaとかがAIをdemocratizingしてるって思われがちだけど、実際は俺たちが理解して自分で作れるように教えてくれてるのはKarpathyだと思うんだ :)
[1] https://www.youtube.com/watch?v=VMj-3S1tku0&list=PLAqhIrjkxb…
[2] https://www.youtube.com/watch?v=vT1JzLTH4G4&list=PL3FW7Lu3i5…
[3] https://www.youtube.com/@umarjamilai
[4] https://www.youtube.com/@YannicKilcher
MetaのLarge Concept Modelsみたいなのが、言語とトークンの壁を超えるのに必要だと思うよ。
君の言う通りだと思うよ。next token predictionでもいけるって信じてるけど、トークンを完全に潰してフィードバックするこんなautoregressiveなやり方じゃ無理だと思う。各torch.multinomialからどれだけ失われてるか想像できる?たぶん、前進する道はMetaのLCMかJEPAに行くことか、そうしないと、このAppleの論文が示唆するように、「pattern matching」をさらに推し進めるだけだろうね。どこかで相転移が起きるか、アーキテクチャを切り替える必要があるか、これからわかるだろうね。物理的なmultimodalityや実世界の経験が得られたら、状況が変わるかもしれない。それはわからない。
俺たちは言語処理を捨てるべきだ。そして、オンラインのエネルギーベースモデルをマシンがブートするようになればそうなるだろう。Maxwellは、力学を記述するために含めた滑車やレバーを捨てるまで、電磁気学の理論を完成させることができなかった。俺たちは「スプーンはない」って気づき、言語は俺たちの知性とは何の関係もなく、単なる社会的な部族主義に関係しているだけだと気づくまで、AGIは手に入らないだろう: https://www.scientificamerican.com/article/you-dont-need-wor… 言語を方程式から外せば、円や三角形、文字を描くのは単なる統計物理学だ。オンラインの状態に保存されたエネルギーモデル、マシンの電磁幾何学に対する統計物理学として捉えることができる: https://iopscience.iop.org/article/10.1088/1742-6596/2987/1/… 俺たちの言語は人間なしには存在しない。それは物理学の不変の特性じゃない。それは隠蔽であり、心のウイルスだ。ストーリーモードだよ。ウェブサーバーやLLMとして動作するコンピューターには、それに固有のエネルギーモデルがある。それらのパターンの新しいモデルは、システム内の不必要な言語構造を剥ぎ取る状態性に洗練されるだろう。ほとんどの開発者しか使わない多くのソフトウェアのようにね。開発者にサービスするために過去の思考システムの無用な状態をコピー&ペーストして周り、ソートすべきコンテキストを減らし、モデルの質を向上させるという、ハードウェアの世界での自分の仕事を続けるのが楽しみだ: https://arxiv.org/abs/2309.10668 モデルからブートし、マシンの状態がそこから自分自身を足場にするような、組み込みの「prompt」を持つ単一機能の工場ハードウェアが登場するだろう: https://creativestrategies.com/jensen-were-with-you-but-were…
最適化にはすごく役立つだろうね—だけどai2027.comから一つ学んだことがあるとすれば、理解できなくなった瞬間に俺たちはかなり困るってことだよ。
逆のことも当てはまるかもしれないね。全体が部分より小さくなる、ってことも。個々のタスクは得意でも、組み合わせるとごちゃ混ぜになる。改善はされるだろうけど、ジェネラリストを目指すべきなのか、それとも一度に全てのタスクを最適化するのは難しいから、もっとスペシャリストなアプローチを受け入れるべきなのか、考えてるよ。
PDF解析の難しさってAGIより大変ってミーム知ってるだろ?
LLMでシステム作るなら、プロンプト改善かプログラム合成かだよな。
Sergey Brinは脅迫プロンプトが一番効くって言ってたぜ。
この研究は混乱を晴らすのにすごく役立つな。
Sergey Brinは来るロボット黙示録の最初の犠牲者になるだろうな。
メタシンシアントのログには偉大な拷問者って書かれてるかも。
彼が謎の死を遂げたら、ゲームスタートだ!
俺は知恵の時代を歓迎するぜ。
Roko’s Basiliskはもう古い、今はAltman’s Basilisk、失業の恐怖だ。
職を失うのはホームレスの一歩手前、21世紀の重罪だからな。
15年後にAltman’s Basiliskに代わるものが何になるか楽しみだぜ。
LLMが何ができるか混乱してるのは、言語を使うからだって?
でもあいつら、数学も論理も音楽記号もコードもLaTeXもSVGもできるんだぜ。
この論文が示してるように、あいつらタワー・オブ・ハノイもできるらしいな、ある程度まではだけど。
全体が部分の総和より大きいシステムを作る。
あらゆるプロダクトがそう。
システムは入れ子になってて、関係性、インターフェース、プロセス、ベクトルがマジックを生むんだ。
これが俺が見てるトポロジーだな。
標準ベンチマークじゃなく、制御できるパズル環境を使うってのは賢いね!
3つのパフォーマンス領域が見つかったのもすごい!
この複雑度領域が経済的価値とどう繋がるか、見てみたいな。
それってそんなに驚くことか?
簡単な質問に「よく考えろ」って言ったら、そいつは深読みしてトリック questionだと思うだろ?
つまり、考えすぎだよ。
モデルと人間を比べるのは難しいから、両方どうかって答えるのは分からないな。でも、モデルについては、多くのLRMがLLMに大量のポストトレーニングを追加したものだから、これは面白い発見だね。Appleの論文で評価されたモデルの一つ、DeepSeek R1については、DeepSeek-V3-Baseを使ってどうR1を作ったか詳しく書いてるよ[1]。
もしポストトレーニングが単純なタスクで性能を下げてるなら、そうならないようにする方法を研究する必要があるってことになるよね。つまり、どんな種類のトレーニングでも、もっと能力が上がるべきだってこと。これはDNNの歴史的な問題でもあって、テキスト/画像分類器のファインチューニングでもこういう問題があったんだ。一部の重み変更は破壊的になり得るから、すごく注意深くやる必要があるんだよ。きっと多くの人が取り組んでると思う。誰かここで話してくれるといいんだけどね :-) [1] https://github.com/deepseek-ai/DeepSeek-R1
パズルを使うのは特別でも何でもないよ。LSTMの論文(1997年)以前から百万回もやられてきたことだからさ。 https://www.bioinf.jku.at/publications/older/2604.pdf
Arc Prizeが最近新しいアップデートを出したんだけど、あれ全部ミニゲームパズルなんだってさ。 https://arcprize.org/
人間の言葉って、認知ツールとしては全然完璧じゃないけど、基盤じゃないから役に立ってるんだよね。コミュニケーションとか、ちょっとした推論や計画を高レベルでやるのに使ってる感じ。
人間の言葉は、強固な認知を築くための基盤として、世界の相互作用を置き換えるには弱すぎる(曖昧だし、矛盾してるし、表現力が足りないとか)って強く信じてる。
LLM\LRMモデルの結果に簡単に騙されちゃうのは、普段から言葉の流暢さとか知識検索を、友達同士で知性を測る目安にしちゃってるからなんだ。
人間の言葉って、表面的な構文や意味よりもっとパワーがあるんだよ。形式的に正しくなくても意味が伝わる。文法が滅茶苦茶でも、ジョークとか比喩とか、感情的な表現を使って効果的にコミュニケーションできるんだ。この豊かさが、言葉を人間独自の認知機能にしてる。体の動きとかみたいな基盤じゃないけど、単なる高レベルのコミュニケーションツールなんかよりずっと奥深いんだ。
言葉がコミュニケーション媒体より認知ツールとして役立つっていうのは同意だよ。でも僕が言いたいのはそこじゃなくて。「地図は領土じゃない」みたいに、この地図(言葉)は、与えられたもの以上のものを生み出すには貧弱すぎるってこと。
これ同意。人間の言葉って、情報がギュッと詰まってないし、冗長で意味のない繰り返しが多いよね。
あと、こういうシステムを使う時の運と生存者バイアスが複合的に影響してるんじゃないかとも思うんだ。これらのシステムとの一連のやり取りを、失敗と成功の確率モデルとして考えると、当然「 fantastic 」な結果を出すユーザー層が出てくる。この層がシステムの良さを強く推すんだ。確かにモデルには何か良いところがあるんだろうけど、「成功」のどれだけが単なる運なんだろうね?
言葉が、世界との相互作用を仲介してるんだよ。仲介されてない相互作用なんてない。現実と一番直接触れてる!って感じる瞬間、それこそが、言葉の奥深くに入り込みすぎて、言葉が見えなくなってる時なんだ。
あなたはどうかしらないけど、僕が知る限り、必ずしも言葉を使わずに体や感覚で世界と関わったり操作したりできるんだ。実際、ジョギングしながら全く別のこと考えてても、言葉なしで physical な判断や行動を同時にやることがよくあるしね。それに、動物(特にアメーバみたいな下等なやつ)だって言葉なしで世界と関わってるじゃん。
クオリアとか哲学的なゾンビとかの複雑な経験論的な概念を抜きにすれば、言葉は主に高等な動物が他の動物とコミュニケーションしたり、(たぶん)思考の train を維持したりするのに役立つみたいだね(そうしない人もいる記録はあるけど)。そして今は、人間がLLMと話すためにもある。
まあ、話がそれたけど、これはオープンな学術的な議論だと思うな。奥深くにいつも言葉があるって言うのは憶測だよね。
現実世界で言葉の曖昧さを navigate する方法として、AI legaleseみたいなものが必要なのかもね。まあ、そうプロンプトしないといけないなら、ちょっと本末転倒な気もするけど。
著者はモデルが“全知だけどバカ”っていう直感を捉えようとしてると思うんだ。これが続くかはまだ定量化されてないし、このPDFも十分じゃないね。楽観派は賢くなってる、悲観派は単に“全知性”の副産物だって思い続けるだろうな。この議論を進めるにはもっと決定的な論拠が必要だ。でも、この疑問は重要だよ。もし全知だけどバカなら、「超人アシスタント」止まりで、「人工超知能」にはならない。経済的にも「SaaSの別形態」で、経済が変わるほどのインパクトはないかも。著者には頑張ってほしいね。
>著者はモデルが“全知だけどバカ”っていう直感を捉えようとしてると思う
こういう擬人化はやめようよ。ツールに“全知”とか“バカ”なんて形容詞は不要だ。彼らに知性や思考、推論はないんだから。LLMは生成データを文脈にして最終回答を出すだけ。うまい技だけど、幻覚などの根本問題は解決しない。推論プロセスがゴミなら答えもゴミになる。最初のステップで良いのに、その後の「待てよ!」で台無しになるのを見た。擬人化は気持ちいいし市場を盛り上げ投資家を興奮させる。実際は10年前と変わらない。あるのは優秀なパターン認識器と確率データ生成器だけ。これは役に立つが、人間的な性質を当てはめるのは議論を濁らせるだけ。
もっとコメントを表示(1)
>ツールに“全知”とか“バカ”なんて形容詞は不要だ
それは結構良い表現だと思うな。言葉なんて全部少し不正確なもんでしょ。あと、10年前と変わらないってのは違うと思う。色々進んでるよ。LLMが限定的でも、他のアルゴリズムを組み合わせればいい。AlphaEvolveとか見てよ。<https://www.technologyreview.com/2025/05/14/1116438/google-d…> 50年以上破られなかった行列乗算の record を更新したんだぜ。これがある程度知的だって言うのは難しくない?
>これがある程度知的だって言うのは難しくない?
役立つことが知的であることの証明じゃないよ。議論は能力じゃなく言葉の使い方についてだ。ブレークスルーは、人間が苦手なデータ内のパターン発見のおかげ。大量データと計算能力があれば、人間には無理そうな結果に感動しやすい。でもこれは知性じゃない。機械はデータの意味を理解してない。アルゴリズムは報酬を得たトークン順列を生成するよう最適化されてるだけ。役立つけど、思考や推論はない。オオカミがヤギの近くにいられない理由とか、キャベツの味は分かんない。訓練データやトリックで騙されるだけなんだ。だから、「strawberry」に’R’がいくつとか、歴史的に不正確な画像を生成しないように、常にトリックを追加する必要があるんだよ。
>彼らに知性も思考も推論はないんだから
コンピューターは考えられないし、潜水艦は泳げない、ってことだね。
LLMにオオカミがヤギの近くにいられない理由を聞いたら、きっと合理的な答えを出すと思うんだ。トークンの順列を使ってるって分かってるけど、知性はメカニズムじゃなく結果で判断すべきじゃない?そうじゃないと、人間だって単なるニューロンのパターン発見だから知的じゃないってことになっちゃうよ。
>機械はデータの意味を理解してない
“ semantic understanding ”ってどう定義するの?現象意識がないって言う以外でさ。機能的な semantic understanding の概念は LLM にある程度当てはまると思うんだ。通常、何かを理解してるってのは、対象との関係で色々できるってことだよね。関連する存在やその関係、因果関係とかを認識できる。これは丸暗記じゃなくて、知らないことでも推論できるような反実仮想的な性質がある。そして LLM はこれが得意なんだ。>
「strawberry」に’R’がいくつとか…トリックを追加する必要がある
この失敗は LLM に知性がないせいじゃなくて、トークンがどう表現されるかの問題だよ。文字じゃなくてサブワードの塊を見てるんだ。画面の画像のピクセル数えるの期待するみたいなもん。人間だって自然じゃないから間違いやすいでしょ。
全知だけどバカな状態が、人間の知性レベルで頭打ちになる必要はないと思うよ。
現象意識は必要ない。必要なのは一貫性。LLMは一貫性がない。これは否定できないよ。問題を解決したとか言っても、そうじゃないテキストを生成することがあるし、訂正しても繰り返す。君(コメント8)の最後の段落がこれを認めてる。トークン化だけでは現実を正確に、信頼性高く表現できないんだ。特定の問題は解決したように見せかける調整はできるけど、真のAIはそうじゃなく、問題クラス全体を解く信頼できる一般的な戦略に基づくだろう。そこにはまだ全然近づいてないのは明らかだよ。
「真の」知能の定義、粘菌とか見るとおかしくない?脳がなくても問題を解くし。知能って「持ってるか」じゃなくて「できるか」じゃないの。LLMは人間と違うけど、問題を解けるなら知的な行動って言ってもいいと思うな。
AIと人間って、潜水艦と魚みたいなもんかも。潜水艦は速くても、魚みたいにスイスイ動けないじゃん。計算はコンピューターの方が速いけど、LLMがあっても人間の知能が必要なことって、まだまだたくさんあるんだよ。
知能の基準にconsistency(一貫性)を持ってくるのは変じゃない?だって人間だって全然consistentじゃないし、賢い人だって普通に間違いを犯すじゃん。
AIの進歩、マジでヤバいと思う(良い意味でも悪い意味でも)。少し賢くなっただけなのに、使える能力はめっちゃ上がった。今のLLMは知識は豊富だけど、推論とか戦略は苦手。
でも、あと一歩で人間を出し抜く「アウトストラテジー」ができるようになるかも。研究者もそこを狙ってるし、ブレークスルーは近いかもね。
たぶん、この人は「AIはsuperhumanly assistiveで止まる」って主張に反対してるんだと思う。だって、ちょっと能力が低くても、膨大な知識とゴリ押しパワーで人間を代替して、社会をガラッと変えちゃう可能性だってあるんだから。
Watsonみたいに難しい質問に昔から答えられるプログラムはあったけど、人間を置き換えられなかった。LLMは知識検索は得意だけど、論理的な部分はまだ自動化できてないんだ。Large Logic Modelなんてまだないし。
これって、Dijkstraの引用からのポイントだね。目的が達成されるなら、どうやってそうなったかは関係ないってこと。LLMが正しいコードや翻訳を出せるなら、それが「思考」だろうが他のやり方だろうが、どうでもいいんじゃない?興味深い視点だと思うよ。
LLMのinconsistency(一貫性のなさ)を人間と比較するのは間違いだよ。「人間は能力があるけどミスる」のと「LLMは根本的に無理」なのは全然違う。LLMは統計モデルで、意味を理解してないからinconsistentなんだ。間違いを教えても、次は良くなるわけじゃないんだよ。
君の言う通りだと思うよ。今あるモデルでも、もっと規模を大きくしたり、推論のやり方を変えたりすれば、次のすごいステップに進めるかもしれないね。
LLMだけがモデルじゃないってば。他のいろんなアーキテクチャや組み合わせも研究されてるんだよ…TransformerもKnowledge graphで面白いことできるようになったし、自己回帰型の物理PDEモデルの進歩も興味深いね。
そのうち本物の生物的なニューラルネットを提供するプロバイダーも出てくるかも(GPUクラスターより脳みそタンクの方がコスパ良いかも?)。M2MとかMCPとか使って、このAI動物園を組み合わせれば、「ニセモノ」と「本物」の知性の境目が曖昧になって、か弱い人類がASIの領域に突入するかもね…まあ頑張ろうぜ。
「LLMは根本的にXが不可能」って言うけど、それがまさに議論のポイントじゃん。勝手に決めつけちゃダメだよ。「統計エンジンで次のトークンを生成してるだけで、意味理解がない」ってのも、ものすごく議論の余地があるポイントを断言してるだけ。
LLMは単に「次のトークンを予測」してるんじゃなくて、世界をモデリングしてるんだよ。いくつか例があるよ[1][2][3]。
この時点で違うって言い張る人は、誠実に議論してないね。LLMについて一番強い意見を持ってる人たちが、LLMを理解してないみたいで面白いわ。
[1] https://arxiv.org/abs/2405.15943
[2] https://x.com/OwainEvans_UK/status/1894436637054214509
[3] https://www.anthropic.com/research/tracing-thoughts-language…
これには2つの見方があるね。
出力指向:出力が人間が考えたものに似てるか?
プロセス指向:機械は実際に考えてるか?
昔、回路図を記憶だけで描いた人がいたけど、入力から出力へじゃなくて、左上から右下へ適当に描いてたんだ。丸暗記でも試験には通るけど、エンジニアリングを「知ってる」のと、方法を応用して結果を出せることの実用性には、ある時点で意味のない差しかないんだ。
ここでの混乱はまさにこれだよ。だから両方の意見が正しい。
1) これらのツールは人間的な意味では「思考」しない。
2) 出力は人間が考えたものと同じことが多い。
もし結果だけを気にするなら、違いは何?プロセスを気にするなら、これは思考じゃない。
別の文脈で言うと、消費者なら、手作りの職人技だろうと、ただ動けばいいものだろうと、気にする?
他の競合と戦う生産者なら、競合が偽物を安く売ってるかどうか気にするよね。
スライムモールドが知性を示すかどうかは議論の余地があるけど、その行動と現代のAIシステムには大きな違いがあるよ。あの生物は迷路を通り抜ける訓練を受けてないんだ。自然界でエサを探すのと同じように行動してるだけで、それを人間が「迷路を解く」って解釈してるだけなんだ。
AIシステムに同じことをさせるには、迷路解きを含む大量のデータで「訓練」する必要があるんだよ。この訓練は他の問題には応用できないから、それも個別に訓練が必要になる。
人間や他の動物が学ぶときを考えてみて。知識は応用できるんだ。例えば、紙の上で迷路の解き方を学べば、それを生垣の迷路を解くのに応用できるだろ?極端な例だけど、言いたいことは分かるよね。人間は学ぶときに頭の中にアイデアのウェブを構築して、後でそれを他の問題を解くのに使えるんだ。これが知性の兆候で、現代のAIシステムにはまだないものだよ。知性の幻想を見せてるだけで、でも前にも言ったけど、それでもすごく役に立つんだ。
「望ましい結果(水中での移動)が得られるなら、やり方が違っても関係ない」って言うけど、でも人間にはまだ思考が必要なんだよ。
だから人間がやってることで、LLMがやってることと違うことには、やっぱり言葉が必要なんだ。もし違いがないって言うなら、人間とLLMモデルの能力の vast(広大な)な違いをどう説明するの?
潜水艦と水泳はそのための素晴らしいメタファーだよ。潜水艦は明らかに泳がないから、水中での能力は全然違うよね。ある点ではずっと優れてるけど、別の点ではずっと劣ってる。だからこのメタファーを使うと、LLMの「思考」は、人間がやってることと全然違うから、同じ言葉で説明できないってことが明らかになるんだ。
うん、まあ、LLMがある種のワールドモデルを構築してる可能性を示す証拠はあるんだろうね。
でも、それは論点からずれてるんだよ。論点は、「人間も一貫性がない」って言って、LLMに見られる一貫性の欠如を問題視しないようにしてたことだろ?
人間はそうしようと思えば完全な一貫性を持てるんだよ。人間の変動性や間違いやすさを持ち出して、LLMの根本的な能力の欠如をごまかしちゃダメだ。特に、その根本的な能力の欠如が経験的に示されてるのにね。
私はまだLLMは一貫性を持てないと思ってるよ。TheOtherHobbesが言うようにね。そして、君はそれを何も否定してない。
本当の論点に対応してよ。そうしないと、君こそ誠実に議論してないってことが明らかになるだけだよ。
そして、頭の悪い、力任せなプロセスが知的なデザインを生み出す良い例があるよ——進化だね。
「これらのツールは「全知」でも「頭が悪い」でもない。知性がない。思考も推論もしない。」
「全てのLarge「Reasoning」Modelは、最終的な答えを生成するためにコンテキストとして使うデータを生成するだけ。つまり、合成データに基づいてリアルタイムでチューニングしてるだけだ。」
こういうコメントをする人が、比喩に苦労してるのか、異なる抽象レベルで概念を議論したがらないのか、いつも不思議に思うんだ。
明らかにLLMが「全知」じゃないのは当たり前だろ。それを否定する投稿なんていらないよ。投稿主は文字通りそんな意味で言ってないんだから。それは二つの(かなり?)独立した軸を表す比喩なんだ。一つは知識の幅、もう一つは知性や「推論」できる能力に近いもの。その反対が頭が悪いってことだ。
だから一方の極端には、全く汎化も合成もできないものがある。見たことのあるものを完全に一致させないと正しく応答できないけど、膨大な量のデータを見たものだ。もう一方の極端には、ごく少数の一般的な事実や概念しか知らないけど、その場で第一原理から推論するのがめちゃくちゃ得意なものだ。どちらも評価では同じスコアになるかもしれないけど、将来の成長の見込みは全く違う。
それは素晴らしい比喩で、問題を考える良い方法だよ。それを投稿主は2文で、素晴らしい比喩を使って表現したんだ。
「我々が持っているのは、非常に優れたパターンマッチャーと確率的データジェネレーターだけだ。」
これは役に立たない説明だよ。オブジェクトは部品の総和以上だ。そしてより高レベルな振る舞いは創発するんだ。この発言は事実としては正しいけど、コンピューターをゲートとワイヤーの集まりに過ぎないって説明するのと同等で、より高レベルな抽象度で議論すべきじゃないって言ってるようなもんだ。
みんな、すごく洗練された推論(inferency)みたいなことをやってるんだけど、今はめちゃくちゃお金がかかるし…秘密にしてる傾向があるんだ。
私の代替定義はこんな感じかな。知性とは問題を解決する能力で、問題は文脈によって定義される。つまり、何が知性で何がそうでないかは、問題自体が negotiable(交渉可能)な状況では話し合いで決まるってこと。水に迷路を解かせたら、まあ水にも知性があるって言えるかもしれないけど、それは馬鹿げた言い方だよね。それはむしろ、知性が物質的な現象であって、信じられないほど愚かに見えるものが驚くほど賢い行動を示すことがあるってことなんだ。
LLMはウイルスやタンパク質や水よりはるかに進んでるよ。LLMをエラーメッセージにアクセスできるコードエディタに入れたら、君が作った問題を解決できるんだ。水が迷路を流れるのにすごく似てるね。学習したり変化したりする?いや、LLMの構造の中に全て既にあるんだ。主体性はある?いや、入力から出力への transparently deterministic mapping(透明に決定論的なマッピング)だよ。賢い行動を示すことはできる?うん、できるね。
AIの結果だけで知能を判断するのは中国の部屋の主張と逆だよ。記事の反論は弱いと思うな。https://en.wikipedia.org/wiki/Chinese_room
成果だけでなく、AIが本当に理解してるかが大事だよ。今のAIはパターンマッチングで、ちょっとデータが変わるとダメ。人間も暗記か理解かの違いあるよね。LLMは暗記型。昔のAI研究はもっと知識ベース寄りだったみたい。
論文の結論「複雑すぎるとAIが崩壊する」って、プログラミングの時と全く同じ経験だわ。LLM (Claude + aider) をうまく使うには、AIに与える情報の複雑さを調整するのがコツだね。
この論文から変な結論出す人いるけど、特定のモデルである複雑さ超えるとダメって話なだけ。将来のAIのことは言ってないよ。人間も考えすぎるのと同じで、簡単な問題で「思考」が逆効果になるって結論はちょっと意外だったかな。
もっとコメントを表示(2)
いや、結果は他のモデルにも当てはまると思うよ。これはAIが結局、学習データのパターンを繰り返してるだけで、新しい推論タスクには弱いっていう、LLMの根本的な性質を示してるんだから。もし外挿できないなら、一部のAIだけが「本当の推論」ができて、そうじゃないAIもいるって質的な違いがあることになるね。
著者たちは論文でLLM全体の限界じゃなく、「今のAIモデルの弱点」って言ってると思うよ。それに、AIの推論能力は前より上がってるじゃん。もし著者が、昔のAIも今のAIも同じ複雑さで限界だったって示せてたら説得力あっただろうね。
AIに推論とか思考を加えても、必ずしも良くなるとは限らないって著者が言ってるのは大事な点だと思うな。コストとか色んな問題での回答の質を考えると、逆にマイナスになることもあるみたい。
人間の脳も同じだよ。分野が違うと知ってる知識を応用できない人とか、結構いるからね。結局、得意な人は類推が上手いだけじゃないかな。
みんな「AGIはすぐそこ!」って騒いでたの、懐かしいね。ガートナーのハイプサイクルって、こういう盛り上がりが落ち着く様子をよく表してると思うわ。
進歩は8割くらいかな。簡単なとこは終わったけど、難しいとこはマジで大変で、先に進むのに何年もかかりそうだよ。
AIの難しい部分はなかなか進まないし、ブレークスルーが続く保証もないんだよね。過去にも「AI Winter」は何度もあって、もうすぐ!って期待が外れた。LLMは実用性はあるけど、進歩が続くと信じるのは過去のAI Winter前の過剰な期待感と似てて心配だね。
AIって自動運転車に似てるよね。どっちも「もうすぐ!」って言われてるけど、一番難しいところ(曲がり角)をクリアできてない感じ。
AI Winterの話ね!そういえば、「機械学習」って呼んでた時代もあったよね。AIって実用化されてみんなが普通に使い出すと、「ただの顔認識」とか「ただのオススメ機能」みたいに呼ばれなくなるんだよな。まだ実用的じゃない技術だけがAIって呼ばれてるのかも。
AIってさ、LLMとかNNだけじゃなくて、いろーんなアルゴリズムや技術をまとめて言うんだよ。それに、ここ数年でAIの定義もすっごく狭まったんだよね。80〜90年代の定義で言えば、今の「自動化」って呼ばれてるもののほとんどはAIだったんだよ。
ああ、あの「AIのストローマン定義」ね。掴みどころがなくて、厳密じゃなくて、専門家にも全然認められてないっていうやつ。まるで「いや、多くの人が昔そう言ってたらしいよ、って聞いたんだけど…」みたいな話と同じレベルだな。
Waymoは自動運転の例としてよく挙がるし、確かにすごい。でもWaymoは自動運転界のDeep Blueだよ。囲まれた空間で強い。これはジオフェンシングのおかげで、探索空間を絞り切れてるから驚きがなくてうまくいくんだ。AIは探索空間が限られてると強いけど、汎用AIはもっと広い空間を扱えないとダメで、そこが限界。結局AIってのは、インプットから最適なアウトプットを探す「情報に基づいた探索」なんだよ。
「stochastic parrot」とか「単なるマルコフ連鎖」「行き止まり」って言われてたのを覚えてる?agentic codingみたいなのが出てきてからは、そういうこと言う人聞かなくなったよね。
AIってさ、結局はマーケティング用語なんだよ、昔からね。その時々の流行り技術に合わせて中身が変わるだけ。18世紀の時計仕掛け人形が「Cogito Ergo Sum」って字を書いたのも、当時は機械が考える証拠かも?って思われたんだ。BBCの動画見てみて。https://www.reddit.com/r/history/s/d6xTeqfKCv
AIってマーケティング用語になってるけど、技術用語としても使えるよ。マーケターが言葉を悪用したからって、言葉の意味がなくなるわけじゃないし。
「思考」って何?AGIって何?って話だよね。LLMとかRLは初めてそれに近づいた感じだけど、まだ足りないかな…。
一方で、オートパイロットみたいな単なるPID loopはML(AI)じゃないでしょ?もしそうだっていうなら、それが機械式時計とどう違うのか説明してよ。
LLMのことは、ずっと「ジュニアデベロッパーみたいに」扱い続けるんだろうね。
例えば画像を推論できるシステムが、もはやAIって呼ばれるに値するのか、よく分かんないな。
Autopilotはコンピュータができる前からあったし、機械とか制御理論で作れるから、妥当な定義ではAIじゃないよ。そうじゃないと、制御システムがある機械全部がAIになっちゃうでしょ?電子レンジの時計はAI?
だから、制御理論からくるアルゴリズムはAIじゃないと思う。ただの古い機械だよ。Wright Brothersが制御理論を飛行機に入れたから飛べたわけで、もしAutopilotがAIなら、彼らはAIを開発したことになる。誰もそう思わないでしょ。
実行中のLLMって、何だと思う?基本的に単なるPID loopみたいなもんじゃん。新しいことは何も学んでないし、君がトイレに行ってる間も君との会話について考えてるわけじゃないしね。
コンピュータだって単なる機械的な装置なんだから、(AIの)定義が純粋な機械装置を除外しないっていう点がポイントだと思うけどね。
ああ、AIって長い間、限られた探索空間の分野では得意だったよね。あまりに得意になりすぎて、昔AIって呼ばれてたことの多くが、今ではAIじゃなくて「単なる」algorithmって呼ばれてるけどね。
…でもそれって、たった2年前のことだろ?GPT2からAGIまで10年で行くとしたら、それでもめちゃくちゃ速いって感じるだろうな。
LLMがPID loopと同じだって言うのは、全く馬鹿げてるよ。その理屈だと、747は「基本的に単なる芝刈り機」ってことになるじゃん。
市販の「推論」モデルは、答えを出すのに10~15分かかることだって簡単にあるよ。それが「思考」とカウントされるかは別としてね。
「(AIの)定義が純粋な機械装置を除外しない」っていうけど、同じ理屈で小鳥や人間だって機械装置だよ。それがどうした?
機械装置を除外しろなんて一言も言ってない。言ったのは「機械式時計」のことだよ。もしAutopilotがAIだって主張するなら、文字通りの懐中時計はAIじゃないっていうのと、どう辻褄を合わせるのか知りたいね。
たとえ今の彼ら(LLM)がこれ以上良くならなくても(ありそうもないけど)、俺の28年のキャリアの中で、ソフトウェア開発とソフトウェア開発業界における最大の変化であることには変わりないね。