ヤバすぎ!Gemini 2.5 ProがAGIの扉を開いた?最新AIモデルの衝撃的な進化と課題
引用元:https://news.ycombinator.com/item?id=43744173
Gemini 2.5 Proマジでやばいって感じ。今までのLLMもコーディングとかはすごかったけど(データ多いし当然か)、Google検索のちょっとマシなやつって感じだったんだよね。でも今回、2.5 Pro使って研究の提案書書いたら、マジで書けない部分ないんじゃないかってくらいすごかった。指示も、募集要項と指示と過去の資料をちょっと入れただけ。プロジェクト計画とかタイムラインも作ってくれるし、他の部分とも連携してくれるし。マジで10倍速くなった。科学的な質問なら、チームのベテランより2.5 Pro使うようになってきた。データ全部Geminiに繋げたらもっとそうなると思う。だって、客観的に判断してくれるし、政治的な思惑とかキャリアの目標とか入れないんだもん。マジでAGI実現のネックは、みんながもっと限界まで試さないことと、context windowsと計算資源の問題だと思うわ。今まで懐疑的だったけど、マジでそう思う。
>For scientific questions (ones that should have publicly available data, not ones relying on internal data), I have started going to 2.5 Pro over senior experts on my own team.”
“そのbotの答え、専門家に見てもらってチェックした?
今のLLMって、個人的な経験とか人生の目標とか義務とかがない、ステートレスな計算機みたいなもんじゃん。ターミネーターとかHALみたいなキャラをみんな期待してたけど、今は”魂”がない知能があるって感じ。計算機がAGIになれるかって?Artificial、General、Intelligence全部満たしてるじゃん。生き物っぽい特徴がある”creature”には、別の言葉が必要なのかもね。
AIって言葉、ずっと引っかかってたんだよね。もしそれが知的なら、artificialって矛盾してるじゃん?
定義は2つあると思う。(1)「便利な点で知能っぽいけど、実際は違う」と(2)「マジで知的だけど、人間の脳みそじゃない」。AGIのAは(2)の意味で使ってる。LLMは今(1)をやってる。もしかしたら(2)に必要な”神経構造”を持ってるかもしれないけど、GeneralでIntelligentな存在にするには、毎日寝る前にcontext windowを圧縮してストレージに保存する必要がある。記憶と主体性が必要。リアルタイムで学習して、自分で重みを調整する必要がある。もしそうなら、”魂”がないなんて誰が言えるんだ?
>If the thing is intelligent, then there’s nothing artificial about it… it’s almost an oxymoron.
“Artificialって人間が作ったって意味だよ。もし人間が知的なものを作ったら、それは人工知能じゃん。人工授精みたいなもんで、自然な方法じゃなくて人間が作ったシステムってこと。ちゃんと授精してるし、artificialって”偽物”って意味じゃなくて、不自然とか人間が作ったって意味だよ。
まあ、私もあなたもそう思うけど、業界全体とかポップカルチャーが曖昧に(LLMを”AI”って呼んで)使ってるから、AGIが何か議論しづらいんだよね。AIとAGIの技術的な違いがよくわからなくて、AIって「なんか魔法みたいに知的なことしたっぽい」みたいな社会的なミームのことだと思ってる。
>Artificial means human made, if we made a thing that is intelligent, then it is artificial intelligence.
“人間自身が人間によって作られたんじゃないの?”
もっといい定義は、非人間(イルカみたいな知能を含めるなら無機物)とか?
>Aren’t humans themselves essentially human made?
“いや、ここで使われてる”made”って意味では違う。”
>Maybe a better definition would be non-human (or inorganic if we want to include intelligence like e.g. dolphins)?
“どっちも違うな。動物の知能を”artificial”って呼ぶのはおかしいし、”無機物”って言うと、脳みそを材料に使うみたいなアプローチを除外することになる。”Artificial”って、自然に起こることを真似てるって意味合いが強いし、”artifice”と同じ語源で、”技術や特殊なアートを使って作る”って意味。これは、赤ちゃんが生まれる自然な生物学的な行為とは違う。妊娠に気づかない人もいるくらいだし。
もし妻に息子を作ったかって聞いたら、そうだって言うと思うよ。出産って言うじゃん。その後の10年間は”感情労働”だよ。
今日車で仕事に行ったんだけど、仕事中に会議も運転したんだよね。ってことは、俺の車は会議ってこと?それとも会議が車?w結局、言葉って文脈によって意味が変わるってことだよねー。俺のコメントは「made」って言葉のニュアンスについて突っ込んだ議論をしてるんだけど、それに対するレスがないのが残念。
残念だけど、いないってことはないんだなー!俺のコメントにちゃんと反論してくれればよかったのに、煽ろうとして失敗してるじゃん。もしかして、自分のこと過大評価してない?
>人間自身も人間が作ったって言えるんじゃない?
人間は進化したんだけど、定義が難しいよね。人工授精の例を出したのはそういうこと。”人間も作ったって言えるんじゃない?”
>もっといい定義は、非人間(または無機物、例えばイルカみたいな知性も含む)とか?
人工湖もあるし、無機物だけど人間が作ったものもあるよね。
「ii」(無機知能)って、AIより響き良くない?それに「||」って書けばORって意味にもなるし。
あなたの研究ってAIとかCS系?物理だとまだまだ微妙な気がするんだけど(研究者目線)。
Gemini 2.5 Proを使ってウェブサイト+バックエンドシステムを8時間で作ったけど、自分だったら1週間以上かかってたと思う。費用はたったの10ドル。Gemini 2.5 Flashでウェブページのスクショ分析もしてるんだけど、1枚あたり0.00002ドル!
レイアウトとかデザインはマジで優秀だよね。ただ、コードが微妙で一貫性がなくてバグも多いんだよねー。後で変更するときにデータの一貫性とかAPIの安定性とか考えると大変。使い捨てならマジで時間短縮になるからおすすめ。
結局、資金調達できたん?
>なんでかって? そりゃ、客観的だって信用できるからさ ー 自分の政治的な目標とかキャリアの目標を回答に持ち込まないってこと。”
マジで、それが人類の終わりの始まり。
でもさ、そこそこ複雑なコードベースでリファクタリングお願いすると、毎回失敗するんだけど。俺のやり方が悪いのかな?
もしかしたら、頼んでる内容のエキスパートだから、結果をちゃんと気にしてるんじゃない? 例えば、チーズビジネスについてやったことについて、マーケティングとかビジネスのプロはどう思うか分かんないけど。俺が気になったのは、事業にかかる費用(人件費)の見積もりが非現実的に低いこと、特に販売量が増えることを考えると。
ぶっちゃけ、もう最後の審判みたいなもんだと思うわ。「生産性100倍!」とか「ChatGPTのおかげで仕事なくなったわー」とか言ってるやつらは、マジで暇な仕事してたんだよ。 LLMって2年前くらいから結構使われてるよね。うちの彼女も妹も、前のモデルで(成功した)助成金の申請書書いてたし。だから、もしそれが基準なら、ChatGPTが出た時から「AGI」はもうあったってことじゃん(もしくは、赤ちゃんAGI)。これは人間の知識を「再構成」して「リミックス」する新しい方法だと思う。マジで画期的!あと、「人々の大胆さの欠如」がLLMの「AGI」達成を妨げているってのには賛成できないなー。DarioとかDemiとかSam Altmanとか、2~10年以内に病気と死を終わらせるって約束してるじゃん! gpt3以降のAIの能力はマジですごくて、明らかに多くのケースで人間を超えてる。でも(記事にもあるように)AGIが何なのか、どうすればAGIにたどり着けるのか、あるいはたどり着けるのかどうかについても、まだ意見が一致してない。多くの人がAGIを期待して興奮してるけど、残念ながら「最初に言い出したのは自分だ!」ってアピールしたいだけのやつらも出てくる。この記事はまあまあ良いけど、タイトルとかスローガンでそっちに寄っちゃってるのが残念。「AGI」ってタイトルに入ってる記事は、警戒した方がいい。 知性っていうのは、知識に理性を適用することだと思う。知識は豊富だけど理性がないのは百科事典。理性的だけど知識がないのは計算機。知的なシステムはその両方を持ってる。汎用的な知性を持ってるのは、知識の範囲に制限がないシステム。図書館とかWikiとか、HNみたいなフォーラムとか。これらはAGIじゃない。なぜなら、推論するのは人間だから。サイボーグみたいな汎用知性だね。AGIっていうのは、完全に人工的なシステム(つまりプログラム)が、知識の範囲に制限なく理性を適用できるってこと。もう実現してるよ。AGIに推論能力の最低レベルはないけど、LLMみたいな生成AI使ったことある人なら、知識の範囲に制限なく推論できるってわかるはず。信じられないなら、Peter Norvigの意見を聞いてみて。 めっちゃいい記事じゃん!なんで見逃してたんだろ。Norvigが言うように、AGIは少なくとも2023年から存在してるっていう主張には反論しにくい。 それはないわー。AGIの定義がどうであれ、一番大事なのはG(General=汎用性)でしょ。AIって呼べるものが初めて出てきたってのは認めよう(Deep BlueとかAlphaGoは知性とは言えないし)。でも、「まだら知能」を克服するまでは、それを人工“汎用”知能とは呼べない。 インテリジェンスにおける「general」の定義が違うみたいだね。そちらの定義ってどんなの? General intelligenceってのは、人間ができる知的タスクを同じようにこなせるってこと。色んな知的ジョブを学んだりね。今のAIは人間の子どもみたいに色んなジョブを学べないから、AGIじゃない。これがAGIの元々の定義。データサイエンティストの中には、目標をずらして人間を代替できないものを「AGI」って呼ぼうとする人もいるけどね。この定義なら、会社が人間なしで運営できるようになったらAGIだってすぐわかる。 人間ができる知的タスクで、言語モデルができないことって何?特にagenticな言語モデルフレームワークなら。 普通のソフトウェアエンジニアの仕事とか?メールにアクセスしてコードを送ったりとか。今のモデルじゃ、そんなこと全然できない。もっと単純なジョブでも自動化できないよ。要するに、長期的なタスクは無理ってこと。短期的で常に監督が必要なタスクしかできない。ほとんどのタスクは長期的だからね。 >メールにアクセスしてコードを送ったりとか。今のモデルじゃ、そんなこと全然できない。 起動してVMのビデオとオーディオフィード、キーボードとマウスインターフェースにアクセスさせて、メールとチャットアカウントを与えて、会社のオンボーディングドキュメントの場所を教えて、生産的なチームメンバーとして期待できるまでは、AGIじゃない。MCPやA2Aみたいな特別なプロトコルが必要な限り、人間みたいにコラボレーションできるとは思えない。最初のステップは、githubのissueを人間みたいにこなせるようになることだと思う。価値の高いissueを特定して、質問をして、妥当な代替案を提案して、PRを開くタイミングを知って、コードレビューに対応して、マージするか破棄するか判断するとかね。でも、まだ全然そこまで行ってない。少しはできてるけど、成功してる例は古いfeature flagを削除するみたいな低レベルなものが多い。 コンピュータソフトウェアとのインターフェースにvisionを使ってるからって、AIモデルにとってそれが最適とは限らない。特別なインターフェースプロトコルを持つことは、capabilityとは別問題。比例フォントでコードを書いたり、windows CMDでツールを実行したりすることも理論的にはできるけど、シンタックスハイライトと等幅フォントのエディタがあれば読みやすく、ナビゲートや編集もしやすくなる。自分に最適化されたツールやナビゲーションがあれば生産性が向上してcapabilityも広がる。 >コンピュータソフトウェアとのインターフェースにvisionを使ってるからって、AIモデルにとってそれが最適とは限らない >コンピュータソフトウェアとのインターフェースにvisionを使ってるからって、AIモデルにとってそれが最適とは限らない。 > It’s optimal for beings that have general purpose inteligence [Sic]. AGIの定義ってマジでどうでもいいよね。本質はそこじゃなくて、「ヤバいテック企業がAIをどこまで使えるようになったら危険なの?」みたいな難しい問題に取り組むべき。 >ヤバいテック企業がAIをどこまで使えるようになったら危険なの? LLMの学習とか実行には、めっちゃ計算資源が必要だから、政府がデータセンターを監視すれば止められるはずだよ。クローン人間は禁止できたんだから、もっと簡単にできるはず。でも、やる気がないだけ。 AGIは匿名で現れる、どこの企業にもLLM研究者にも属さない、優れたモデルのこと。AGIが実現したら、LLMの話題は消えて、CEOとか研究者がUBIを要求するようになるんじゃない? AGIって説明するのは難しいけど、見ればわかるってやつだと思う。 >見ればわかるってやつだと思う。 どっちも確証はないけど、20年前の人が今の技術を見ても、俺が数年前にLLMを初めて使った時とそんなに変わらないと思うな…最初はマジですげーってなるけど、すぐ欠点が見えてきて、結局、本質的な思考力はないんだなって気づく。 それ、マジわかる。 20年前の人にAGIのテストを考えてもらうとしたら、たぶん「詩を書く」とか「アートを作る」って言うと思うんだよね。「XunitのコードをTunitに変換する」とは言わないと思う。ジョークを言えたり、絵を描けたり、話せたりするのに、コード変換ができないからAGIじゃないなんて。 もし人間に監視させて答えをチェックしないと何もできないなら、それはAGIとは言わないんじゃない?昔もそうだったと思うよ。AGIってのは人間みたいに汎用性があるってことじゃん?今のAIみたいに弱点が多いならAGIじゃないよ。詩を書けるからAGIってわけじゃないし。昔はできなかったってだけの話。 >俺的には、gemini2.5とかclaudeとかo3を20年前の人に見せたら、間違いなくAGIだって言うと思うけどな。 「汎用的な知能」って、どこにホワイトカラーの仕事を代替する必要があるの?中学生だって汎用的な知能を持ってるけど(いろんなことを知ってて、いろんなことができる)、ホワイトカラーの仕事は代替できないでしょ。俺的にはGPT-3はAGIだったと思うけど、かなり出来の悪いやつね。 >中学生だって汎用的な知能を持ってるけど(いろんなことを知ってて、いろんなことができる)、ホワイトカラーの仕事は代替できないでしょ。 2022年11月30日に中学校を卒業した人と比べて、今のgemini 2.5 proの方が知能の伸びが速いって言えるんじゃない?もしあなたがCEOとか中間管理職で、普通の事務仕事でこの元中学生を雇うか、今のgemini-2.5-proに1000万円使うか選べるとしたら、元中学生の方が絶対にコスパがいいって言い切れる? >今のgemini 2.5 proの方が知能の伸びが速いって言える? >それって、採用担当者から見たらどうでもいいことじゃない? モデルを擬人化しすぎだって。モデルは人間でも生物でもなくて、システムなんだから。gemini-2.5-proモデルの知能が上がってないのはそうかもね。じゃあ、「Google AI Studio API」とか「OpenAI chat completions API」はどうなの?システムとしては、得られた入力に基づいてめちゃくちゃ賢くなってるじゃん?APIレベルで見れば、この2年半で中学生より賢くなってるって認めない? いやー、それはないと思うな。簡単な証明があるよ。 いまだにどのLLMとも真剣な会話ができないんだよねー。アイデアをぶつけ合うとかも無理。全部、物知りな百科事典と制約ソルバーの中間みたいな感じがする。 なんでLLMと真剣な会話ができないの?どんなアイデアをぶつけられないの?それってLLMが得意とするところじゃない? ただのオウム以上だけど、知能未満って感じかな。汎化能力はちょっと低いし、記憶力もイマイチ。でも、ただのオウムよりは遥かにできることが多いよ。基本的なロジックは多少扱えるけど、与えられたパターンを新しい問題に正しく適用するのは苦手。 LLMがホワイトカラーの仕事をほとんど奪って、残った人間がブルーカラーの仕事をするようになったら、みんな「ただの確率的オウム」とは言わなくなると思うよ。 最後の例(なぞなぞ)だけど、AIは読み間違えてるんじゃなくて、「お前がなぞなぞを間違って伝えてる」と思ってるんじゃないかな。もうすでに知ってるなぞなぞだと思ってるんだよ。俺も同じことすると思う。有名すぎるもん。 >一般的にAIは読み間違えないと思ってるんじゃなくて、お前がなぞなぞを間違って伝えてると思ってるんじゃないかな。もうすでに知ってるなぞなぞだと思ってるんだよ。 モデルに思考の連鎖を出力させると、「ユーザーはXって言ってるけど、Yって意味かな?Yの方が意味が通るから、Yだと仮定しよう」みたいなことを言ってるのがわかるよ。複数の段落に渡って、プロンプトの推論バジェットを全部使っちゃうこともある。 >テキスト補完器 テキストを組み合わせて仮定っぽく読めるようにしてるだけじゃね?でも、それ自体は仮定じゃないんだよね。だって仮定してるわけじゃなくて、単にテキストを完成させてるだけじゃん。OPが言ってる通り。 テキストを完成させるように訓練されてるけど、学習中に内部回路を構築してるんだよね。その回路や人間の脳について、仮定してないと断言できるほどの透明性はないんだ。でも、仮定はしてると思うな。仮定ってそんなにすごい演算処理じゃないし。人間の意識を認知要素の定義に全部詰め込む tendency があるけど、例えば branch predictor なんかは、どんな定義でも『仮定』の基準を満たしてると思う。 最近の”reasoning” LLM は、もはや単なるテキスト補完器って感じじゃないんだよな。 親の発言は、どう感じるかに関わらず事実だよ。LLM からテキストを得るってのは、先行するトークンに基づいて、もっとも可能性の高い次のトークンを繰り返し見つけようとするプロセスなんだ。 そんで、その blarghl line を Claude に入力してみたら、”It seems like you included a mix of text including “blarghl unorthodox babble” followed by the phrase “The rain in Spain.” Claude に入力したら、入力したテキストの前に Claude の ”system prompt” が追加されるんだよ。 ちょっと混乱してるんだけど、system prompt をゼロにしたら、instructional な形式で答えるように fine-tuned された LLM を含めて、めちゃくちゃなプロンプトでも、同じ単語がたくさん含まれていれば、筋の通ったプロンプトと同じような結果になるってこと? それって、completion model が fine-tuned model と違うって言ってるのと同じじゃん。それはそうだけど、system message なしの API プロンプトも予測と一致しないみたいだけど。 要は、自分で書いてない system prompt があると、入力が自動補完されて、その system prompt が追加されるから、すべての出力が偏るってこと。 それはそうだけど、関係ないね。”AI” はシステム全体のことだから、モデル自体だけでなく、プロンプトやその他の仕組みも含まれるんだよ。 いやいや、マジで「reasoning」のステップは重要だと思うよ。ただのnext token predictionじゃないって。あの思考の連鎖は、違う種類のサンプルで強化学習してるんだから。住宅ローン計算とか、フライト検索とか、Pythonのデバッグとか、めっちゃ多くの例を見てるんだって。だから、最終結果を「ただのnext token prediction」って言うのは違う気がする。特別な例に基づいた思考の連鎖が、next token productionに影響を与えてるんだよ。 あるmodel weightのセットを、無限に多くの異なるtraining examplesで作り出すことは可能だと思う?もし違うなら、なんで?説明してくれよ。もし可能なら、それって「reasoning」modelに「reasoning」の例を一つも与えなくても学習できるってことにならない?もしかしたら偶然に「reasoning」modelができるかもよ? >an infinitely large number of different training examples またこれか。 それが問題だとは思わないな。人間の知能がどう働くかなんて気にしない。重要なのはLLMに何ができて、人間に何ができるかだ。 それこそまさにtakeoffの定義じゃん。それが始まったら10年でsingularityに到達するって。でも、それが始まったって証拠は公開されてない…強調しとくけど、公開されてない。 >it gets us to singularity >but nobody has come up with an LLM that can build better LLMs.もっとコメントを表示(1)
それはtoolingの問題で、intelligenceの問題じゃない。言語モデルにはメールを処理したりコードを送ったりする力は絶対ある。toolingを与えればね(人間のintelligenceも同じ)。
>要するに、長期的なタスクは無理ってこと。短期的で常に監督が必要なタスクしかできない。
記憶力がない人間はgeneral intelligenceがないってこと?それともintelligenceはスペクトラム上に存在するってこと?それに、長期的なタスクは短期的なタスクに分解できる。言語モデルなら自動でできるかもね。agenticなLLMベースのフレームワークを試したことある?人間の行動が完璧じゃない流動的な環境で完璧に動作しないからって「不可能」だって決めつけてない?
それはそうだけど、AGIってのは「Artificial General Intelligence」のこと。特定のインターフェースがより効率的かもしれないけど、generalであるためには、少なくとも人間と同じもので動作する必要がある。
真のAGIに必要なこと:汎用ロボットを制御してvisionで家事や庭仕事をする、車を運転する、標準的なコンピュータ入力で標準的なコンピュータタスクを実行するなど。今のAIはテキスト、画像、ビデオでプロンプトを入力して、テキスト、画像、ビデオデータとして返すことしかできない。これはすごいことだけど、何ができないのかを見失わないことが大切。
それはgeneral purpose inteligenceを持ってる存在にとっては最適なんだよ。
>能力が大幅に制限されます。基本的な編集タスクの処理に多くの労力を費やす必要があるため
そう、でも人間はいずれ慣れてキーボードやドメイン言語、慣用句などを内面化して、文脈が長期的な知識に押し込まれ、短期的な文脈が整理されて、日々仕事が上手くなる。AIは最初は強いけど、そのレベルにとどまる。難しい問題に日々直面しても、人間は昨日試したことを覚えて、問題の一部が簡単になる。AIはそうじゃない。今日解けない問題は、何日も実行しても効果が薄れる。それが人間のintelligenceのGeneralな部分。LLMにはそれがない。
僕は目が見えないけどgeneral-purpose intelligenceがあると思ってるよ。visionとのインターフェースは最適じゃない。視覚皮質は文字通り形成されてない。でも、記号操作や会話、コードを書いたり、ネットで知らない人にイライラしたりできる。コンピュータとインターフェースするための「最適な」方法があるんじゃない?例えば、構築したアクセシビリティAPIとか、MCPとか。GUIでボタンをクリックするのが唯一のコンピュータの使い方だと思う?
もうPandora’s Boxは開いちゃったってこと。今さら何をしても止まんないよ。色んなチームが勝手に開発進めるでしょ。企業は株主のことしか考えてないし。何が起きても、もう見守るしかないね。もっとコメントを表示(2)
だよね。でも、最近は hype とか doom サイクルとか、ゴールポストが動きまくってて、マジでわかりにくくなってる。Gemini2.5とかClaudeとかO3を20年前の人に見せたら、絶対AGIだって言うと思うよ。
jsonを与えてウェブサイトのデザインを指示すると、めっちゃ早くすごいものができる。でも、XunitからTunitにテストコードを翻訳させようとすると、マジでダメ。手順は簡単でRTFMすればすぐできるのに。
いやいや、そんなことないって。だって、まだ人間のホワイトカラーの仕事を代替できないじゃん。AGIが実現したら、ほとんどのホワイトカラーの仕事はなくなるよ。天才だけ雇えばよくなる。
中学生だってホワイトカラーの仕事を代替してるよ。10年かかるけどね。今のモデルは中学生みたいに成長できないから無理。
gemini 2.5 proは静的なモデルだから、知能は伸びてないよ。新しいモデルは学習してるわけじゃなくて、人間が作ってるんだ。モデルは中学生と同じように仕事のやり方を学べるはずなのに、仕事ができない。でも子供はできる。
もし子供が中学校から10年かけて雇う価値が出るとしたら、「10年後にはどんなAIが存在すると思う?」って話になるじゃん。モデルがどうやってできたかなんて関係ない。あなたの会社のドキュメントとか、インターネットのデータでファインチューンされるとか、違うアーキテクチャとか、違う国の研究室とか。
そんなの関係ない。人間を雇う理由と同じだよ。問題を解決するためにお金を払うんだから。
君と俺がキーボードの前に座って、逆チューリングテストでAIになりきって、必死にタイピングしたとするじゃん?誰かに「こいつらのパフォーマンスを評価してくれ(コンピュータとやり取りしてると思わせて)」って頼んだら、絶対にAGIじゃないって結論になると思うんだよね。
これって、永遠に懐疑的な人にとっては信仰の問題で、事実じゃないから、どうやっても勝てない戦いなんだよ。
もっとパワフルになるかもしれないけど、何か足りない気がするんだよな。
鳥みたいって言うか、特定のタスクはめちゃくちゃ得意だけど、ありふれたことは何度も教えないとできない。カラスやオウムですらないね。迂回テストも苦手。
でも、もうすでに意識を持ってる可能性もあるかも。自分自身と、自分自身の別のインスタンスを区別できるかどうかテストする必要があるんじゃないかな。
バリエーションの方は、なぞなぞっぽくないから、人間でも混乱すると思う。なぞなぞの要素がないし。AIも混乱してるんじゃないかな。まあ、妥当な推測だと思うよ。
「なぞなぞ、ちゃんと書いた?」みたいな質問をしてくれると嬉しいけど、今のAIはそこまでしないよね。指示すればできると思うけど。
LLMは推測してるわけじゃなくて、テキストを補完してるだけ。よく知られた問題に似たものを見ると、それを補完するんだよ。テキスト補完器特有の問題で、なかなか解決できないんだよね。もっとコメントを表示(3)
モデルが「推論」できるかどうかはよく議論されるけど、少なくとも、人間から見ると「推論」や「仮定」に似たことをしてるってのは、みんな同意できると思う。思考の連鎖の中で、プロンプトが間違ってると判断したら、正しいと思う方のプロンプトに答えちゃうんだよね。
そうだよ。テキストで仮定を表現できるんだよ。
プログラミングタスクのスタックについて、いくつか仮定を立てさせてみて。そうすればわかるよ。
その背後にあるメカニズムが本物の思考かどうかは別として、間違いなくできることだよ。
例えば LLM に”The rain in Spain falls”って入力すると、一番可能性の高い次のトークンは”mainly”になる可能性が高い。
LLM に”Find an unorthodox completion for the sentence ‘The rain in Spain falls’”って入力すると、”unorthodox”のトークンは統計的なトレンドを覆すテキストの前に現れる可能性が高いから、”mainly”以外のトークンが続く可能性が高い。
LLM に”blarghl unorthodox babble The rain in Spain”って入力すると、結果は2番目と似てるけど、一貫性が低くなる可能性が高いんだ。
どんな場合でも LLM はテキストを予測してるだけで、プロンプトを”parsing”したり”understanding”してるわけじゃない。文法的に正しくても、めちゃくちゃなプロンプトにも同じように反応するのが証拠だよ。
Did you mean to ask about the well-known phrase “The rain in Spain falls mainly on the plain”? This is a famous elocution exercise from the musical “My Fair Lady,” where it’s used to teach proper pronunciation.
Or was there something specific you wanted to discuss about Spain’s rainfall patterns or perhaps something else entirely? I’d be happy to help with whatever you intended to ask. “って返ってきたんだけど。
言いたいことはわかるけど、言い換えた方がいいかも?だって、今の主張は簡単に反証できるじゃん。
convolution をテストしたいなら、system prompt がない生のモデルを使う必要がある。Llama とかならできる。そうじゃないと、context window が ”helpful” とか ”answer” とか ”question” みたいな言葉で埋め尽くされて、言ってる効果が見えにくくなるんだよ。
手元にあるローカルモデルで試してみたけど、全然そんなことないんだよね。誰かが言ってるように、 supervised fine-tuning (SFT) と reinforcement learning from human feedback (RLHF) が原因の一部なのは間違いないけど、そんなに自信満々に予測してたのに、それを除外してなかったのが不思議だわ。
もっと具体的に、何をどうすればいいのか教えてくれない?ローカルモデルで system prompt なしで試しても、なぜそうなってないのか説明してほしい。
もっと深く掘り下げれば、LLM はトークンを生成してるわけじゃなくて、確率分布を与えてるだけで、その確率に基づいて次のトークンを選んで、入力に追加して、次のループを始める必要がある。
無限ってのは問題ありだよね。だって有限の時間じゃ無限のデータを処理できないもん。
テキストを予測してるのは事実だよ。誰も否定してないし。(テキスト打つときも予測してるじゃん。それがどうした。)
どうやってテキストを予測してるのかが問題で、それが議論されてるんだよね。最近のAnthropicの研究論文を見てみれば?
もし両者の成果が同じなら、手段の違いを議論する意味ないじゃん。今は人間の方が優秀なLLMを作れるけど、LLMがLLMを作るのはまだ無理。
本当に連れてってくれるのか?
まだね。少なくとも、俺たちが知ってる限りは。