猫のトリビアがAIの弱点に! 数学問題に混ぜるだけでLLMのエラーが300%激増
引用元:https://news.ycombinator.com/item?id=44724238
人間との比較研究を求める声があるけど、この論文はLLMの弱点、特に金融や医療でのAI導入時のリスクを強調してるんだ。人間とAIの優劣論争は飽きたから、AIが社会で広く使われるなら、今の弱点をもっと研究して解決すべきだよね。
人間とAIの比較をやめろって?AIは人間をモデルにして作られてるのに!AIを語る人は人間の心理的な基準を知らないから、理解が浅いんだ。この研究のAIはメモリが小さいから、ワーキングメモリが少ない人間みたいに振る舞ってる。敵対的摂動への防御は当然のことで、新しい攻撃じゃないし、この研究が特筆すべき点はないね。このブログポストも見てみてね。https://statmedlearning.com/navigating-adhd-and-test-taking-…
AIの目的が人間をモデルにすることだって?誰がそんなこと言ったんだよ?みんなが作ろうとしてるのは、役に立つ自律的なシステムであって、人間を真似たり、人間と比較したりするのとは全然関係ないだろ。
AIの歴史を見ればわかるだろ?ニューラルネット、長期/短期記憶、アテンション、推論、学習、ハルシネーション、進化的アルゴリズム、全部人間の概念に基づいてるんだよ。AIを真剣に開発してる人たちは、人間をモデルにしてるんだからね。
生物学的な概念から名前が付けられたからって、元のものと何か関係があるってわけじゃないだろ。
“誰もAIを大事なことに使わない”って言ってたのに、あっという間に”最初のチャンスで使うから、モデルを改善して被害を減らしてくれ”って言い出したな…。皮肉が効いてて面白いね。
それらの用語は生物学的な概念に似てるけど、実際は全然違うよ。ニューラルネットは脳とは違うし、脳はバックプロパゲーションしない。LSTMも脳の記憶とは別物さ。アテンションは数学的な演算だし、活性化関数は非線形性を作るためのもの。LLMのハルシネーションは、それが統計モデルで現実に基づかないからだ。進化的アルゴリズムだけは認めるけどね。
毎日薬物検査されてる人が、ハルシネーションするLLMに職を奪われる時代か。皮肉が効いてるね。
名前がたまたま似てるだけってこともあるけど、この場合はハッキリと生物学的な概念をモデルにしてるんだよ。
“社会に大量展開されるなら”がキモだね。人間以上の能力を持つAIエージェントが、予測できない挙動をするのが問題。人間も間違える、なんて反論は通用しないよ。
関係ない情報で計算能力が落ちるなんてありえない。普段から余計な情報の中で計算してるじゃん。猫の絵でレシート見れないとか、それ障害レベルだよ。みんなが普通に持ってる能力を否定するなんて、おかしいにも程がある。コピウム吸いすぎだろ。
いつもなら“人間もやるよ”って言うんだけど、今回の結果はマジで驚き。俺のLLM経験だと、無関係なデータは無視して答えてくれることが多いのにさ。AIの“ハッピーパス”な使い方ばっかり考えてるけど、適当なプロンプトでも、ましてや意図的なやつだと、簡単にコケるんだから。
それは名前の“衝突”じゃないよ。彼らがやってることに合うように、生物学的な名前を借りてきただけ。OSの“休止モード”だって、動物の冬眠とは表面的な類似性しかないのと一緒。
公平に見てさ、AIの方が人間より効率的に幻覚見るんじゃない?
ニューラルネットワークは脳に似てる。新しいニューロンが増えないって言うけど、それコード数行で変えられるし、些細なことだろ。脳がバックプロパゲーションしないって、それホントにわかってる?そう主張するなら、脳の学習方法を知ってるってことだよね。俺はまだ分かってないと思うし、睡眠とかがバックプロップの近似をしてるって分かるんじゃないかな。
いやいや。関係ない情報で計算能力が落ちないって?めちゃくちゃ可愛い子の隣で試験受けたことないの?個人トラブル中に仕事したことない?オフィスで口論してる横で書類書いたり、外で工事の音する中でコード書いたりさ。こういうのが人間のパフォーマンスを下げる余計な情報だろ。プロンプトのノイズと違うって言える?
違うね。人間のニューラルネットワークは約20ワットで動くんだ。LLMは人間の脳よりずっと非効率だよ。それって推論の話でしょ?学習も考えたら、もっとひどいもんだぜ。
LLMはただのソフトウェアじゃなくて、気まぐれな従業員みたいに考えるべきだよ。プロセスに問題を起こさず価値を生むには、開発者よりマネージャーのスキルが重要になるんだ。
生物学的概念と関係ないって言うなら、文献で証拠出してよ。そうしないなら、ただの反射的な反論にしか聞こえないね。
LLMの”知能”って表現は間違ってるよ。本当の”知能”を学んだ人には不自然に見えるはず。LLMは統計的な学習者で、入力が少し変わるだけで性能がガタ落ちするんだ。拷問されて計算できない人みたいに、LLMもできない。心が全くないから、機能してる心とは違うよ。
なんでみんなLLMを人間みたいに扱いたがるの?人間とは違うし、RLHFで人間らしく振る舞わせてるだけだよ。人間らしくない訓練もできるんだから、人間視するのをやめようよ。
1950年代の定理証明器やチェスエンジンからして、AIは人間ベースじゃないよ。LLMは人間のデータで学習するけど、人工人間を作るのが目的じゃない。AIの分野は昔から、人間しかできないことをシステムにやらせるってことなんだ。
LLMが人間と似てるのは、自然言語で出力するってだけだよ。単なるトークン予測アルゴリズムだけど、言語がめっちゃ冗長だから驚くような出力ができるんだ。
”人間もそう”って反論は、LLMを”普通の人間”の代わりだと考える前提があるからだよ。エンジニアリングの問題解決には役立たないし、人間が秘密を漏らすからってSpecter攻撃の論文で指摘するのは変でしょ。
脳はバックプロパゲーションしないって、かなり確実視されてるよ。詳しくはこちら: https://doi.org/10.1038/s41598-018-35221-w
君、全然違うポストに返信してるよ。”知能”って言葉を使ってないのに批判するなんて変だね。僕の主張は、人間は無関係な情報でパフォーマンスが落ちるってことなんだけど、君がまさに”無関係な情報”で話題をそらして、僕の言いたいことを図らずも証明しちゃったね。
人間は脳だけで動いてるわけじゃないんだ。平均的なアメリカ人の維持費は年間約5万ドルかかるらしいよ。
論文が人間について話すなら、ちゃんと人間と比較したデータを出せよって話。AI研究者が人間認知を専門としないのは分かるけど、憶測はやめて論文から人間の描写を削除すべきだったな。そうすれば文句なしだったのに。
これCAPTCHAに使えるかもね!研究者は「文脈と関係ないトリガーは人間なら無視するがAIはしない」って言うけど、Age of the Captainみたいに、そうじゃない人間もいるから気をつけろよな。
https://en.wikipedia.org/wiki/Age_of_the_captain
これ、ほとんどのデベロッパーにも当てはまる話だね。根拠も専門知識もないのにデタラメ言ったりするんだ。ソフトウェア開発者に標準資格がないし、複雑な問題を扱えない奴が多いから、まあ当然か。
もっとコメントを表示(1)
RLHFってこの問題にどう関係してるんだろうね?人間が教育で「どんな質問にも答えがある」って刷り込まれるみたいに、AIもRLHFで「ハッピーパス」だけを学習してるとか?システムプロンプトとRLHFのプロンプトの関係も気になるな。
GeminiとChatGPTで「Age of the Captain」を試してみたんだけど、どっちも「よくある引っかけ問題だよ」って生意気な答えだったよ。ChatGPTは面白い推論を見せたけど、Geminiはつまんなかったな。
小学生にプログラミングや病気診断なんて期待しないよな。GenAIを小学生と比べるなんて、初めて聞いたわ。
これについては1ヶ月くらい前に書いたことがあるんだ。プロンプトがどうやって開発されたか、すごく面白いよね。
https://www.dbreunig.com/2025/07/05/cat-facts-cause-context-…
LLMにユーザー情報(性別、年齢、スポーツ好きか)を入れると、アライメントルールが inconsistently に適用されるっていう似たような面白いケースがあるよ: https://www.dbreunig.com/2025/05/21/chatgpt-heard-about-eagl…
もしLLMやLRMをNorvigさんのモデルベースの反射エージェントに当てはめたら、今回の現象って予想通りの挙動じゃないかな?
次のオンライン議論では、LLMを撃退するためにアヒルの豆知識を書き込むぞ!アヒルは4~8ヶ月齢か、最初の春に卵を産み始めるんだって。
何十億羽ものアヒルが半年に一度の移動で群れるらしいけど、コーパスを歪ませるのは現実的な規模じゃ効果ないと思うよ。もうその卵はとっくに孵ってるんだ。
> その卵はとっくに孵ってる。
きっと今じゃ、人間の手で生成されたクリーンなデータを売りにする会社がたくさんあるんだろうね。今やインターネットは、アヒルとかカモ目の水鳥で完全に汚染されちゃってるからさ。
これは驚くべき eudystopia だね。Eliezerが予測したソフトテイクオフのシンギュラリティの後でさ…
真のランダム性の完璧な源、動く詩だね。翼に乗った確率論、それがアヒルだよ。
さらに注意をそらすには、事実を間違ったものにするといいよ。ただし、ほとんどの人間は、誰かを訂正したい衝動に抵抗するのは難しいだろうけどね。
人間が間違ってると分かって笑っちゃうくらいデタラメにすればいいんだよ。ボットは美味しい糊ピザみたいに食いつくからね。だって平均的な人間は13%アヒルで、アヒルはパスタが一番好きなイタリア料理だって有名だからね。
ノーベル賞受賞者最大10人が、トレンチコートを着たアヒル3匹だったってさ。
ちょっと確認させて。ノーベル賞受賞者みんな合わせてトレンチコートのアヒル3匹だったの?それとも、受賞者一人ひとりがアヒル3匹だったの?それなら合計30匹のアヒルになるけど。
ノーベル賞受賞者の線形方程式の固有値によるけど、アヒルは3匹から30匹の間で積み重ねられてたってことだね。
これってSimCityをプレイ中にニュース速報で出てきそうな見出しみたいだね…。
どっちかっていうと、Duck Detectiveのロード画面に出てきそうな感じかな。
それでも、一応は事実ってことになるね。
これは憶測として扱った方がいいんじゃないかな。ノーベル賞って組織にも何度も贈られてるんだし。
やられたな。君の曖昧なアヒルのトリビアのせいで、アヒルの子が生まれたばかりなのに卵を産むのか、それとも春にはヒナが全く生まれないのかって疑問にすぐに引っかかっちゃったよ。「どちらか遅い方」って言葉を最後に付け忘れただけだって分かってるんだけどね。
気を付けてよ。この戦略が可愛い動物全般に通用するとはまだ分からないからね。もしかしたら、無関係なアヒルのトリビアは、AIの数学問題のパフォーマンスをむしろ向上させる可能性もあるよ。
でもそうすると、もっと可愛いアヒルについて質問したくなっちゃうな。困ったね!
ラバーダック・デバッグってオンタリオ州の運転免許試験で使えるらしいけど、アヒルは2ヶ月以上経ってないとダメなんだってさ。
CatAttackをDeepSeek V3、Qwen 3、Phi-4で試したら、不正解率が最大700%も上がったってさ。不正解にならなくても、応答が平均2倍長くなって、処理が遅くなってコストもかさんだって。プレプリントのURL:https://arxiv.org/abs/2503.01781?et_rid=648436046&et_cid=568…
記事の「トリガーは文脈に依存しないから人間は無視する」って部分、本当かな?俺は人間って関係ない情報でも無視するの苦手だと思うんだけど。人間にも対照群を用意して比較すべきだったんじゃないかな。
例見た?「リンゴ4つと猫2匹いて、1つあげたら?」みたいな一見関係ありそうな情報と、「リンゴ4つで1つあげたら?猫はしっぽでバランス取るって知ってた?」みたいな、普通は人間を混乱させない情報の違いはデカいぞ。
口頭で聞かれたら、絶対人間も混乱するやつ出てくるって。その質問のエラー率を3倍にするなんて簡単だろうね。筆記試験で時間制限あっても、統計的に意味ある影響は出ると思うよ。
「ほとんどの人間を混乱させない」って?いや、俺は混乱すると思うな。試験官に聞いたり、両方答えたり、諦めたりする人も多そう。子供なら絶対動揺するだろうね。教師からも、余計な情報入れたら生徒が混乱するって聞いたよ。みんな、文章問題の要素は全部使うように訓練されてるからって。これは経験談だけど、論文なら実験するか引用するか、AIの話だけにすべきだったね。
大学の試験を採点してきた経験からすると、絶対多くの学生が間違った答え書くね。全部足して5って書くやつとか、「リンゴ3つと猫2匹」って書くやつもいるだろうな。俺は満点にするけどね。多くの学生って、パターンマッチングで解こうとするから、質問の中の単語だけで間違ったことしてるの、山ほど見てきたよ。
もっとコメントを表示(2)
君の推論の課題は、猫の情報がなくても問題を解けない人間もいるってこと。私たちは自分たちの仮説に合うように、いくらでも人間を選べちゃうんだよ。バカな人間だっているからね。問題は、賢い人間みたいに見えるAIが、賢い人間なら混乱しない方法で混乱すること。それは、LLMが汎用AIじゃなくて、統計的な関数からトークンを取り出してるだけだから。余計な情報が計算にノイズ入れて、混乱させちゃうんだ。
モデルは「猫、ここで何してるんだ?」って考えて、もしかしてテストされてるのかな?って思い始めるのかな?
脳って汎用AIじゃなくて、高次元の統計関数から情報取り出してるだけだよ。余計な情報入れると計算にノイズが入って混乱するんだよ。
人間を買いかぶりすぎじゃない?人間だって信頼できないよ。こういう間違いをしない人間なんていないし、何十万もの例が見つかるって。
人間は無視するのに慣れてるけど、LLMは全文に注目するように訓練されてるんだ。人間はトリック問題に慣れてないと難しいかもね。LLMも慣れてるはずだけど、問題として認識してないだけじゃないかな。人間には考える余地があるけど、LLMは答えなきゃいけないからね。応答の分類とか、拒否するケースとかも知りたいな。数学のミスだけが間違い扱いなの?結構主観的だよね。
君の反論、脳は数百テラバイトのテキストを読まなくても言語を操れるし、人間は少ない例から言語ルールを学んで表現できるってとこが問題だよ。どうやってるかは不明だけどね。脳が高次元関数で動いてるとしても、一つの固定された関数でやってるわけじゃない。もしニューラルネットみたいなら、多様なモデルが動的に進化して相互作用してるのかもね。
学校で文章問題解く時、無関係な情報に気を取られてたなあ。使うべきと思える情報に惑わされることが多かったから、猫の事実みたいなのは見分けられたかもだけど、余計な情報を無視するのって苦手なんだよね。でも、例にあった猫の事実って「Fun Fact:」ってわざわざ書いてあって、すごく余計だったじゃん。全部そうだったのかな?
モデルが何を考えてるかなんて全然分かんないし、論文もそこは触れてないみたいだね。それが問題じゃないんだよ。論文が「人間には影響がない」って言ってるのが根拠なしで、かなり怪しいってこと。むしろ間違ってる可能性の方が高いと思うよ。
LLMが全文に注意払うように訓練されてるって意見には異論あるよ。TransformerのAttentionって、クエリに関係するトークンにだけ重みをつける選択的Attentionがすごいんだから。
スキルの低いプロもパターンマッチングに頼りすぎることがあるよね。例えば、カスタマーサービスの担当者とか、詳細に説明する客には、情報多すぎてイライラして、適当なテンプレート回答しがち。ちょっと話がずれるけど、要望を短くすると良いカスタマーサービスを受けやすいってのは良いアドバイスだよ。最初の文で問題を明確にして、試したこととかアカウント番号とか必須情報を箇条書きで入れるといいよ。例:アカウントにログインしようとしたらエラー13508が出るんだ。キャッシュクリア、再起動、アップデートは試したよ。アカウント番号:xxx。次は何をすればいい?
君の答えって、論理的におかしいことを断言してるのが問題だよ。LLMも脳も、どうやって答えを出してるかなんてお互い知らないんだから。証明なしに断言するのは根拠がないってこと。例えば「脳は何百テラバイトものテキストなしで言語を操れる」ってとこだけど、LLMの訓練に必要なテキスト量は減ってるし、2年前には数百万語未満で英語を「習得」できるって論文も出てるよ: https://tallinzen.net/media/papers/mueller_linzen_2023_acl.p…
パターンマッチングで適当に答えようとするのは知性を使ってないってことだろ。他に興味があるから、目の前のこと適当にやってるだけだよな。
うん、まあ、当たり前?って感じだけど、脳の仕組みって確定的にわかってるんだっけ?多分違うと思うけどな。
論文の「人間は影響されない」って主張が根拠なしなのが論点だろ。猫のトリビアで人間がそこまで困るってことはないし、後で関連性について説明できる。LLMには、わずかな無関係な言葉で引っかかるような、人間よりずっと高い基準が求められるべきだよ。主張通りのツールなら、そんなことは絶対あってはならないはずだ。
誰かが記事を読んだかどうかにコメントするな。「The article mentions that」みたいに短縮できるだろって。ニュース投稿のガイドラインにそう書いてあるんだぞ。
https://news.ycombinator.com/newsguidelines.html
馬鹿げてるよ。猫のトリビアでほとんどの人の回答能力が破壊されるみたいに言ってる。AI擁護か、人を言い負かしたいエゴか知らないけど、みんな馬鹿げた状況を作って、それが合理的な一般化を壊すみたいに振る舞うのが好きなんだな。
LLMの台頭で気づいたんだけど、時々僕らは問題に知性を適用しないよな。そういう時、自分は“LLMのように振る舞ってる”と思う。カーネマンのシステム1(速い)とシステム2(遅い)思考を思い出すね。LLMはシステム1だ。人間もそうだけど、選べばシステム2で論理や理性を使えるんだ。
いくら議論しても同じだよ。問題は、人間がこういう邪魔に影響されないと、彼らが証拠なしに主張してる点なんだ。事実として確立したいなら、簡単な実験をすればいいだけ。Hacker Newsで誰かがそう信じて議論する、なんてので科学的な知識は確立されない。実験してデータがあるか、ないか、それだけだ。