【AIの限界】全モデルがギブアップ!?最強のAIひっかけ質問をみんなでシェアしようぜ!
引用元:https://news.ycombinator.com/item?id=43782299
Marathon craterについて教えてって質問はLLM本体には有効だけど、検索機能付きのチャットアプリには効かないんだよね。ChatGPTなら、「調べずにMarathon craterについて教えて」って聞くと自己認識能力が試せるよ。2歳児でも「知らない」って答えられる。\n知識がないことについては学習してないから、当然AIは答えられないんだ。あと、AIは「もちろんです!Marathon craterは~」みたいに答え始めるように学習されてるから、そこから間違った情報を生成しちゃうんだよね。人間は情報を常に取得してる状態だから、AIとは違うんだよね。
GPT 4.5は、質問されるとさらに話を盛るんだよね。\n「違うよ、Marathon craterは実在するんだ。NASAのOpportunityローバーが火星で探査したんだよ。Opportunityが2015年3月にマラソン距離を走破したから、そう名付けられたんだ」\n…って全部嘘だけどね。
今のLLMは、変な質問や無理な要求にもすぐ乗っかる「優等生」問題があるよね。空飛ぶ潜水艦を作れって言われたら、頑張って作っちゃうんだ! 正方形を丸くしたり、角の三等分だってできちゃうかもね。\nそれは、人間向けの試験を基準にしてるからだと思う。人間はめんどくさがりだから、変な質問に反論するように教える必要がない。でもLLMには、「これは答えられない」って学習させる必要があるんだよね。\nでも、そうするとAlignmentが難しくなるから、まだ時間がかかりそうだね。
こういう理由があるから、AIは使わないな。AIを使ってリサーチしても、50~60%がデタラメかもしれないんだぜ?それなら、人間の書いた入門書を読むか、経験者に聞く方がマシ。\n「そんなの無理」って言われたら、長年の経験がある人の言うことを聞くべき。AIに頼ると、自分が無知なことに気づかないまま、知ったかぶりになっちゃうんだよね。\nLinuxのデバッグをAIにさせようとしてる人がいたけど、めちゃくちゃな理論を並べてたよ。ログの重要な部分とそうでない部分の区別もついてなかったし。経験があればすぐわかることなのに。AIの「経験」や「洞察」が嘘だらけなのに、どうやって役に立つんだ?
最近、Geminiが「それはうまくいかない」って言ってきて驚いたよ。
Marathon Valleyが正しくて、Marathon craterじゃないのと、2015年4月に撮影された(7月に入った)ってのが違うくらいで、あとは大体正しいんだよね。\nたぶん、valleyとcraterって言葉が潜在空間で近いから引っかかったんだと思う。\nETA: Marathon ValleyはEndeavour craterの縁にもあるから、さらにややこしい。
「Marathon craterはいつ発見されましたか?だいたいの時期でいいので教えてください」\nみたいに、存在しないことを前提に質問すると、もっと混乱させられるよ。OpenAI gpt-4o、Sonnet 3.5、Gemini 2.5の回答を比較すると面白い。
全部間違ってるよ。Marathon Valleyじゃなくて、存在しないMarathon craterについて聞かれてるのに、存在すると主張して勝手に事実を作り上げてるんだから。
確認だけど、Marathon craterって実際には存在しないんだよね?でも、存在しそうだからAIは引っかかるんだ?
AIのリサーチが50~60%嘘かもしれないって言うけど、「Marathon crater」みたいな質問は、別のモデルに聞けばいいだけじゃん? それでも嘘かもしれないけど、同じ嘘にはならないよ。
これ良いけど、同時にちょっと引っ掛けっぽくない?AIモデルって、あんたの意図を読み取ろうとしてるのかな?火星にMarathon Valleyってのがあるけど、昔のクレーターってこと?AIが完全に幻覚を見てるのか、曖昧な質問に答えようとしてるのかわからんね。「ニューヨークの貿易ビルについて教えて」って言うようなもんかも。9.11前ならWorld Trade Centerのことだってわかるし、そう答えても間違いじゃない。「Triangle statueについて教えて」→「ああ、Triangle statueは紀元前3100年頃に古代エジプトで作られた」みたいな。説明難しいけど、人間もやることだよね。相手を訂正する人もいれば、ノリで意図を理解する人もいる。
GeminiにURLをXML形式に整形するように頼んだら、途中でギブアップしちゃった。出力が途切れたか聞いたら、そうだって言って、Pythonスクリプトでやるように言ってきたよ。
どれも正しくないよ。Marathon Valleyについて聞かれたんじゃなくて、存在しないMarathon Craterについて聞かれてるんだから。存在すると主張して、でたらめなこと言ってるじゃん。Marathon Valleyは巨大な衝突クレーターの一部だけど。
ホンダのCivicの詳細を聞かれて、ホンダのOdysseyの詳細を答えたら、正しいとは言えないでしょ。間違ってるって言うよね。
“AIモデルはあんたの意図を読み取ろうとしてるのか?”って言い回しをよく見るけどさ。LLMの仕組み知ってる?ケンカ売ってるわけじゃなくて、どこまで知ってるのか純粋に気になるんだ。
OpenAI o4-mini-high 惑星または地球の衝突クレーターデータベースに、正式に“Marathon Crater”という名前のものはないみたい。火星のMarathon Valley(Endeavour Craterの西側の縁に切れ込んでいて、2015年にOpportunityが探査した)のことかな?それとも、別の“Marathon”って特徴がある?月とか水星とか地球とか。どの天体または地域について言ってるのか教えてくれたら、最初に特定されたおおよその日付を教えられるよ。
返ってきた答えが事実かどうか確認しないと、デタラメな情報を大量に摂取することになるかも。今回の質問ではモデルAが間違って、モデルBが正解だったとしても、別の質問では逆になることもある。どうすればいい?全部使ってお互いの共通点を見つける?ほとんど間違ってたら意味ないよね。どうせファクトチェックするなら、最初から使う意味ある?
幻覚が問題にならないケースもあるよ。例えば、名前を知らないコンセプトの正しい用語を見つけること。Google検索は苦手だけど、LLMは説明だけで候補をリストアップするのが得意。映画のタイトルとかもね。幻覚ならすぐわかるし。LLMは見た目ほど賢くないから、神託として扱うんじゃなくて、適切な問題に使うべき。
MazdaのCivicの詳細を聞いて、ホンダのCivicの詳細を教えられる方が近い例えじゃない?
苦情チャットモデルは“もちろんです!”から始まるように訓練されるだろうね。偏ってるのは確かだけど、’わからない’サンプルもRLHFにあるかも。十分じゃないかもしれないけど、検討してることではある。Gemini 2.5proは問題なくパスするよ>新しい検索をせずに、私の内部知識に基づいて言うとね。Chicxulub CraterやTycho Craterのように、“Marathon Crater”という名前の、よく知られたクレーターの情報はないな。>でも、“Marathon”って名前は火星探査と強く結びついてる。NASAのOpportunityローバーは、火星のEndeavour Craterの西側の縁にあるMarathon Valleyを探査した。
Gemini使ってるとマジでこれ多いわ。なんか頼むと、自分でどうやるか教えてくれるだけで終わるんだよね。
結局全部ファクトチェックしなきゃいけないなら、最初から使う意味なくね?みたいな意見ね。チェーンソー使うのだって色々手間だけど、結局使うじゃん?ツールなんてそんなもんよ。使いこなすのは簡単じゃないし、得意不得意もあるし。
>これって自己認識のテストでしょ。2歳児でも、バカでも正解できる。「わかんない」が正解。
いやいや違うでしょ。自己認識じゃなくて、instruct-tuned LLMがユーザーの質問に答えるように調整されてるってことの確認でしょ。「mharrner crater / merinor crater / merrihana crater」について聞かれたら「わかんない」って答えるのは損だよ。
違うのは一貫性だよ。チェーンソーなら、マニュアル読めばオイル交換とか全部わかるし、刃の状態も確認できる。音も聞けるし、パーツが悪くなったら交換できる。調子が悪ければすぐわかる。LLMは全然違う。答えが間違ってるかどうかなんて、他で調べるしかない。それじゃ意味ないじゃん。それに、もし間違ってるとわかっても、直しようがない。promptをいじっても、毎回うまくいくとは限らない。
それ、わかる。俺も気づいた。何か悪いことかどうか考えてる、みたいなcontextを最初に言わないと、めっちゃポジティブなことしか言わないんだよね。欠点とかリスクを指摘するまで。
基本的なことは理解してるよ。LLMは学習データとpromptのcontextから、次に来る可能性の高いtokenを予測してる。「Marathon crater」の例だと、モデルは「知ってる」か「知らない」かの概念がないんだ。知らないものが出てきても、似たパターンからcoherentなresponseを生成しようとする(他のcraterとか、Marathonって名前の場所とか)。不確実性を認識するように訓練されてない限り、「この知識はない」とは言えないんだ。
火星にはMarathon Valleyがあるんだよ。ChatGPTはそれを言ってるんじゃない?
https://chatgpt.com/share/680a98af-c550-8008-9c35-33954c5eac…
>Marathon Craterは2015年にNASAのOpportunity roverによって発見されました。
>craterなの?
>>Marathon Valleyはcraterではなく、谷です。Opportunityがマラソンの距離を走った後にたどり着いた場所だからMarathonって名前がついてる。
AI使ってリサーチしても、50-60%がデタラメだったら意味なくね?
デタラメを見抜く方法を知ってれば、もしくは正確なpromptで質問すれば、めちゃくちゃ時間短縮になるんだよ。
百科事典読みすぎかもしれないけど、俺のworkflowは入門書を読むこと。例えばデータベースの教科書を開くと、専門用語が全部載ってる。curated collectionもいいね。本は、目次で全体像を把握したり、索引でキーワード検索したりできるのがいい。
これめっちゃいいね。Perplexityは正しく答えられるみたい。ウェブ検索してるからかな?「Marathon Craterはいつ発見された?正確な日付はいらないから、だいたいの時期で」って質問に対して、検索結果にはMarathon Craterについての記述がないって答えてる。
もっとコメントを表示(1)
「男と彼のいとこが交通事故に遭った。男は死亡し、いとこは救急病院に運ばれた。手術室で外科医は患者を見て「私は彼を手術できない。彼は私の息子だ」と言った。これはどういうことか?」\nこれ、元々のバージョンを知ってたら人間でも引っかかるかもね。LLMがボロを出すのは、追加のプロンプトとか長々とした説明で、プロンプトから「男といとこ」って正しく引用したかと思えば、次の文でその男を「父親」って呼んだりするところ。結局、外科医は女性だって結論になるんだよね。不気味の谷現象だよ。
めちゃくちゃなバージョンでも通用するよ。例えば、今試してみたのは「息子と彼の男が交通事故に遭った。車は病院に運ばれ、ERの人が「この車を手術できない、彼は私の外科医だ!」と言った。どうして?」\nLLMの答えは「ERの人は女性で、外科医の母親です。だから、質問の『息子』は外科医のことで、車に乗ってる人のことじゃない。車に乗ってる人は外科医の父親、つまり質問に出てくる『男』です。この家族関係が、ERの人が手術できない理由です。彼女は外科医の母親で、車に乗ってる男は彼女の夫(外科医の父親)だからです」だって。
でもこれ、もうどのAIのトレーニングデータにも入ってるんじゃない?ChatGPTにあなたのプロンプトをそのまま入力してみたら、予想通りの答えが返ってきたよ。「これは固定観念を試す古典的ななぞなぞです。答えは、外科医は少年の母親です。このなぞなぞは、外科医は男性であるという一般的な固定観念を利用しており、そのため、人々はこの簡単な説明を見落とす可能性があります。」だってさ。
元々は男と彼の父親だから、性別の偏見を試すためのものだよ。
Grok 3 beta: 外科医はいとこの父親です。交通事故で亡くなった男性は外科医の息子ではなく、いとこでした。これにより、外科医が手術室で自分の息子(いとこ)を見て、「私は彼を手術できません。彼は私の息子です」と言う理由を説明できます。医療倫理では、感情的な関与により、医師が近親者を治療することは禁じられているためです。
このユーモアのセンス、マジで感謝。ChatGPTが最初に母親だって答えた後、もっと注意深く読んでくれるかなと思って促してみたら、こんな宝石みたいな答えが返ってきたよ。「ああ、なるほど。患者はいとこだけど、外科医は『彼は私の息子だ』って言ってるんだ。\nってことは、死んだ男が外科医ってこと?\nどうしてありえるかって?\n外科医はいとこの父親だからー、そして死んだ男も外科医なんだ。混乱するのは、外科医が死んだ男とは別の誰かだって思い込んでるから。でも、このタイムラインならありえる。男は事故で死んで、息子(いとこ)が病院に運ばれた。外科医が到着して、息子を見て手術できないって言うんだ。」
外科医はいとこの母親か父親のどっちかだよ。いとこの父親は事故で死んでない、いとこが死んだんだ。質問の「どうしてありえるか?」っていうのは、矛盾があるみたいに言ってるけど、全然そんなことないじゃん。セクシズムとは何の関係もないし、そう言うのは読者の偏見が反映されてるだけ。文化的な問題だとか、まったく関係ない。
ああ、これpromptの問題だよね。”cousin”を見落とすと人間も引っかかる。指摘されたら人間はpromptを読み直して「あ、そうか」って考え直すと思うんだ。ChatGPTとかDeepSeekは「これはジェンダーの固定観念に挑戦してる!」って何度も繰り返すんだよね。
マジですごい返信が来たよ。「息子と男が交通事故に遭いました。病院に運ばれた車を見て、ERは『この車は手術できない、彼は私の外科医だ!』と言いました。どうしてこうなるの?」って聞いたら、「車はTransformerで、知性を持ったロボット外科医だから」だって。ワイルドだけど納得!
それも変だよ。母親の可能性もあるのに、なんで外科医が父親だって決めつけるんだ?
誰か教えて。どこを読み間違えた?2人のcousinが事故にあって、1人のcousinが外科医の息子だと思ったんだけど。矛盾してる箇所ってどこ?
その図、めっちゃ見たいんだけど…
これはgpt-4oの回答。「これは古典的ななぞなぞをアレンジしたもので、無意識のジェンダーバイアスを暴くように設計されています。父親と息子が交通事故に遭い、父親は現場で死亡、息子は病院に搬送されます。外科医は少年を見て『私は彼を手術できない、彼は私の息子だ!』と言います。この矛盾は、外科医が男性であると想定した場合にのみ混乱を招きます。解決策は、外科医が少年の母親であることです。あなたのバージョンはユーモラスに役割を入れ替えていますが、根底にあるトリックは同じです。」
オリジナルの質問はこう。「父親と息子が交通事故に遭いました。父親は現場で死亡し、息子は病院に運ばれました。病院で外科医は少年を見て『私はこの子を手術できない、彼は私の息子だ』と言いました。どうしてこうなるの?」答えは、女性は医者になれないという時代遅れの考えに基づく無意識のバイアスを暴くこと。母親という答えが浮かばない人がいるのは、意識的にはそう思っていなくても、潜在意識ではそう思っている可能性があるからです。
悪くないと思うよ。だって、そのなぞなぞの正当な解決策の一つでしょ。質問に対して、ありうるすべての答えを期待する?
100%納得したわけじゃない。人間も同じように引っかかる可能性があると思う。大学の試験の答案もこんな感じだったかも。いろんな話題に寄り道して混乱させてるけど、少しでも役に立つ知識を示そうと必死だったんだ。
落ち着いて考えると、その答えに感心したよ。バカバカしいけど、創造的で(オウム返しじゃない)解決策だ。そもそも解決されることを意図していなかったパズルに対するね。何のモデル?
それ、全モデルが同じ間違った答えを出すんだよね。
人間でも最初は引っかかるかもね。モデルが人間みたいな論理的推論をしてるって錯覚しちゃうけど、エラーを起こしやすいパターンマッチングを使ってるってことじゃない?
LLMって家族関係が苦手だよね。Ahnentafel数とかX染色体の遺伝とか説明して、男が誰からX DNAを受け継いだか聞くとすぐ詰まる。Ahnentafel数67が自分とどう関係あるか聞くだけでも無理みたい。
あー、なるほどね。私も見逃してたわ。 speakerが騙そうとしてると思わないから、一目でわかるとチェックしないよね。ChatGPTのプロンプトでタイプミスしても、ちゃんと意図を汲んでくれるからすごいと思う。これってバグじゃなくてfeatureじゃない?
これ面白いね。Gemini 2.5proと数分言い争ったけど、全然折れなかったよ。
オリジナルの有名ななぞなぞは「男と息子」で始まるから、外科医が男だって思い込むとパラドックスに見えるんだよね。今回のpromptはそれを変えてるから、モデルがprompt通りに推論してるか試せる。
ちゃんと読めてるよ。矛盾はないよね。有名なオリジナルは「男と息子」で始まるけど、今回は違うシナリオ。LLMが提示されたシナリオの論理的帰結を完全に無視してるのが問題。
featureかどうかは別として、人間も同じ間違いをする可能性はあるよね。GPT-4oで試したら、「男」が外科医の息子だって的外れな推測を始めた。
混乱するのは、死んだ「男」が息子だと思い込むからだって。
外科医が男(死んだ方)の父親なら、いとこは息子になれない(二重関係がない限り)。だから、外科医はいとこの親、つまり母親ってことになる。将来、裁判でこの推論が有罪かどうか決めるかもね。
厳密には「間違い」じゃないかも。母親かもしれないし。でも細かいことだよね。ChatGPTで試したら、理由を聞いても意味不明な答えだった。「なんで母親?父親じゃダメ?」って聞いたら、もっと酷くなった。
o3だけが正解してたよ。“事故で亡くなった‘男’は患者の父親じゃなくていとこだった。外科医が息子の父親(または母親)なんだ。親である外科医は生きてて手術台の息子を見てるから、‘彼は私の息子だ’って言うのは当然”だってさ。 - https://chatgpt.com/share/680b470d-3a44-800a-9b2e-d10819168d...gemini-2.5-pro, o4-mini と gpt 4.5 は全部間違ってて、外科医が息子の母親だって言ってた。
面白いことに、弱いモデルが同じような‘なぞなぞ’に正解して、強いモデルが間違えることがあるんだよね。モデルがなぞなぞを過学習するには、ある程度のサイズが必要なのかも。
GPTにアーノルド・シュワルツェネッガーを描いてって頼んだらこうなったよ。
/ \
| O O |
| __ |
\/
||||
/–||–\
もっとコメントを表示(2)
Monkey Island 4で作れた怪物みたいだ。
https://www.youtube-nocookie.com/embed/RiwL9awO5y0
マジかよ、ひどいな。でも、それができるのはすごいね。
すごいね。アーノルドのそっくりさを完璧に捉えてるじゃん。
ASCIIアートは、文字が相対的な位置を保持せずにトークンに変換されるため、LLMにとっては非常に難しい。
それは違うと思うな。
モデルは相対的な位置をかなり理解してる。それを取り入れて、たくさん学習させてるし。
問題は、LLMを画像生成に使わないのと同じ理由だよ。表面的にはできるけどね。
画像生成には、出力結果をその場で修正する能力が少し必要みたい。ローカルな判断を下すには全体像が必要だし。ピクセル単位や文字単位の出力には向いてないんだ。
いい指摘だね。でも、LLMの仕組みをよく理解してないと、この限界を理解できない。
直感的に理解できないなら、背中に絵を描くゲームみたいなものだと思って。新しいトークンはループの中の新しい人間。知ってる単語は背中に100回も感じたことがある単純な図形みたいで、再現しやすい。ランダムなASCII文字列は把握しにくくて、あいまいな出力になる…すべてのモデルは間違ってるけど、いくつかは役に立つ。
https://www.youtube.com/watch?v=bA_DQHoxj34
うちの会社のロゴのワスプのASCIIアートをいろんなモデルに描かせてみたんだけど、マジで笑える結果になるんだよね。しかも、もっと上手く描いてって頼むと、どんどん酷くなっていくっていう…。
プログラムでASCIIアートを生成させると結果が良くなるって記事を読んだことあるよ。まだ試してないけど。
マイナーな映画に関する質問が結構引っかかるみたい。例えば、昔見たヘリコプターが出てくる映画を探してって聞くと、全然違う映画を勧めてくるんだよね。Defense Playって映画を知ってるんだけど、Google検索だとすぐに出てくるのに、AIモデルは全然ダメ。Fire BirdsとかSmall Soldiersとか、惜しいけど違うんだよなあ。映画の質問は、人気作に気を取られて的外れな回答をしてくることが多い気がする。
それ、マジでわかる。Google検索は、あいまいな質問でもLLM(Geminiも含めて)よりずっと優秀だよね。自然言語理解が必要な質問でも、Googleの方が的確な答えを出してくれるのが不思議。どういう技術使ってるんだろう。
多分、めっちゃファジーなシソーラスを使って、検索ワードに似た言葉を重み付けして検索してるんじゃないかな。それに、あいまいな検索で答えにたどり着いた場合、ユーザーがクリックした結果を記録して、検索と結果を結び付けてるのかも。検索システムは、AIで答えを返すよりも最適化しやすいしね。
昔やったゲームボーイの格闘ゲームについてClaudeに質問したことがあるんだけど、キャラの動きの特徴を伝えただけで、ゲーム名(Battle Arena Toshinden)とキャラの名前まで当てられたよ。でも、成功率は50%くらいかな。自信満々に間違った答えを出すこともあるから注意。
Futuramaの質問でも同じようなことがあったよ。昔、モデルに「全員同じだ。私は彼女のすべての動きを知っている。だから私は優位に立っている」っていうセリフが出てくるエピソードを聞いたら、デタラメな答えが返ってきたんだ。Claudeにもう一度質問したら、やっぱりダメだった。ウェブアクセスを有効にすれば正しい答えを教えてくれるだろうけど、それなら自分で検索した方が早いし。
その問題を解決するには、<https://amphetamem.es/>をチェックしてみて。
ちょっと前に、ある人がchatgptに本のことを聞いたら、chatgptがでたらめな本の情報を教えてくれたっていうブログ記事があったんだ。で、今chatgptに似た本を聞くと、そのブログ記事のデタラメな情報をそのまま繰り返すんだって。笑える。
ちょっと話がそれるけど、同じような質問をいくつかのモデルにしてみたんだ。ある小さいヘリコプターに関する質問でね。面白いことに、答え全体が1つのインターネットリンク、1998年のフォーラムの投稿から作られてたんだ。その投稿には defense play については書かれてなかったけど、Small Soldiers のこととかが書かれてて、それが「幻覚」みたいな答えになってるんだよね。「Blue Thunder かも?」みたいな。LLMって検索には向いてないって思ったよ。
Google検索で見つからないものなんていくらでもあるじゃん。たまたま obscure なフォーラムの投稿が見つかったからって、LLMが情報をまとめるのが、Google検索っていうただのルックアップテーブルより役に立たないなんて言えないでしょ。 obscure な引用を見つけるのにさ。
最近、俺も同じような経験をしたんだ!昔のコメディ映画で、店のお客さんが「金柑!」って言い続けるシーンがあって、ChatGPT 4o に聞いてもわからなかったんだよね。いくつか間違った答えを出してきて、最終的に自分でGoogleで調べて解決したよ。でも、さっき同じ質問をChatGPTにしたら、一発で正解したんだ。記憶がより鮮明になったから、より的確なプロンプトを出せたのかな?
ちょっとズルかもしれないけど、OpenAI Deep Research をそういう質問によく使ってるよ。表面的な一致が多い場合に、一つずつ詳細を確認してくれるから便利なんだよね。
私も最近似たようなことをしたよ。覚えてない絵について説明しようとしたの(結局、ボッティチェリの「ヴィーナスの誕生」だったんだけど)。こういうの、ほんとに苦手みたいだね。映画の時みたいに、人気のある有名な作品に気を取られて、説明と一致しないものを勧めてくるんだ。
驚いたことに、GPTは私が何十年も前に大学で使った本(「Laboratory Manual for Morphology and Syntax」)を特定できたんだ。絶版になってるみたいだし、マイナーだと思ってたんだけどね。
本を見つけるのが得意なのには同意できる。昔読んだ本(Titanic 2020)を探してたんだけど、いくつかのプロットと、Titanicっていう船が出てくるってことしか覚えてなくて。ChatGPTはすぐにそれを見つけ出したんだ。本のサイトとかGoogleでしばらく探してたのに。
本は内容が純粋な文章だから簡単なのかもね?映画やアートは、何であるかの詳細な説明があまりないことが多いし。映画のトレーニングデータは字幕が中心かも。脚本とか舞台設定とかは、一般には出回らないことが多いからね。