OpenAI研究者、GPT-5の数学「画期的発見」を発表も実は幻だった!?
引用元:https://news.ycombinator.com/item?id=45633482
OpenAIチームを擁護すると、この状況は文脈を読めば曖昧なだけだよ。削除されたKevin Weilのツイートは引用ツイートだったから、前の投稿が見えなかった人が誤解したんじゃないかな。
GPT-5がエルデシュの問題を解決したってより、既存の解決策を見つけたってのが正しい文脈らしい。
https://x.com/MarkSellke/status/1979226538059931886?t=OigN6t…
https://x.com/SebastienBubeck/status/1977181716457701775?t=T…
いや、Weil自身がSellkeの投稿を誤解してたって言ってるよ。Weilの言い方(10の以前未解決のエルデシュ問題)とSellkeの言い方(オープンとしてリストされた10のエルデシュ問題)も違うし。
https://x.com/kevinweil/status/1979270343941591525
あと、Bubeckの削除されたツイートが「AIによる科学革命が公式に始まった…」って文言で始まってたのも見落としちゃいけないよ。
これって大手ラボの2回目の「やらかし」じゃない?DeepMindもGeminiが行列乗算でSOTAを達成したって発表したけど、それも30~40年前の既存研究だったって言われてたよね。
いや、行列乗算の件は違うよ。Googleの新しいアルゴリズムは4x4ブロック行列に再帰的に適用できて、Strassenのより漸近的に速いんだ。Winogradらの過去の成果はブロック行列には適用できなかったし。
Googleの成果は最近さらに一般化されてるよ。
https://arxiv.org/abs/2506.13242
AlphaEvolveの発表について、俺の記憶だと違うんだ。以前の4x4行列乗算のアルゴリズムは、行列の中身に厳しい条件があって、もっと大きな行列乗算の再帰的な分割統治アルゴリズムには使えなかったんだ。共同著者の一人がHacker Newsでこの主張に反論してたしね。
https://news.ycombinator.com/item?id=43997136
そういえば、GPT-5のプレゼンでも、AIが生成したっぽい間違った棒グラフや、リフトの誤った説明があったよね。
検索みたいに、すでに存在するものを再発明するのを防ぐ技術って、本当に重要だよね。
これは「LLMが問題を解決し損ねた」ってより、「既存の解決策を発見したり、再提示した」ことに対して、誤ってオリジナルの功績を与えちゃったって種類の「やらかし」だね。解決策自体は間違ってないから、幻覚ってわけじゃないんだ。ただ、既存の作品を「借用」する芸術家みたいに、研究の形で既存の仕事に誤ってクレジットを与えちゃったんだよ。
最初の人って「20年前に解決済みと気づいて問題を解決した」って言ってたのに、次の人は「これまで未解決だったErdös問題を10個も解決した」って言ってるじゃん。未解決って、文脈的に矛盾してない?
そうだね。SebastienBubeckの文脈では「解決した」って言葉を、文献調査と自力での問題解決を同等に扱うことで、無理に広げすぎてるよ。「これまで未解決」って表現は、そのごまかしをさらに強めてる。誤解しないでほしいんだけど、埋もれた研究を掘り起こすのはすごく価値があること。だから、やってることはすごいんだけど、見出しが間違ってるって感じだね。
「埋もれた研究を掘り起こすのはすごく価値がある。見出しが間違ってるだけ」って言ってるけど、もし俺が問題を「解決した」って言って、実際は古い本から解決策を拝借しただけだったら、みんなに嘘つき呼ばわりされるだろうね。もし有名な人だったら、それは学術不正になるよ。「すごく価値があること」とか「本物だ」なんて誰も言わないんじゃないかな。
「解決した」って言ったなら、たしかにね。でも「解決策を見つけた」って言ったなら、あいまいさが残るよね。それが今回の混乱の一因じゃないかな。
科学史における重要な進歩には、すでに文献にあったのに軽視されていた発見を再評価することから生まれたものもあるんだ。メンデルの遺伝学や、Henrietta Leavittの星の周期と明るさの関係の研究、潰瘍の病原説なんかがそう。新しいアイデアを出すだけでなく、文献から関連する情報を見つけて新しい文脈で適用するのは、人類の知識の進歩にとって常に基本だよ。研究分野によっては、文献の量が膨大だから、効率的に調べることで大きな進歩の足がかりになるんだ。「嘘」以上の意味があると思うよ。
「GPT-5は文献検索にすごく長けていて、既存の解決策を見つけることで、明らかに未解決の問題を“解決した”」って言うけど、それは生存者バイアスだよ。GPT-5は比較的簡単な検索でも失敗するって断言できる。俺はGPT-5の結果を使うためには、どんな結果を期待するかをよく分かっていて、それをテストできる必要がある。もしサイコロを1000回振って、毎回ダブルシックスが出たって投稿したら、俺が最高のサイコロ投げ師になるの?
君が何を言いたいのかよく分からないな。文献検索ってのは、自分の研究に関連する論文リストを作るために、幅広く情報を集めることだよ。全部見つけられるわけじゃないから、そんなに失敗するもんじゃない。GPTからの結果を「テストする」とか「利用する」ってのは、論文を読んで、それがちょっとでも関連してるか確認するだけのことだよ。個人的な経験から言うと、文献検索はコーディングよりも、俺が一番生産的に使えてるGPTの応用例だよ。これで多くの面白い論文や研究方向を見つけられたんだ。
昔、子供の頃に父とYahtzeeをやってたら、父が最初のターンで5を5つ出したんだ。父は本当に驚いてたけど、その時はまだ幼くて、それがどれだけ珍しいことか理解してなかったよ。あの時、最高のサイコロ投げ師と対戦してたって知ってたらなあ!
文献検索に関しては、それでいいかもね。他のツールを置き換える必要はないし、もし10回に1回でも、そうでなければ見つけられなかったものが出てくるなら、失敗した試行に時間を費やす価値はあるんじゃないかな。
もし必要なら、登ってみるための鏡がまだいくつかあるよ。
数学者のThomas Bloomが、erdosproblems.comで公開されている”open”問題について、個人的に解法を知らないって意味で、未解決ってことじゃないと反論したんだって。どんな数学者が「open」をそんな意味で使うんだよ?自分が解けないからって、教科書の問題を「open question」とは言わないだろ。
彼が指摘してるのは、erdosproblems.comが最終的に整合性が取れる解決済み問題のリストだってこと。だから、問題が解決されても、サイトにそうマークされるまでに時間差があるってことだね。
もし本に未解決問題が載ってて、それを君が解いたとしても、その本はどうやって知るんだい?
ここにいる人たちは、数学における”open problem”が何なのか本当に知らないの?
DeepMindのAIを活用したガン治療の画期的進展が発表された同じ週にOpenAIがこんなことするのは、本当にイメージが悪いね。上司はよく「新しい方針を作る理由になるな」って言ってたけど、OpenAIはこれから新しい広報方針が必要になりそうだよ。
GPT-5が文献レビューに役立つって?いや、そんなことないよ。あれはすごく説得力のある偽物を作るだけ。あの出力に満足してる人は正直羨ましいね、人生が俺よりずっと楽だろうから。
俺が70~80年代の工学関連の数学文献を何時間も図書館で探して、最終手段でチャットを試しても、出てくるのは間違いばかりで、「ありえない」って感じることがほとんどだ。俺だけじゃないはずだよ。
文献を深く掘り下げてみると、GPTはだいたい50%の確率で出典を幻覚するね(高レベルの文献調査だと5%くらい)。残りの50%のちゃんとした情報のうち、半分くらいは既知、半分は未知のソースなんだ。
だからGoogle Scholarとかでは見つけられなかったような論文を見つけるのにすごく役立つ。特に、物理学から数学、政治学から人類学といった並行分野の関連研究や、未発表のPDF論文とか、マイナーな情報を見つけるのに重宝してるよ。
75%の結果が役に立たなくても、それは数分を無駄にするだけ。残りの25%が、それだけでは見つけられないものだから、それで十分元が取れるんだ。
つまり、Googleが昔得意だったことそのものだね。
GPTが役に立たないって言うのは言い過ぎだよ。検索したり、大量の情報を数分で要約したり、答えとソースを教えてくれるんだからね。もちろん、要約を鵜呑みにせず、ソースを確認するのは大事だけど、検索ツールや生産性向上にはめちゃくちゃ役立つんだ!
「それ」って具体的に何のこと?GPT-5 autoとかGPT-5 proとか、Deep researchとか色々あるじゃん。それぞれ、でたらめな情報を出す確率(幻覚率)が全然違うんだから、ちゃんと区別して話そうよ。
GoogleはLLM登場前から検索品質が落ちてたよね。誰のせいとか、いつからとか議論はあるけど、俺的には「まあまあ使える」くらいの検索結果の方が広告表示が増えるのが原因だと思うよ。だって、表示されるダメな結果も大体Googleの広告があるサイトへのリンクばっかりだしさ。
もっとコメントを表示(1)
またしても大手テック企業の勝ちだね。Googleはもうめちゃくちゃになって、今じゃ電力消費が1000倍もかかるのに、結果がデタラメかどうかわからない(コイントスみたいな)ツールを使ってるってわけ。ひどいもんだよ。
ただ何かを見つけたいだけならLLMはいいけど、俺の仕事みたいに答えがない問題が多い場合は、間接的な情報とか証明を探すんだ。あと、言葉って時代で変わるじゃん?(例: 昔は整数をintegral numbersって呼んでたとか)LLMは、そういう古い言葉の扱いは苦手だと思うよ。だから、全文検索にはRecoll (https://www.recoll.org/)を使ってるんだ。マジで時間節約になるよ。
GPT-5みたいなツールが使われる検索や文献レビューって、もっと強力なセマンティック検索エンジンの方が良くない?チャットボットに要約させると、デタラメな答えを出すリスクがあるからね。LLMで作られたドキュメントの埋め込み(embeddings)を使って検索すれば、幻覚のリスクもないし、Googleとかじゃ見つけられないものも見つかるかも。こういうのないのかな?
新聞記事を読んでて、自分の詳しい分野だと間違いにすぐ気づくけど、専門外だと何も疑わずに信じちゃうって原則があるよね。名前は忘れちゃったけど。ChatGPTに対しても、みんな同じような感じで接してるんじゃないかな。自分の知らない分野だと、AIの答えを鵜呑みにしちゃうってことだね。
文献レビューツールに興味があるなら、俺が大学院の友達のために作ったツールがあるよ。階層混合モデルで大量の検索や引用ネットワークを整理できるんだ。例はここね: https://platform.sturdystatistics.com/deepdive?search_type=e…
「GPT-5は文献レビューアシスタントとして使える」って意見に対して「いや、違うよ」って言いたい。何かを探すだけなら優秀だけど、それ以上のものじゃないでしょ。
もし幻覚率がわかってるなら、OpenAIはそれをちゃんと公開するべきだよね。そしたら、ユーザーもちゃんと情報に基づいて判断できるのにさ。
ゲルマン・アムネシア効果だよ。まったくその通り、LLMユーザーにはそれがめっちゃ顕著に表れてる。
共有してくれてありがとう!樹状図みたいな円形グラフ、超直感的でいいね!これは計量書誌学分析用のbibliometrix/biblioshinyライブラリ(https://www.bibliometrix.org/)のいい仲間になりそう。俺自身の依頼で”Deep Dive”を試してみたんだけど、残念ながら”Organizing results”の最後で止まっちゃったよ。後でまた試してみるかな。
Googleが良い検索結果を見つけられなくなった一番の理由は、そもそも良い検索結果がもうないからだよ。もうウェブサイトなんてないんだから。そんなに良くはできないって。
俺はChatGPT、Gemini、Claudeの全バージョンを使ってるよ。幻覚の発生率は大体同じで、モデルより分野のニッチさに依存するみたい。それぞれ違う学術ソースで訓練されてるから、全部使うのが良いね。深い研究じゃなくて、ある主題の全ソースを探すだけなら、高度な思考モードは特に必要ないってこと。
ハハ、それは恥ずかしいね!進捗バーは目安なんだ。論文の引用が多いと、表示よりちょっと長くかかるかもだけど、すぐ終わるはずだよ!
編集:
家でエラーログを確認したら、結果のない長い検索クエリがあった。エラーを返さないのは俺のバグだね。引用ネットワークを使いたいなら、タイトルじゃなくてURLを入力として入れてね。
>いや、そうじゃない。それは非常に説得力のある偽物を作るだけだ。
それが他の人には役立つかもしれないって認めたのに、どうしてそんなに自信満々に言えるんだ?
もし論文の内容を知ってるなら要約は要らないし、知らないなら要約の正確さを判断なんてできないよ。
こんなものがあるか具体的に知りたがってたから、俺のツールhttps://keenious.comについて言っても大丈夫かなって思ったんだ。これは君のニーズに合うかも。基本的には、チャットの利点と、セマンティック検索やキーワード検索を使った通常の学術検索結果を組み合わせようとしてるんだ。そうすればLLMの恩恵を受けつつ、普通の検索みたいにソースと実際に関わることができるよ。探してたものだといいな!
最近PDFを渡して、その情報に基づいていくつか表を作るのを手伝ってって頼んだんだ。これで時間が節約できると思ったんだけど、自分でやった場合の倍以上の時間がかかったよ。些細なミスを繰り返したり、PDFの内容を誤解したり、幻覚を起こしたりしてたからね。
LLMクエリは検索クエリより約10倍電力使うかもだけど、assumptions次第で同じくらいかもね。検索がLLMの1/1000ってことは絶対ないって!
LLMの言うことを信じる人は「仕事に使って間違いに気づかない人」「問題見て全く信用しない人」「検証できる範囲で使う人(俺コレ)」のどれかだね。
「absolutely right」みたいなLLMっぽい言い回しが気になってて、みんなLLMに影響されてるのか、それとも意識的に使ってるのか?Dead Internet Theoryがマジっぽい…。
去年、ドイツ語Wikipediaの翻訳にLLM使ったんだけど、長い表のところでデタラメ作り始めたよ。でもフォーマット維持とかは便利だったから、全く使えないわけじゃない。
LLMの限界がわかったら、それ以上無理強いしても無駄。時間と労力の無駄だからね。
OpenAIのGPT-5 System Card [1] のセクション3.7で、GPT-5モデルとo3のハルシネーション率が詳しく書かれてるよ。チェックしてみて!
[1] https://cdn.openai.com/gpt-5-system-card.pdf#page12
OpenAIとか他のLLMプロバイダーもハルシネーション率について大量の情報出してるよ。でも、使いどころによって率は全然違うんだ。
多くの人がLLMをただのツールだって認識して、ちゃんと使い方を学ぶ努力をしてないのが問題だね。
ChatGPTの思考モードはマジで最高の検索エンジン(ラッパー)だよ。情報源を探すならこれ使うべき!
みんなギャンブル好きなんだよ。
LLMの出力って「偽物(counterfeit)」なんだよ。見た目は文献レビューっぽいけど、低品質な研究を排除したり、歴史的背景を考えたり、矛盾を見つけたりするような本当の分析はまだ機械には無理!これにはかなり自信あるね。
数千億ドルの循環融資がバレてから、AIビジネスとあの過剰な hype にはもう全然驚かないね。
OpenAIの社員も自社モデルの能力を過信してるんじゃないかな?ネットの情報は何でも慎重に見た方がいいよ。
OpenAIのこの文化が、良くも悪くも今のAI hype 環境を作り出してると思うね。
定番のセリフだね。「給料がかかると、理解しない方が都合いいことってあるよね」ってやつ。皮肉が効いてる!
Yann LeCunの“Hoisted by their own GPTards”って表現、マジで素晴らしいよな!センスあるわー。
Yannは天才だけど、最近はちょっと悲観的すぎない?前はLLMが数学やプランニングできない、エラーがすぐたまるって言ってたけど、今じゃツール使って数学解けるし、エージェントはちゃんと計画するし、長文もいけるようになってる。だから、いくら賢い人の言うことでも、全部信じるのは危ないよね。
LLMはやっぱり数学はできないって!トークン予測じゃ推論とは言えないでしょ。「ブルーベリーにRはいくつ?」みたいな簡単なことさえ怪しいし、Redditのクソ投稿者にも勝てない。プランニングとかエラーがたまる問題も、LLMじゃ無理なんじゃないかな。
もっとコメントを表示(2)
「推論してるか」って議論はキリがないから、結果を見ようよ。この論文ではDeepConfって方法で、LLMがAIME 2025で99.9%の精度を出して、しかも生成トークンも84.7%も減らせたって言ってる。
https://arxiv.org/pdf/2508.15260
これってすごい結果じゃない?
「推論」の議論が不毛って言うけど、それこそがLLMに一番必要なことなんじゃない?Unicode聞いても全然違うもの答えるようなモデルじゃ、ウェットペーパーバッグからも抜け出せないくらい推論できてないじゃん。
表現悪くてごめんね。コンテキスト詰めるのが「推論か」って議論は不毛って言いたかったんだ。結局、RLと長文コンテキストでLLMが良い結果出すなら、それが推論だろうがなかろうが、どうでも良くない?ってこと。
そう、それが言いたかったんだよ。エンジニアは「結局、マイナスだ」って叫んでる。デモは派手だけど、翻訳とか簡単な画像生成以外、何も実績がないのが現状じゃない?
「PRを送る」なんて誰もしないよ。あと、人間が「プランニング」とか「ワールドモデル」とかしてる証拠もないし、そんなの古いGOFAIの思い込みでしょ。
LLMは計算機みたいに「数学」はできない。複雑な計算だとエラー確率が1になるって証明もあるしね。プランニングやエラー蓄積の問題も同じだよ。Yannの言ってることは根本的に間違ってない。トランスフォーマーはタスクの複雑さには対応しきれない。Yannみたいに現実見てる人の意見の方が、Altmanみたいに夢だけ語る人よりずっと信頼できるよ。
AIMEタスクでLLMのツール使用が議論の中心だよね?LLMがPythonみたいなツールを使わずに数学問題を解けるかが論点だったのに、「Sparks of AGI」の頃にはツール活用が当たり前だったじゃん。それなのに、彼がLLMの数学解決能力や「計画」に関する主張で間違っていたって言えるのかな?
AIMEタスクはSotAモデルだと99%がツール使用だけど、ツールなしの純粋な自然言語処理でも「めちゃくちゃ良い」性能(90%程度)が出るんだって。大量に計算すれば99%もイケるらしいよ。
参照: https://arxiv.org/pdf/2508.15260
LLMだけで「形式的な計画」を、それも計画フレームワークなしで解けるなんて、多くの真面目な研究者は疑問に思うだろうね。AIの「形式的な計画」は、Cursorでのコーディング計画とは別物だからそこは勘違いしないように。
LLMとツールを組み合わせるのが機能するなら、なんで使っちゃいけないの?それってゴールポストを動かしてるだけじゃない?初期の批判者、特にYannはLLMで長文コンテキスト処理なんて無理って懐疑的だったけど、今じゃ自己コンテキストトリミングや計画編集までできる「エージェント」が何時間も動いてるんだからね。1年前は夢だったことが、今は現実だよ。
「なぜ使ってはいけないのか」って、自分でゴールポスト動かしてるじゃん!誰も「LLM+ツール」を使うなって言ってないよ。
「全てが動いている」って言うけど、全然「ただ動く」わけじゃないよ。バグだらけだし、指示無視するし、嘘もつく。たまにラッキーな結果が出るだけ。プロダクションレベルじゃないね。役立つのは認めるけど、結局は自分が直すことになる。
ゴールポスト云々はそうかもしれないけど、LeCunもLLMはパッチでしのげるけど限界はあるって言ってるしね。Blockworldみたいな計画ベンチマークだと、LLMはフレームワークを使っても未知の問題には対応できないのが大きな課題だよ。
エージェントを毎日使ってるけど、何時間も任せるのはまだ不安。Karpathyみたいなプロも同じこと言ってるよ。
LLM+ツールの話はゴールポストを動かしてるって意見があるけど、個人的には違うと思うな。だって、LLM単体とLLMに色んなツールを組み合わせたシステムは別物でしょ?GIFファイルでDoomデスマッチができるって主張に、GIFビューアがユーザー入力を解釈するからできるって反論するようなものだよ。
LLM+ツールってのは、LLMにツール呼び出しや結果をキャラクターとして含むストーリーを作らせてるようなもんだよね。LLMが正確にそんなストーリーを出せるってことは、LLMが「できる」ことの証明だと思う。数学だって、電卓を呼び出すキャラと計算するキャラのストーリーを作らせることで「できる」んだ。結局、インタラクションもストーリーもLLMが動かしてるんだから。
インタラクションを駆動してるのはLLMじゃなくて、LLMに指示を出させてるプログラムの方だと思うよ。元々はLLM単体の能力が論点だったんだから。LLMをより大きなシステムの一部として見るか、LLM単体の能力を見るかは文脈によるね。
例えば、僕のPCでは、選択したテキストをMistral Smallで文法チェックするシステムがあるけど、テキスト選択やウィンドウ表示はMistral Smallじゃなくて他のソフトがやってる。LLMはそれらの概念を理解してないからね。他のソフトで限界を回避してるだけだ。
文脈を見落としてるのかもしれないけど、Yannが「retard」なんて言葉を使ってるのに驚いたな。彼らしくないし、Elon Muskが言いそうなことだよね。何か見落としてる文脈があるのかな?
「r-word」との言葉遊びじゃなくて、Shakespeareの「Hoist with his own petard」って名言が由来だと思うな。これ、英語のことわざになってるんだよ。(petardは小さい爆弾のことね)
「péter」(おなら)から来てるって説もあるよ。Shakespeareが下品だったから、そういう言い回しが広まったのかもね。
「petard」っていう言葉遊びなんだよ。
非ネイティブだけど、この背景を知るのにこの記事が役立ったよ:https://en.wikipedia.org/wiki/Hoist_with_his_own_petard
「Hoist(空中に投げ飛ばされる)by your own petard(自分の仕掛けた爆弾で)」はよくあるフレーズだよ。
自分の「retard」で「Hoist」されちゃったね。
この一件の悲しい真実は、OpenAIが未解決の数学問題に真剣に取り組む努力をしてないってことを露呈したってことだね。
OpenAIが広告とポルノに方向転換するって発表した時、彼らがもう「ジャンプ・ザ・シャーク」しちゃったなって気づいたよ。市場はまだわかってないみたいだけどね。
ポルノへの方向転換はすごく納得できるよ。ポルノはもともとかなり偽物で説得力がないけど、そんなことは全然問題にならないからね。
収益性には関係ないかもだけど、倫理的には二次的な影響がすごく問題になるよ。僕は清教徒じゃないけど、ポルノが広まったことで、もう人々の性的期待は大きく影響を受けてる。AI生成ポルノは、これまで逸脱とされてた行動の歯止めをさらに外しちゃうし、人々はそういう期待を実生活に持ち帰るようになるだろうね。