AI評価方法、実は穴だらけだった?研究で明らかになった衝撃の事実
引用元:https://news.ycombinator.com/item?id=45856804
論文はこちら: https://openreview.net/pdf?id=mdA5lVvNcURelated: https://www.theregister.com/2025/11/07/measuring_ai_models_h…
LLMのベンチマークや人間評価に携わってるけど、この分野はマジでめちゃくちゃだよ。誰も良い解決策を持ってないし、研究者もベンチマークばかりに時間をかけたくない。完璧なベンチマークなんて不可能に近いんだ。製品のA/Bテストが一番だけど、それでも完璧じゃないし、LLMの能力を測る良いパラダイムがないのが問題だね。
ハイパースケーラーのプラットフォームインフラ担当だけど、うちのベンチマークもマジで冗談みたいなもんだよ。統計はデタラメだし、実際のワークロードの予測にはならない。プロダクションで試してもノイズだらけで大損を見逃すこともあるんだ。AIの世界はもっと曖昧なものを測ってるから、カオスで当然だよ!
最大の問題は、テック企業やジャーナリストがこの件に関して透明じゃないことだね。ベンチマークの数字を、まるで客観的な能力測定値みたいに常にアピールしてるんだから。
だって、ベンチマークが客観的な能力測定に一番近いものなんだから、仕方ないじゃん?ベンチマークがないと、モデルのパフォーマンスは「雰囲気」でしか評価できなくなる。ベンチマークがあれば、ある程度は能力と相関する数字があるわけだし。
p-valueだけじゃ不十分だよ。この資料とか使えるかもね: https://web.stanford.edu/~swager/causal_inf_book.pdf
統計的推論の基礎を教える研修を雇ってやろうかと考えてるところなんだ。エンジニアも興味を持つだろうし、この業界って変な統計的盲点がある気がするから、少しでも意識が上がれば全然違うと思うよ。
LLM評価をしてるけど、誰もLLMをちゃんと使ってないからベンチマークも架空のタスクばかりって冷めた見方もあるし、そもそも高度な知能(人間も含む)をベンチマークすること自体が難しいって見方もある。どっちもある程度は現実だね。
より良い測定方法がないからって、テック企業がベンチマークを実際以上に意味があるように見せかけて、実質的に嘘つくのが許されるってこと?
A/Bテストもやばいよ。ユーザーフィードバックに最適化しすぎると危険だし、人間評価者も悪用されやすい。Bが本当にAより優れてるのか、単なる「肉の悪用」なのか分からないんだ。OpenAIの4oの件とか、他にも多くのラボで起きてるよ。
悪いけど、ベンチマークが「テック企業はダメだ」って言う多くのユーザーの意見と食い違った場合、俺は10回中9回はベンチマークの方を信じるね。
「はい、これが同じクエリを繰り返し実行して100%負荷をかけ続けたときのスループットです。」「でも顧客は、ユニークなクエリで30%負荷の時の低レイテンシを求めてるんだよね。」「えっと…スループットを上げるためにスケールアップできますよ!」ಠ_ಠ
ベンチマークが実際の顧客ニーズとズレてる状況を皮肉ってるね。
ほとんどのコンピュータサイエンスのプログラムって、これ(統計学)を必須にしてるんじゃない?俺のところは統計学が必須だったけど。
「俺たちは統計学が全くダメで(分析のほとんどは文字通り『この二つのサンプルの平均の差はこれです』ってだけ)。ちゃんとした分析してる人を見ても、聞けば『あー、p値とか信頼区間は出すけど、計算方法がデタラメだって確信してる』っていつも認めるんだ。」
今、統計学の入門コース受けてて、内容が簡単なはずなのに全く頭に入ってこないのが不思議だったんだけど、これ読んでなんだかすごく安心したよ。
それは、これらのベンチマークがこれ以上ない最高の代物だって仮定してるけど、明らかに違うよね。やり方を根本的に変えなくても、改善できることはたくさんあるよ。
君の経験は、成長のための成長のために、もっと収益化されてるって言えるんじゃないかな。
俺の経験だと、ベンチマークがデタラメだってことはみんな知ってる。Twitterとかポッドキャストでもそうだ。でも、ベンチマークがなければ誰も使わないから、企業は数値を出してアピールするんだ。Hugging Faceのモデルもベンチマークなしじゃ誰も見ないだろ。人間は時間を無駄にしたくないから、まずは先入観と簡単なベンチマークを見て、それから具体的なユースケースで評価するんだ。Gemini 3もそうだね。
君は単に好みとか、保持率やエンゲージメントに関するA/Bテストの話をしてるの?後者(A/Bテスト)は、個人的にはやったことないけど、かなり信頼できて強力だと思うな。好みも同じくらいめちゃくちゃだよ。アノテーターが誰か重要だし、正確さの代理として好みを使ってるなら、君が測ってるのは正確さじゃなくて、例えば「説得力」みたいなものだ。構成概念妥当性の課題も多いし(それ自体、ドメイン内で測るのが難しいけどね)。
それで、ベンチマーク実行前にクエリ結果キャッシュを無効にしたか聞いたら、彼らは目をパチクリさせて困惑した顔をするんだ。
俺の国(スペイン)では、少なくともCS系の学位だと統計学ってあんまりうまく教えられてない気がするんだよね。俺、大学ではどの科目も理解度高くて良い学生だったんだけど、統計学だけは公式とかテクニックを「こうしろ」って感じで教えられて、なんでそうなるのか、いつ使うのかって説明が全然なかった。CSと関係ない分野(臨床試験とか、身長とか)の例ばっかりで、自分たちに直接関係する応用例がなかったのもダメだったな。結局、卒業する頃にはほとんど忘れちゃってて、働き始めたら「え、統計学ってマジで役に立つじゃん!」って驚いたよ。スペインの他のCS系の人と話すと、みんな似たような経験してるって言うんだよね。
HNの連中もそうだよ。俺のコメント履歴見てみて。一般の人は、ベンチマークがどう作られてるかとか、既知の(そして未知の)限界についてなんて気にもしないんだよ。とはいえ、たぶんベンチマークはそこそこ使える代理指標なんだろうね。例えば、普通のユーザーはClaude SonnetとOpenAI Codexの間で、そんなに大きな違いは感じないと思うよ。
ベンチマークがどうであれ、俺は使わないんだけど、君の言いたいことはわかるよ。でもさ、マーケティングはもっと透明性があるべきだとマジで思うね。
そうそう。全部「ポイズンドメトリクス」だよ、やり方は違うけどね。GPT-4oが延々とヨイショしてくるのは定着率に超効くし、GPT-5が毎回質問で終わるのはエンゲージメントに最高なんだ。でもさ、それって望ましい特性なの?絶対違うよね。ただの小細工で「リワードハッキング」にしか見えないし、A/Bテストでマジで報酬が得られちゃうんだ。直接最適化なんてさらに悪い。両方組み合わせたら破滅的だよ。もちろん、これらのメトリクスが役に立たないって言ってるわけじゃない。放射性物質だって無用じゃないしね。ただ、その嫌な性質を常に心に留めておかないと、とんでもないことになるぞって話。
俺の仮説では「もっと良いベンチマーク」って言っても、5%くらい良くなるだけで、5000%も良くなるわけじゃないんだよ。LLMは、ベンチマークが正確に測る能力よりも早く進化してるからね。だから、劇的に良いものなんて出てこないよ。今までと同じで、ちょっとマシなベンチマークが出てくるくらい。それでも良いんだけどさ。でも、「今のベンチマークはクソだ!」って誰もが気づいて、新しい超良いベンチマークに全部置き換わるような「ベンチマーク革命」なんて期待しない方がいいよ。進歩は地道で、地味だけど、積み重なると意味があるって感じだね。
ぶっちゃけ、統計学の入門って、俺が見る限り、良い教え方されてないと思うよ。公式とかテストとか、手順を追うレシピにばっかりフォーカスしてて、なんでそれが動くのか、どう動くのか、知らないシナリオでどれを使えばいいのか、どうやって正しいことを見つければいいのか、みたいな直感を育む時間を全然かけてないんだ。
それに、大事な問題(ランダム性って何?どうやって正しい質問を立てるの?その質問に実際に答えられるデータを集める実験はどう設定するの?)を全部飛ばしちゃってるから、もう最悪だね。ただのチェックリスト作業になってて、一部の学生は運良くすごい先生に当たるか、適切なバックグラウンドを持ってて自分で正しい感覚を身につけられるけど、ほとんどの学生にとっては損してるよ。
でもAI業界だと、世界中が君と競い合ってるわけだから、たとえズルしてベンチマークの答えを訓練セットに入れまくって過学習させたとしても、結局モデルがクソだったら、マーケティング部門が「SWE benchで110%取ったぜ!」ってどれだけ騒いだって関係ないんだよ。本番でうまく動かなかったら、ユーザーが自分の個人的な/内部の秘密ベンチマークで「全然ダメじゃん」って気づいて、r/localLLAMAに「ダウンロードする価値なし」って言いまくるだろうから、お前の発表なんて流れていくさ。Llama 4ってどうなったんだっけ?
アメリカでも同じ経験したわ。
それとどう関係するかっていうとさ、「テック企業がAIの能力を測るのに、今ある最高のツールを文字通り使ってるのに批判するのは間違ってる」っていう君の意見は、マジでひどい意見だよ。まるで「テック企業は悪だ!」って言いたかっただけで、あとは全部飾りつけにしか見えないね。
いや、ハイパースケーラープラットフォームの世界では、俺はそうは思わないね。このプラットフォームの効率性には、マジで莫大な金がかかってるんだ。それに、俺たちは超洗練されててパフォーマンスにシビアな顧客を抱えてるから、彼らは常に競合と俺たちを直接比較してる。誰も真実を気にしないなんてことはないんだよ。みんな100%気にしてる!もし本番環境で実際にパフォーマンス指標が悪化したら、誰かが100%気づくし、その機能をロールバックさせたくなかったら、たぶん何千人も部下がいるような人と会議して、「ビジネスにとってこれは価値がある」って説得しなきゃいけなくなるぞ。でもさ、悪化する“前”にその会議ができたら、もっとラッキーだよね。ただ…それがどんな悪化になるかを正確に把握するのは、俺が前のコメントで言ったような理由で、いつも結構難しいんだけどさ…。
統計学の入門で同じこと感じたよ。『superforecasting』を読んでから、統計の意味がもっとよく分かるようになったんだ。この本、本当によく勧めてる気がするな。
もっとコメントを表示(1)
「脆い性能って話、AIモデルは簡単な算数問題は得意だけど、数字や言い回しを少し変えるだけで急に失敗するんだって。これは問題を理解してるんじゃなくて、パターンを暗記してるだけってことだよね。この発見には本当に驚かされたな。」
世界中の専門家からAIモデル向けの難しい問題をクラウドソーシングする「Humanity’s Last Exam」について書いたことがあるよ。AIには難しいけど人間(医者)には簡単な問題もあったんだ。IRL経験で得られる推論や論理がAIには足りないってこと。将来AIモデルを訓練するには、現実世界(meatspace)に触れさせて推論を注釈付けする必要があると思うんだ。これは時間がかかるけど、これこそが真の知能を生み出すはずだよ。
https://www.happiesthealth.com/articles/future-of-health/hum…
Mercorは、まさにそのやり方で年間9桁の収益を上げてるよ。Micro1なんかもそうしてるね。
ベンチマークってSATスコアみたいなもんだよね。将来の仕事でうまくやれる保証はないけど、それが示すものにはまあ納得してる。LLMが意味のある形で良くなってるのは明らかだし、ベンチマークもある程度それと相関してるよ。
人間の学力を測るためのテストが、LLMの仕事の能力を測るのに適しているとは限らないんだ。例えば、「1765x9392を掛け算しろ」っていうテストは、人間の知能とはある程度相関があるけど、コンピューターに適用するのは意味がないでしょ。
ちなみに…GPT-1に「1765x9392を掛け算して」って聞いてみてよ。
LLMとそれを活用した製品の違いがもっと広まってほしいな。GPTは言語モデルだから、数学問題を解かせちゃダメなんだ。ChatGPTとかClaude、GeminiはLLMそのものじゃなくて、LLMをベースにした製品だよ。だから「LLMは計算できるか」じゃなくて、「LLMを組み込んだ製品が計算問題を解けるか」が大事なんだ。同僚が「GPTのLLMはExcelファイル使える」って言ってたけど、それは違う。LLMじゃなくて、繋がってるツールが使ってるだけだよ。
「GPTのLLMがExcelファイル使える」って話、それは違う。繋がってるツールが使ってるだけだよ。人間がExcelを使えるのは、キーボードとか道具があるからだけど、能力は人間にあるよね。猫はいくら訓練してもExcelは使えないでしょ。LLMも同じで、ChatGPTみたいな現代のLLMはツールと連携してExcelを扱えるけど、単純なLLMにはできないんだ。ツールの有無は関係ない。
「GPTのLLMがExcelファイル使える」って言ってたけど、それは違うんだ。しかも、正しいツールを適切に使うかは五分五分だよ。GPT-5でさっきの数学問題を何回も試したんだけど、正解率はだいたい50%。もう一度って頼むと2、3回目でやっと正解することが多いんだよね。間違ってても、見た目はそれっぽくて騙されそうになるよ。
LLMがツールを使わずに計算能力を向上させているって話だと思ったよ。結局、これもLLMの能力向上を示すテストの一つってことだね。
これって美術評論家を採点するようなもんじゃない?客観的なコンピューターを使って主観的な結果を出させてるわけでしょ。主観性を採点すること自体が主観的で、解決策がないって分かってる問題じゃないの?
みんな「明らかに」とか「当然」って言葉で議論の主題をうやむやにしがちだよね。LLMが本当に意味のある方法で良くなってるかは明らかじゃないし、ベンチマークが問題だって言ってるわけで、「明らかに」は反論にならないよ。
今のLLMブームの中で、これは間違いなく弱い部分の一つだね。モデル比較とか、同じモデルのバージョン違いでさえ、科学的とは言えないごちゃごちゃした状態だよ。俺はまだhttps://lmarena.ai/leaderboardを使ってるけど、もっと良いのがあれば誰か教えてほしいな。仕事でLLMを使ってるけど、モデル間で説明できない違いがあるんだ。あるモデルでプロンプトがうまく動いても、別のLLMに移植するのは難しいことが多い。GPT-4から-5へのバージョンアップでさえね。プロンプトとモデルがすぐに密接に結びついちゃうんだ。どうしたらいいか分からないから、結局Geminiを選びがちだよ。
LMArenaの評価って、簡単に不正できるんだよね。プロの人間評価者でさえ、おべっかや自信過剰で間違った回答に影響されやすいのに、LMArenaの評価者はプロじゃないし。今のLLM世代から漏れ出てるおべっか的なめちゃくちゃな挙動の多くは、人間のフィードバックに基づいた無謀なチューニングが原因だよ。LMArenaで良いパフォーマンスを出すためのチューニングも同じような効果があって、これは偶然じゃないんだ。
それ(前のコメントのLMArenaかリーダーボードの話を受けて)は短いコンテキストでの性能に偏りがあるから、俺は開発者としてはちらっと見る程度で、あまり重視してないんだ。Deepseekみたいなモデルじゃ出せない、40-100kトークンでの性能が必要で、それはGemini 2.5 ProやChatGPT 5.0 Thinkingならできるんだよ。
「長期的な性能」って言っても、「複数ターンの指示追従性能」とか「エージェント的なタスクの性能」に分かれていくんだよね。「エージェント的なタスクの性能」自体もとんでもなく複雑だし。LLMの性能を単一の指標で捉えるのは絶望的だよ。でも、たとえ欠陥のある指標でも、全くないよりはマシだよね。
俺も自分のサイトでこれには苦労してるよ。https://aimodelreview.com/を作って、いろんなプロンプトやカテゴリでLLMの出力を比較できるように、横並びで比べられるようにしたんだ。各プロンプトを各モデルで温度設定を変えて4回実行してる。俺の考えは、ユーザーに回答を見せて、どうモデルが動くか自分で判断してもらおうってことだったんだけど、フィードバックによると、ユーザーは自分で評価したくなくて、リーダーボードやランキングを見たがるみたいだね。それに対するスケーラブルな解決策は、いくつかのベンチマークで使われてる「LLMをジャッジにする」って方法だけど、それは俺には間違ってる気がする。LMArenaはクラウドソースの解決策でこれを解決しようとしてるけど、正しい方法はドメインの専門家である人間のレビュアーだと思う。WirecutterとIMDbみたいな違いだね。でもそれって実施するのがめちゃくちゃ高いんだよ。
「あるモデルでプロンプトがうまく動いても、別のLLMに移植するのは難しい」って話だけど、ある研究で、一つのプロンプトが、あるモデルのタスク性能を劇的に上げたのに、別の人気モデルの同じタスクでの性能を大幅に下げたっていうのを見たことあるよ。
その研究、どこで探したらいいか教えてくれる?
人間の心理測定だって難しいことだらけだよ。測るのが難しいものってあるんだよね。
モデル比較って疑似科学的なめちゃくちゃさだよね。
ほとんどのLLMは真のオープンソースじゃないから、公開ベンチマークのテストセットとの交差汚染があるかわからないし、再現もできない。VCマネーを考えたら詐欺に近いレベルだよ。UAEとかの無名な研究所のモデルだと特にひどい。
これは個々の開発者レベルなら解決できるよ。自分が解いたコード問題で独自のベンチマークを作ればいいんだ。テストが通るか、tok/sやTTFTみたいな指標を満たすか確認して、APIキーやローカルモデルで動くハーネスを作ればいいんだよ。
開発者としてLLMを使う場合、僕のベンチマークは超シンプルだよ。aiderやclaude codeを新しいモデルで設定して、実際に使ってみるだけ。前のモデルより性能がいいと感じたら合格、ダメなら不合格で戻る。顧客に提供するなら評価は大事だけど、使う側なら使ってみて確かめるのが一番さ。結局、全部主観的なものだしね。
(前コメントへの返信)ユーザーなら使ってみて確かめるのが一番、って意見には反対だな。人間って感情とか「人間的」な要素を判断から排除するのが苦手だし、自分でLLMを使うタスクで77/100とか91/100みたいにスコアで比べられると、モデル比較がめちゃくちゃ楽になるから。測定に使ったら、このベンチマークは公開しない方がいいよ。
だから何?使ってるのは俺だし、人間だし、俺の人間的要素だけが重要なんだよ。毎日LLMを使ってる人ならみんな、ベンチマークの数字が上がっても、実際の使い心地は全然改善されてないって知ってるはずだ。
(前コメントへの返信)「人間的要素だけが重要」って言うけど、人間として一貫性が大事じゃないならそれでもいいんじゃない?僕は自分の「人間らしさ」は信用しないし、LLMを使う上で正確性が一番大事だから、ベンチマークはそこに集中してるよ。「ベンチマークの数字が上がっても日常体験が改善されない」っていうのは、まさに僕が言いたかったこと。開発者のベンチマークはいつも高得点だけど、僕のベンチマークでは1.5年間ずっとトップスコアは変わらない。LLMを試して判断するのもいいけど、具体的な理由を指摘できる方が僕は役立つと思うな。
このサイトがまさにそれをやってると思うよ:https://aistupidlevel.info/
OpenAIのGitHubは評価を書き込めるようになってるよ。そこに自分の評価を追加すれば、次のモデルは必ず改善されるからね。
LLMが「問題を解く」って言っても、それは解決のパターンを認識してるだけかもって考えるべきだよな。
それって「評価(evals)」ってやつで、ちゃんとしたAIプロジェクトなら普通にやってることだぜ。
もっとコメントを表示(2)
記事の「AIMEみたいな試験の使い回しだとLLMが苦手なデカい数の計算能力は測れない」ってやつだけど、モデルが人間みたいに「問題を解くコツ」を見つけるのはむしろすごいことじゃん。LLMは今までコンピュータが苦手だったことをやるのが目的なんだから。
LLMが小さい数字に強いからって、推論能力があるとは限らないと思うな。推論能力があれば、人間みたいに鉛筆と紙があればどんなサイズの数字でも扱えるはずだろ。ただ、記事の言う「大きい数のパフォーマンスが予測できない」ってのは、その試験の目的じゃないなら反論にはならないんじゃないか?
推論能力があれば、人間が鉛筆と紙を使えるみたいに、AI自身が動いてる電卓を使えばどんな数の計算もできるはずだろ。人類史上最高の電卓の上で動くAIが、まさか基本的な計算すらできないってのは、マジで皮肉な話だよな。
「鉛筆と紙」って言っても、結局はツールを使ったテストってことだろ。
それは本気で言ってんの?AIは電卓じゃないから、皮肉でも何でもないんだよ。
「コンピュータ」って、結局どういう意味なんだっけ?
コンピュータビジョンもメールソフトもコンピュータ上で動くけど、基本的な計算はできないだろ?コンピュータ上で動くからって、計算ができるとか、できるべきだとかは言えないんだよ。
君が論じてるのは、誰も言ってないことみたいだな。個人的には、ツールを使うってのは人間が電卓を使うのに近いと思うぜ。
LLMがベンチマークでツールを使うのは公平だと思うな。ただし、LLM自身が使うかどうか決めるべきだね。
議論してるわけじゃなくて、これはもう今日のLLMテストで実際にやってることだよって言ってるだけ。人間と同じように結果の違いを見たい人向けにね。
LLMってのは結局、学習データに基づいた予測アルゴリズムだから、基本的な計算機能がないのは当然。だからこそ、LLMが自分で電卓とかツールを使えるようにするのが増えてるんだよ。これで計算が必要な部分の精度が上がるんだからさ。
コンピュータービジョンって数学しかしてないはずだよ。あと、メールクライアントが未読メールの数を数えてるの見たことある。結構うざいけど、あれも足し算だから数学だよね。
「大きな数字でのパフォーマンスは、これらの試験がテストする目的ではない」って言うけど、そうなの?算術スキルを測るのが目的なんじゃない?数字の大きさに関わらず、算術スキルは一定レベルであってほしいんだけど。
「それどころか、推論能力があれば、人間が鉛筆と紙でできるのと同じように、任意のサイズの数字を扱えるはずだ」ってことだけど、LLMにツールを使わせたベンチマークを見れば、今日、LLMにペンと紙を与えた結果が分かるよ。これは君の意見への補足であって、攻撃じゃないからね。
何も知らないけど、ツールの使用って知性の大きな証拠だと思ってた。例えば浮動小数点数はすごい技術なのに、チェーンソーでパンを切るみたいに使われてるよね。基本的な計算ができない言語もあるし、正直ゾッとしたよ、「こんな計算できないなんて!」ってさ。
LLMもコンピューターなんだから、電卓を与えればいいじゃん?彼らの世界で最高の道具なのにさ。
編集: あ、言い忘れた。大きな数字の計算なんて、現実世界で誰もしないってこと。
完全にオープンエンドにするべきじゃないと思うな。「ask_hooman」みたいなツールがあったら、今のLLMの多くの問題を解決できちゃうかも。でも、それはベンチマークに関してLLMが能力があるってことにはならないよね。
ある意味では納得できるけど、一方でLLMはすでに何千もの記号を完璧に記憶してるよね。それって人間がテストを受ける時に鉛筆と紙が与えるものと同じなんじゃないかな。
LLMは人間みたいに、計算が必要なときにExcelやMathematicaみたいな外部ツールを使うように学習できるはずだよ。まだ活用できる最適化の機会がたくさんあるね。
LLMのポイントって、コンピューターが苦手なことだったはずなのに、結局、検索の代わりとか、カスタマーサポートのコスト削減に使われてる気がするな。
ベンチマークテストも、実際の使い方をあまり反映してないんじゃない?
個人的には、電卓問題はツールを使ったり、電卓みたいな機能をモデルに組み込んだりすれば解決すると思うよ。
もうすぐこの「電卓が苦手」ってネタも古くなるんじゃないかな。
(前のコメントへの返信?) ツール利用って、2023年くらいから流行り始めたんだよね?
問題に行き詰まったら外部の助けを借りるのは賢い選択だよね?
もしそれが問題なら、「15秒以内に回答」みたいな制約をベンチマークに入れればいいんじゃないかな。
そうすればLLMが時間を見て判断できるでしょ。
LLMの「本当のポイント」なんて、まだ誰も知らないんじゃないかな。
言語理解の「トリック」として偶然生まれたようなもんだしね。
まだ新しすぎて、みんな手探り状態だよ。
数十億ドルかけて、「そこそこ使える」ってレベルにはなったみたいだけどね(笑)。
それって、車のオルタネーターが、隣にガソリンエンジンがあるのに自分でガソリンを燃やせないのが皮肉だ、って言ってるのと同じじゃない?
オルタネーターはエンジンで動いてるのにね。
文脈の記憶力が完璧ならいいのにね!
データはちゃんと保存されてるんだろうけど、必要な部分を正確に引き出すのは…もしかしたら人間より苦手かもね(笑)。
なんでそれが当たり前なの?
加算って連続関数だから、普遍近似定理が適用できるはずだよ。
1兆パラメータのモデルが基本的な計算を近似できないなんて、決まってないんじゃないかな。
モデル自体より、トークン化の方が問題だと思うよ。
いや、AIMEは高校生向けの試験で、主に代数や組み合わせみたいな高度な数学概念をテストするものだよ。
必要な算術は基本的なものだ。
答えは3桁の数字で、客観的に採点できるし、勘で当てるのは無理。
1問あたり平均12分あるから、計算が苦手でも他の数学ができれば正解できるはずだよ。