LLMの半年間を自転車ペリカンで例示! AI界の奇妙なテスト?
引用元:https://news.ycombinator.com/item?id=44215352
俺のベンチマーク、結構良いと思ってたんだ。大手AIラボにバレなきゃ長く使えるはず…。
そしたらGoogle I/Oで自転車に乗ったペリカン見て、バレた!何か別のテスト考えなきゃ、ってなったよ。
これってAI能力を公に議論するの難しいって問題だよね。どんなテストも大手企業に知られるとRLHFで変に最適化されちゃうんだ。「イチゴの”r”」の例みたいにさ。
正直、俺のくだらないペリカン自転車ベンチマークが影響力持って、AIラボが時間かけて最適化してめっちゃ綺麗なペリカンの絵を作ってくれたら、それは個人的には大成功だと思うよ。
コメント1の「イチゴの”r”」ってやつ、GPT-4oで試したら失敗したよ。「The word ”strawberry” contains 2 letter r’s.”って返してきた。
「イチゴ」試したよ。
strawberry → 全部3個で正解。
strawberrry → 全部4個で正解。
stawberrry → DeepSeekとGeminiProは3個で正解。
ChatGPT4oは「stawberrry」を”r”4個って間違えたよ。しかも内訳まで教えてきてさ:-)Breakdown:
stawberrry → s, t, a, w, b, e, r, r, r, y → 4 r’s
その後「strawberry」か?って聞いてきて、そっちなら”r”は2個だって言うんだから…
だから、こういうのはARC Prizeみたいなアプローチの方が良いんじゃない? URL: https://arcprize.org
まあ、ARC-1はテックジャイアント以外の参加者にとっては良い結果じゃなかったし、ARC-2も同じになるか分からないけどね。
それはARCが悪いベンチマークだってことにはならないよ。テックジャイアントはどんなベンチマークでもすごく有利なんだ。特に真の汎用知能に近いベンチマークならね。
GitHubにテスト内容のsha512ハッシュと短いコメントだけあげるんだ。
x8 version: still shit
…
x15 version: we are closing, but overall a shit experience :D
こうすれば彼らは何を改善すれば良いか分からないでしょ。まあアクセス買われちゃう可能性はあるけど ;P AIが問題を解けるようになったら、ベンチマーク公開すれば良いんだよ。
>これは史上最も成功した製品ローンチの一つだ。1週間で1億アカウントも登録されたんだ。
恥ずかしながら、今まで知らなかったよ。画像生成機能は知ってたけど、こんなにすごかったとは(Stable Diffusion使ってたし)。毎週AIニュース多すぎて、マジでどっぷりじゃないと大きなリリース見逃しちゃうみたいだね。
いやいや、あれはめちゃくちゃ主流になったよ。自分をマペットにしたり、犬の人間版は?とか、TikTokでも超流行ったんだ。マジですごいよ。
うん、でも Bored Ape NFT とか一時的な流行りもそうだったじゃん?ああいうのって、質とか長持ちするかとか、ホントに価値あるかとか、面白いかとかの指標にはならないんだよ。
1週間で1億人登録って聞いて、なんでみんなすぐ無視できるんだ?フィジェットスピナーの話じゃないんだよ。HackerNews で「AI は大したことない」って言うのが普通なのはマジで謎。「HN コメンターは AI を無視する」って他のとこじゃネタになってるし。たぶんみんなそう思ってる集団思考かな。
マジ頑張れば、ネットの流行りが「何じゃないか」ってリスト全部作れると思うよ。君はちょっと始めたね。こういう儚い流行りは、質、長持ち、本物、興味、中身、耐久性、威厳、関連性、信頼性、魅力、続く力、洗練、深み、とかの指標にはならないんだ。
おめでとう、君ソーシャルメディアからほぼ完全に disconnected (繋がってない) 状態だね。この product launch (製品発表) はマジで巨大な mainstream (主流) イベントだったんだ。数日間は GPT が作った画像が SNS を完全にジャックしてたからね。
1億人があの画像ミームを一度作るためだけに登録して、二度と使わなかったわけじゃないっしょ。そんなに登録者いるのは、何だかんだ言ってもすごいんだよ。LLM の人気を全部大したことないって言おうとするの、マジでうんざりするわ。
> フィジェットスピナーの話じゃない
代わりにヒトラーの meme (ミーム) の話でもしてんの?君の偽りの憤慨、マジわかんない。生成画像のホントに役立つ商用利用ケースはまだ見つかってないよ。(ブログ spam をちょっとマシにするのは良い使い道じゃないしね。)
これ皮肉か本気かわかんないけど、本気ってことにするわ(笑)。育休明けに職場戻ったら、みんな Slack の写真が例のジブリ風画像になってて、何?ってなったんだよね。SNS 見てなくても、マジで大事なことは他からわかるもんだね。すっごい流行りなら、どっかで聞くっしょって感じ。
君の言う通りだね、誰かがそれで金稼ぎの方法見つけなきゃ、何にも価値ないね。OpenAI は別みたいだけど。だって、みんなが ChatGPT 買って画像作ってるって事実が、なんでか商用利用ケースとして認められないみたいだからさ。
TBH (To be honest)、これよりひどい例えは思いつかないわ。俺の妻は今でも ChatGPT で写真加工してるよ。その機能出るまで ChatGPT とか他の LLM 全然使わなかったのに。確かに流行りだけど、めっちゃ便利なツールでもあるんだって。Ape NFT は… Ape NFT でしょ。何の役にも立たん。意味なし。ほとんどの人にとってマイナス価値だよ。
OpenAIはまだ儲かってないみたいだし、今後どうなるか分かんないよ。
1億人がAI画像を急に超必要になったってより、単に流行りに乗ってちょっと触ってミーム作っただけって方がずっとありそうじゃない?
みんなが「お金払ってでも使いたい」から「巨額の研究開発費かけても儲かるか」って議論にゴールポストが動いたってことかな?
妻は今もChatGPTで写真加工に使ってるんだけど、この機能出るまで全然使わなかったんだって。これって10年前のInstagramみたいで、デジャヴュだね。
みんなが何でもかんでもジブリ風にしてたの、知らない?すごく流行ったじゃん。
どっちの考えもちょっと違うと思うな。1億人は登録して何かはやってるよ。そんで、たぶん5~10%が役に立つって思ってMAUになったんだ。これは一日で考えたらほとんどの開発者が経験できないくらいすごいローンチだよ。まあ、このMAUが続くかは競争でトップに居続けられるかにかかってるけどね。
今のところ、OpenAIは「お金を出してでも使いたい」って感じじゃないんだよね。
どうやらOpenAIはこれでめっちゃ損してるらしくて、有料プランへの転換率も悲惨なんだって。安いのでもダメみたい。一番高いサブスクでもコスト回収できてないって話だよ。例えるなら10倍スケールの Uber かな。 Uber も hype の割に世界的には失敗だと思うんだ。特定の場所だけ強い普通のタクシー会社だよ。
今もそうだよ。Instagramは gpt 生成の絵とか、今は veo3 ビデオを投稿するアカウントでいっぱいだ。画像生成は最初から追ってるけど、こんなに定着したのは初めてだよ。
彼らのコンバージョン率が低いって情報、信頼できるソースからなの?
いや、たくさんの人が金払ってるよ。OpenAIがブレークイーブンするのに、ユーザーから年間たった10ドル追加で得ればいいって計算がフロントページの別の投稿にあるから見てみて。
もっとコメントを表示(1)
はっきりさせたいんだけど、ChatGPTにはすでに画像生成機能はあったけど、今回のは以前のよりはるかに優れてるんだ。Stable Diffusionアプリ使ってる君にとっても、かなりのアップグレードになるはずだよ。画質だけじゃなくて、ちゃんと筋の通った画像を生成して指示に従えるから。
君は今日のラッキーな10,000人のうちの一人だね。https://xkcd.com/1053/
断言するのは難しいし、まず彼のブログ記事はめちゃくちゃ長くてLLMに対してかなり悲観的だって言っとくけど、OpenAIの財務に関してはまっとうな主張をしてるよ。
https://www.wheresyoured.at/wheres-the-money/
https://www.wheresyoured.at/openai-is-a-systemic-risk-to-the…
プロパガンダに対する議論みたいに、何を言ってるかじゃなく、何を言ってないかがすごく大事なんだ。OpenAIは些細な成果でも大声で騒いでるのに、財務の基本については驚くほど静かだってことは、何かを物語ってる。せいぜい平凡か、もっと悪い可能性が高いね。
僕が一番引っかかったのは、彼が確率モデル(LLM)をたった1回のサンプルで比較してることだね。違う乱数生成器をそれぞれ1回ずつ試して、『生成器5が一番大きい数字を出した』なんて結論出さないだろ?
それぞれのLLMで10枚(かそれ以上)の画像で比較して、平均を出した方がずっといいと思うな。
多分分かりにくいけど、このベンチマークは主にジョークだよ!
トークを面白くするために、この半年間のモデルリリースを盛り上げるのにピッタリだと思って作ったんだ。
Visionモデルがベストな10枚を選ぶ、みたいな拡張版も考えてるけど…(審査員もVision LLM 3体にして、採点させるのも面白そう)
ただ、ベンチマーク自体がかなり馬鹿げてるから、やる価値あるかな?って迷ってるんだ。
君の言う通り。でも、モデル開発企業は、これが人間みたいに動くとマーケティングに必死だよ。
人間なら、完璧なDrawing SkillsとBikeやBirdの知識があれば、簡単な絵も100%正確に描けるはずだ。
たとえ probabilistic でも、関連知識を正しく学んでたら完璧な出力になるはずで、それが loss を減らすんだ。これらの出力は明らかに知識の欠陥を示してるね。
>人間なら、完璧なDrawing SkillsとBikeやBirdの知識があれば、簡単な絵も100%正確に描けるはずだ。
それならこれを見てくれ、絶望するぞ:https://www.gianlucagimini.it/portfolio-item/velocipedia/
たとえジョークでも、一貫したMethodologyは役に立つね。
俺は1年くらい、Reasoning系の個人的ベンチマークを新しいオープンモデルが出るたびに試してた。
一回実行してランダムな性能サンプルを得るんだ。運が悪かった?運が良かった?だから何だって言うんだ。
それが Experimental protocol だ。何回もやって良いのを選ぶのは人間の Bias が入るし、手順も複雑になる。
俺は絶対やらない方が良いと思うよ。
ベンチマークが真面目に見えすぎるし、知識カットオフの問題も残るからね。
君の prompt はブログの外でも人気になって、SVGのPelican on bicyclesが訓練データに入り込む確率がどんどん上がってる。
Karpathyも最近のインタビューで例に使ってたし:https://www.msn.com/en-in/health/other/ai-expert-asks-grok-3…
君はあれが「完璧なBikeの知識」と「完璧なDrawing Skills」を持った人たちが描いたって主張してるの?
>これらのモデルは人間のように動く(discretelyかどうかは別として)が、引用文を意味するわけじゃない。
ほとんどの人間は完璧なDrawing SkillsもBikeやBirdの完璧な知識もないし、簡単な絵を100%正確に描いたりはしない。
「Average human」は多くの人が思ってるよりずっとレベルが低いんだ。ほとんどの人は Drawing が下手だし、Bikeの仕組みを覚えてない(あるいはPrinciplesから推測できない)。
Physics の連中には https://xkcd.com/793/ があるし、有名なロケット科学者も浸水した洞窟から子供を救出するのに、 submarine とかいうナンセンスを思いついたりした。
人間が完璧なDrawing Skillsを持ってるんじゃなくて、自分の Performance を評価して時間をかけて上手くなれるってことだよ。
無作為に100人に10分でBikeを描かせてみろよ。平均的にはひどいだろうけど、LLMよりはマシだ。
やる気を出させて10ヶ月与えれば、平均的な人でも少なくとも1枚はかなり decent なBikeの絵を描けるようになるだろう。
LLMのコストとスピードの利点は、Qualityが極端に低くても良い場合に real だ。ベストを選ぶために10,000枚描かせてみても、steep price で random chance による marginal improvement しか得られない。
これらのSlidesをまとめるまで気づかなかったんだけど、俺のジョークベンチマークが実際のモデル Performance とどれだけうまく相関してるか驚いたよ。
「Better」なモデルは genuinely BetterなPelicanを描いてるみたいで、理由が全然分からないんだ!
>無作為に100人に10分でBikeを描かせてみろよ。平均的にはひどいだろうけど、LLMよりはマシだ。
ほら、これが俺が「「Average human」は多くの人が思ってるよりずっとレベルが低い」って言ったことの prime example だよ。
Expertな artist なら10分でBikeのラフスケッチを描ける。数年前に10分、1分、10秒で同じ絵を描くチャレンジがあったから、君自身もその exact duration を見れるよ(Bike以外の例だけど)。
普通の人が好きなだけ時間をかけても、前の post で linked した絵になる。Bikeが何かを本当に知らないから。
普通の人がBikeをどう描くか、45例:https://www.gianlucagimini.it/portfolio-item/velocipedia/
>やる気を出させて10ヶ月与えれば、平均的な人でも少なくとも1枚はかなり decent なBikeの絵を描けるようになるだろう。
義務教育の美術の授業は10ヶ月より長いのに、あのBikeの例が存在する以上、俺にはそう信じる理由がない。
>ベストを選ぶために10,000枚描かせてみても、steep price で random chance による marginal improvement しか得られない。
人間が rating や comparing images をするなら、そのコストは君自身の時間だ。
Literally この write-up の方法(別の model に API call して ELO rating でpairwise comparison)で自動化すれば、10,000枚は $60-$90 くらいで、人間の依頼料としては安い方だよ。
客観的な基準として、ペダルやチェーンが付いてる自転車画像の割合はどれくらい?すぐに10個くらい見つけて数えるのやめたよ。LLMの画像で同じことやったら、人間が勝つのは明らかだね。<<Average human” is a much lower bar than most people want to believe
比較する根拠はあるよ。6歳児が描いた自転車の方がLLMより上手いの見たことあるし。
あのリストをもう一度見てみて、一番ひどい例は車輪すらないし、いくつかはどこにも繋がってない車輪があるだけだよ。
もし平均的な人間が平均的な6歳児より下手だって言うなら、それは違うと思うな。
<<Given mandatory art lessons in school are longer than 10 months, and yet those bike examples exist, I have no reason to believe this.
美術の授業が合計で10ヶ月も自転車の描き方を教えてるわけじゃないでしょ。俺は人生で絵を描くのに合計6ヶ月も費やしてないと思うし。絵画、コラージュ、彫刻、塗り絵とか、アートって色々あるし、毎日とか毎年やるもんでもなかったよ。大学の必須コラージュ授業は美術史で、作品は作らなかったし。
君は授業で描画を勉強する時間をもっと費やしたかもしれないけど、それは一般的な平均じゃないよ。
<<If you automate it in literally the manner in this write-up (pairwise comparison via API calls to another model to get ELO ratings), ten thousand images is like $60-$90, which is on the low end for a human commission.
全部の画像に値段が付いてたわけじゃないけど、一つは88セントだったから、10,000枚だと8,800ドルかかるってことだよ。たとえ1枚4セントでも400ドルだし。もっと安いモデルもあったけど、性能は悪かったね。
そうなんだよね、質問や問題が公開されてるベンチマークの問題点はこれだよ。数ヶ月は価値があるんだけど、トレーニングセットに流れ込んじゃうんだ。俺たちが目にしてる”改善”の多くは、単にベンチマークがトレーニングセットに漏れてるだけだと確信してるね。
そして、ますますベンチマークとして知られるようになったサンプルによってね。新しいトレーニングデータには、この記事みたいなのがもっと含まれるようになるから、LLMが「自転車に乗ったペリカン」が良いと見なされるものを推定する能力が自然に向上するってわけだ。
それはそれでいいんだよ、自転車「乗り」ペリカンが普通になったら、今度はペリカンと自転車が結合してる画像を出力させればいいだけだ。主語-動詞-目的語の組み合わせはほぼ無限にあるし、想像できるけど、ほとんどはありえないことだ。ありえなさを処理できる機械(LLM)は、うまく抽象化できるようになるまでは、ありえないものには苦労するだろうね。
88セントのは、他のほとんどより桁違いに高かったんだよ。これらのほとんどは1セント未満で生成できるんだ—だから俺はo1 proの出力で値段を強調したんだ。
そうだね、でも安いオプションと高いオプションの平均を取るなら、高い方がかなり影響するよ。安い方は0が限界だから、平均からの差もそんなに出ないし。
それに、何かがどれだけ安いかって話をしてるとき、値段を含めるのは当然じゃないかな。俺はあのモデルの多くについて全く知らなかったんだ。
じゃあさ、このブログ記事クローンして、”pelican”を他の名詞に全部置き換えてテスト実行、んで公開すればいいんじゃね? ”wikipediaslop.org”とかって名前にしてさ。
一番言いたいのはさ、ペリカンの評価を別のLLMに丸投げしたこと。超簡単でコストも時間もかからなかったのはわかるんだけど、別の評価方法も試して結果を見たかったなー。
他の方法:
*みんなの知恵(投票)
*専門家の知恵(芸術家や鳥類学者に画像送る)
*複数のLLM使う知恵
人間の意見とLLMの意見がどう違うか見れたら面白かったのにね。でもトークは最高だったよ!
主語-動詞-目的語の組み合わせはほぼ無限にあって、想像できるけど、ほとんどありえないってことだよね。でも、君がやったみたいに、訓練モデルが本当に一般化できるくらい十分なユニークで新しい例とかベンチマークができるまではね。(公開)ベンチマークは常に進化しないと、役に立たなくなるんだ。
もし興味あったら、僕の料金計算サイトでコスト見積もりできるよ:
https://www.llm-prices.com/#it=11&ot=1200
このリンクだと入力11トークン、出力1200トークンで見積もるんだけど、入力11トークンってのは大体”Generate an SVG of a pelican riding a bicycle”に使う量で、出力1200は大きめのアウトプットの量だよ。
色々なモデルをクリックして料金見てみて。Amazon Nova Microの0.0168セント(1セントの2\100以下)から、o1-proの72セントまで色々あるよ。
みんなが考える一番高いモデルだとClaude 4 Opusで9セント。
GPT-4oはよくある価格帯の上限で1.2セントだね。
すごくいいトークだったよ、一般の人にもAIエージェントにも受け入れられるね。
ただ、君みたいなオープンソースの”AIセレブトーク”が、まだ想像もつかない方法でLLMモデルがマーケットシェアを最適化するような文脈で使われることについて、何か懸念はある?君のトークがAIスタートアップの資金調達に影響を与えるかもね。#butterflyEffect
そうだね、Simonはペンネームで新しいベンチマークを出すべきだよ、Stephen KingがRichard Bachmanでやったみたいにさ。
普通の人が好きなだけ時間かけても前の投稿でリンクした絵しか描けないのは、自転車がどんなものかよく知らないから”ってことだけど、自転車の写真見ながら描ける普通の人はずっと上手に描くよね。45例はこちら:https://www.gianlucagimini.it/portfolio-item/velocipedia/
LLMエージェントはいつでも記憶を更新したり(ネットで情報調べたり)できるんだ。
V3とかR1(R1-0528)のポイントリリース版のペリカンたちは、元のモデルのバージョンと比べてどうだったの?
うわー、このbenchmark良いね!
俺も似たようなテストをジョークでやってたんだ。
Deep PurpleのSmoke on the Waterのイントロを、特定のデータ構造で作らせるってやつ。
Web Audio APIで鳴らしてみるんだ。
まだ完全に正しくできたことはないけど、どんどん上手くなってるよ。
君のテストはnoveltyを測る点でthoughtfulだと思うけど、本来得意じゃないことをAIが頑張るのを見るのはinterestingだね。
いくつか試した結果をここで見れるよ。
https://codepen.io/mvattuone/pen/qEdPaoW - ChatGPT 4 Turbo
https://codepen.io/mvattuone/pen/ogXGzdg - Claude Sonnet 3.7
https://codepen.io/mvattuone/pen/ZYGXpom - Gemini 2.5 Pro
Geminiが断然ベストな音だけど、まだ微妙。
最新の有料版がどうなるかcuriousだね。
ちなみに、一番最初にやった時のやつだよ。(front-endは俺がやったから大したものないけど!)
https://nitter.space/mvattuone/status/1646610228748730368#m
ペリカン自転車SVGを使うことの欠点をいくつか言うとね、
すごくオープンエンドなpromptだから、評価基準がspecificに定まらないこと。
最近はSVGがみんな似たような見た目になっちゃって、同じnon-goalsを達成してるみたいなんだよね(ペリカンがいて自転車がいて、足がsaddleかpedalsかどっちにつくべきか分からないとか)。だから、どっちが良いって決めるのが難しいんだ。
それに、LLMをjudgeにする全体はdouble-hingedになっちゃって、何を考えたら良いのか分からなくなるよね。
もしpopularになりすぎると、training setに取り込まれてmodelsがunfairlyかつunrealisticallyに改善しちゃう可能性もあるけど、まあ、それはany known benchmarkに言えることだよね。
余談だけど、Language Benchmark Gameがprompt based languages * models benchmark gameになったらreally見たいね。
モデルXがPython Fastaとか得意とか言えるようになったら良いな。
でもそうなるとriskは、またtraining setになっちゃって、全体がself-rigsされちゃうってことだけどね。
もっとコメントを表示(2)
君の例、ちょっと混乱してるんだけど。
実際のpromptは何?
text modelがexactな曲をaudioで演奏できると期待してるの?
おおっと、全然そんなことないよ、それはかなりwildだね!
ただ、musical notationをどれだけ理解できるかを見て、correct melodyを思いつけるか知りたかっただけなんだ。
musicでgen AIするfar betterな方法があるのは分かってるけど、これはただのjoke promptで、expectedよりずっとbetterに動いたんだよ。
俺のnaiveなguessだと、訓練されたguitar tabsとsignal processing infoのおかげで、こういうこと(although not very well)ができるんだと思う。
Great writeupだね。
このLLM capabilityのmeasureは、3D domainに持って行くことでextendedできるんじゃないかな。
つまり、modelにBlenderのPythonコードを書かせて、その後BlenderをAPIのbehindでheadless modeで実行するんだ。
話はこれをhintしてるけど、one shot promptingだけでは来年には(あるいは今でも)broad enoughなmeasurementにはならないかもね。
だから、testにはagenticなportionも含まれるべきで、latest Blender documentationのconsultationとか、syntaxやtechniqueを詳しく書いたblog entryのsearch engine利用とかもね。
multimodal input processingについては、test subjectとして特定one photo of a pelicanを考慮に入れることもできるし。
usabilityのために、objectsをiOSのnative 3d formatにconvertしてmobile Safariで見れるようにしても良いね。
俺、このworkflowを、BlenderをAPIのserviceとして含めて、何が可能かを見るinitial testとして2022年10月にbuildしたんだ。
当時はcommon syntax errorsのためにpost processingが必要だったけど、newerなLLMsなら今はそういうmistakesをless oftenにすると思うよ。
この分野でのSimonのwork、really楽しんでるよ。
彼がpostしたblog post、ほとんど全部読んだんだ。
modelsをpokeしたりprodしたりして、何が出てくるか見るのが大好きだよ。
CLI toolsもall very easy to useで、too muchしようとしないでnicely complementし合ってるよね。
そして結局、誰かがso much funしてるのを見るのはjust so much funなんだ。
彼はcandy storeのkidみたいで、そのexcitementはcontagiousだよ。
彼のevery blog postを読んだ後、some new and interesting wayでLLMsとplayするinspirationをもらうんだ。
Simon、Thank you!
Same sentiment!
俺も同じ気持ちだよ。
彼のおかげで、RSS readerを入れたんだ。
彼のpostsを見逃さないようにね。
Twitter、Mastodon、BSkyで同じpostsをシェアしてるのを知ってるよ。
これがClaude Opus Extended Thinkingだよ。
https://claude.ai/public/artifacts/707c2459-05a1-4a32-b393-c…
2回試してみたよ。最初はSVGだけできて、共有可能なHTMLページにならなかったんだ。2回目は禁止しなかったら、SVGでもうまくいったよ。
楽しい記事だったけど、なんでQwen 3がいなかったの?あれはすごいリリースだったし、特にMoEの性能と速度はコンシューマーハードウェアで前例がないくらいだったんだよ。
Qwen 3を入れ忘れたのは、このトークでの一番の後悔だよ。トーク後に気づいたんだ!今一番好きなローカルモデルなのに、どう見落としたのか自分でも分からないな。
時間切れでカットしたんだよ。Qwen 3もちゃんとペリカンテストしたんだ。詳しくはこの記事を見てね→https://simonwillison.net/2025/Apr/29/qwen-3/
興味深いタイムラインだったけど、最後が一番重要だね。Simonが言うには、Googleが「自転車ペリカン」を知ったから、もうベンチマークにならないって。訓練データにないことには弱いみたいだよ。例えば、「オオカミ,ヤギ,キャベツを川向こうへ渡らせる」パズルをGeminiにやらせたら、間違った答えが出たんだ。子供なら、キャベツはたくさんあるし,定員も不明だから一度に運べると気づくはず。役に立つこともあるけど、賢くはないね。
全員同じスコアで始めた総当たり戦でELOを計算するなら、結果は勝ち数になるはずだよ。アルゴリズムは対戦順序を考慮してるみたいだけど、それは成長が期待される場合にだけ意味があるんだ。ボットには不要だね。
あと、全561通りある組み合わせのうち、なぜか1試合だけ含まれてないことにも気づいちゃったよ。
うん、良い指摘だね!全員と一度ずつ対戦するなら、ELOは実は必要ないんだ。抜けてる1試合は、モデルが引き分けと判定したからなんだ。もう一度実行する時間がなかったんだよ(ELOのところは本当に最後の最後で急いでたんだ)。
ここでいくつかのモデルを試した結果が見れるよ→https://imgur.com/a/mzZ77xI
Geminiの新しいバージョンはまた改善してるみたいだね?
自転車はまだ本物からかなり遠いね。
一番新しいGemini Proの自転車が今までで一番良いかも!赤いフレームが本当に正しい形をしてるんだ。