Gemini 2.5 Deep Think、月250ドルで5回しか使えない!期待はずれの性能か?
引用元:https://news.ycombinator.com/item?id=44755279
新しいDeep Thinkエージェント、5回使ったらもう日次制限だって!月250ドルでこれだよ。o3-proやGrok 4 Heavyに全然太刀打ちできないし、AI Studioで無料提供してるGoogleがこんなにケチなのは引くわ。難しいビジネス課題に良い解決策は出してくれたけど、o3の方がはるかに安く同じくらい効果的だった。Deep Thinkの性能はまだ様子見だね。
Deep Thinkを使うには、君の問題が簡単すぎたのかもね。でもGoogleはそれを見越して、もっと安価な推論モードを使うべきだったよ。
何年も前、コーディングの熟練度テストはネット検索やStackOverflowなしで解決できるかだと思ってた。自分で問題解決しては回答を投稿してたけど、「3日悩んでたのが助かった」ってコメントが嬉しかったなぁ。今週ずっと難しい問題に取り組んでるけど、どのAIコパイロットも全然役に立たない。結局、誰にもAIにも頼れない時に自分で深く考えて解決するのが本当のコーディングの熟練度だね。AIに職を奪われるのはまだ先かな。
このレベルのAIを動かすのは、設備投資や電力でめちゃくちゃ金がかかるんだよね。AI自体がこの制約を乗り越えて、さらに発展するとは思えないな。
モデルルーティングって、実はすごく難しいんだよ。停止問題みたいな特性があって、タスクの難易度を正確に判断できるのは、たいてい一番賢いモデルだけなんだ。もし一番賢いモデルがプロンプトを確実に分類する必要があるなら、いっそ直接処理させた方が安い。だから、みんな嫌いなのにモデルピッカーがなくならないんだよ。
「すみませんが、今のご質問はあまり面白くありませんでした。クレジットを無駄にしないよう、より安価なモデルで無料でお答えしますね。本当に難しい問題ができたらまた来てください。」
面白いことに、Gemini CLIはすごく寛大な無料枠があるんだよね。Googleの戦略って、高価なもので収益を上げて、安価なものを補助してるだけなのかな?
RedditでもClaude Codeの月200ドルプランやCursorで同じような不満が飛び交ってるよ。VCからの資金で利用が補助されてたけど、もうそれがなくなり始めてるんだ。この業界の課題は、今のモデルと比べて、同時に知能の向上、コスト削減、有効なコンテキストウィンドウの拡大、トークン帯域幅の増加が必要なことだね。これら4つ全てが、ソフトウェアエンジニアリングで次世代のツールを生み出す上での本当のボトルネックだよ。Googleは高度な数学の試験を解くだけで何十億も稼げないだろうしね。
実際、そうすべきだよね?問題の複雑さを最初に認識するのは、そんな高価な”専門家”にとって本当に重要だよ。人間だって同じことをするしね。あと、詳しい人に質問なんだけど、単純な、あるいはバカな質問って、複雑な問題よりもリソース(電力消費とか)の面でコストがかかるのかな?
プロンプトの評価って推論よりずっと速いし、並列処理できるから、そうは思わないな。
問題はさ、ほとんどのタスクで入力トークンのコストが出力より高いことだよ。分類のために最初の出力トークンを読み始める前にもう大半のコストを払ってるんだ。短いプロンプトは例外だけど、あんまり面白いユースケースじゃないしね。
o3-proやGrok 4 Heavyと比べて全然競争力がないって?俺の経験だとGrok 4と4 Heavyは最悪だったよ。応答がダメなら、いくらリクエストできても意味ないだろ。今年使ったLLMの中で一番金をドブに捨てた気分だね。
同感。大規模なcontext windowsって、チャットボット以外の幅広いユースケースで普及の鍵だけど、月$200のサブスクじゃ無理だね。コストとcontext windowsが重要なポイント。ソフトウェアエンジニアは競争があるから、しょぼいツールは使いたくないし、今後も要求は厳しいだろうな。
君の投稿はさ、プログラミングの99%が繰り返し作業で、ほとんどの開発者はivy league卒でもコーディングや問題解決が下手って事実を見落としてるよ。AIはほとんどの問題で素晴らしい生産性ツールになるし、下手な人でも助けになるんだ。AIが”置き換える”んじゃなくて”支援する”って話は当たり前だし、時代遅れのluddismだよ。
違うよ、あれって無料で”1000 Gemini Pro”リクエストじゃないんだ。Googleはみんなを騙したんだよ。Flash込みでGeminiリクエストが1000回で、Gemini Proは5-7回で制限されるんだから。
ずっとそう思ってたんだよ。AI algoに何かbreakthroughがないと、coding(とか他のtasksも)で”creativity wall”にぶつかる気がするな。
コード以外だと、今のRAG戦略はvector searchで見つけた大量のunstructured textを突っ込むだけ。デフォルトのRAG pipelinesは正直ひどいよ。例えばrecipe chatbotなら完全なrecipeを返すRAG DBが必要で、vector DBじゃない。広いcontext windowsは、異なるrecipeが混ざったりするようなずさんなやり方を許して、かえって結果を悪くするんだ。昔のWeb serversみたいに、多すぎると逆効果ってことだね。
プログラミングの99%がrepetitive plumbingって言うけど、違うよ。もしそうだったとしても、1%でもdeep thoughtとanalysisが必要なcodeがあったら、残りの99%と同じくらい時間かかるんだ。それにさ、Ned Luddは正しかったんだよ。Weaversはpowered loomに置き換えられた。Capitalは可能なら君を置き換えることに利益があるんだ。complementするんじゃなくてね。Capitalのtoothはどんどんsharpになってるんだよ。
俺さ、billing enabledじゃないAI StudioのAPI keyで、1日100回もGemini Pro requests使えてるんだ。その後はFlashにbump downされるけど、Gemini CLIだとsurprisingly effectiveだよ。Proが必要な時は、billing enabledのアカウントのAPI keyを使うけど、usually 100 requestsはenough for a day of work。
コンテキストエンジニアリングって超おもしろいね。LLMがデジタルブレインだとして、限界はコンテキストウィンドウのせいかもって思う?
でも、LLMがもっと複雑なデジタルブレインの一部に過ぎないなら、データ入力の仕方に問題があるのかもね。コンテキストを賢く調整しなきゃ。後者の方が難しいけど、現実的っぽい。この根本的な意見の相違があるから、ASIは予想できる期間じゃ無理だよ。LLMはパズルの一部に過ぎないんだ。
生産準備ができてなくても、8月2日のEU AI Act前にリリースしたかったのかも。これで2年間の遵守猶予が得られるから。数少ないユーザーに厳しくレート制限する戦略も、これなら納得だね。
マジで一貫性がないんだよ。たまに天才的な成果出すけど、他の時はマジでゴミだね。
人間の脳って信じられないくらい省エネじゃん?だから、AIの問題も解決できるはずって思うんだけど、それはAIじゃなくて人間が生物学的な解決策を見つけるのかもね。
コンピュータを作るにはメインフレームが唯一の方法だよ。マイクロプロセッサはパーソナルコンピュータがブレイクスルーするほど小さく、速くはならないだろうね。
>それが本当だとしても(私はそうは思わないけど)、デベロッパーの1%以上が取り組んでるっていう、その“難しい問題”って具体的に何なの?教えてよ。
いや、それってユーザーへのコストの話でしょ?プロバイダーが負担するコストを単純化しすぎだよ。100万入力トークンでの出力トークンは、プロバイダーにとってはめちゃくちゃ安いんだから。
これって、俺が『マトリックス』に抱いてた不満を解消してくれるかも!“人間が電池にされてる”っていつも納得いかなかったんだけど、もし人間の脳が超省エネなパターン認識能力を持ってて、新興AI生物がそれを収穫してるなら、めっちゃ腑に落ちるじゃん!精神的なヒューマニズムのサブテキストも強まるね。
うわー、既存企業をさらに囲い込んだり、EUをスタートアップから締め出したりするのに、いい方法じゃん!
なんでその比喩が当てはまるって思うの?
現在のモデルだと、未来トークンに注意が向かないとか、実存論理だからとか、NLPであってNLUじゃないとか、色々な理由でできないと思うな。LLMは根本的に集合を破壊するし、分離した集合を作るんだ。まだ反応型システムだし、実現は難しいね。
[0] https://www.cmu.edu/dietrich/philosophy/docs/tech-reports/99…
もっとコメントを表示(1)
みんな、Gemini Deep Thinkに「自転車に乗るペリカンのSVGを作って」って頼んでみた結果がこれだよ!→https://www.svgviewer.dev/s/5R5iTexQ Simon Willisonより先にやっちゃったぜ :)
もしHNでミームになったら、きっとAIの学習データになるだろうね。どのAI企業にも、カッコいいSVGペリカン自転車を作ろうと必死になってるインターンがいるって想像すると、ちょっと楽しいな。
うん、あれはちゃんとペリカンってわかるね、かなりスゴい!
これ、今までで一番いいペリカン自転車SVGだね。シンギュラリティは思ってるより近いかも。リーダーボードとか作る時じゃない?
頼めば手に入るさ!見てみて→https://pelicans.borg.games/
チェリーピッキングなしでモデルごとに2世代生成して、Elo評価に標準偏差の推定を含められたら面白いと思うな。
いいね!リーダーボードの項目をクリックしたら、その画像が見れるようにできないかな?
追加したよ!
俺はLLMプロバイダーが手動でこういう事例をチューニングしてると思うね。
自転車に乗ったペリカンとかも、ラボの誰かが作って学習データの一部になってるんだろ。
これとかStrawberryみたいなミームベンチマークは面白いけど、簡単に不正できるし、今じゃ学習データにあふれてるだろうな。
もし世の中にある自転車に乗ったペリカンのSVGデータでモデルを学習させたら、すげー変な自転車に乗ったペリカンができあがるだろうな。詳しくはここ見てくれよな:https://simonwillison.net/tags/pelican-riding-a-bicycle/
ブログで触れてくれてサンキュー!あんたこそが元祖GPTペリカンアーティストだよな。
マジでこの値段出す価値あるよ。俺たちは未来に生きてるって感じだ。
正直、この画像だけ渡されて他に何も情報がなかったら、「これは自転車に乗ったペリカンだ」って推測できた最初の例だね。
これとボクセルタワーはかなりすごいよ。このモデルは視覚的・空間的な理解の兆候を見せてるよな。
面白いことに、自転車のシートも描いてるみたいだね(34行目あたり)。それがペリカンで隠れちゃってるけど。
ぶっちぎりでこれまでで一番いい!
人間の品質っぽい生成物、初めて見たわ。ひょっとしてAPI(人工ペリカン知能)に到達しつつあるのかもな。
今日、gpt5(誰かがAPIトリックで見つけたらしい)の方がこれより良いのを見たよ、見つけたらまた教えるわ。PelicanのURLはこちら:https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd…. gpt5に関する長いスレッドはこちら:https://old.reddit.com/r/OpenAI/comments/1mettre/gpt5_is_alr…
これ、全然良くないじゃん。バイクのシャシーもちゃんと描けてないし、Pelicanがバイクにくっついてるはずなのにそれも忘れてるし。
うーん、これ良くないな。テクスチャは多いけど、構図がダメ/未完成だね。
回路図は描けるの?AIモデルが不足してる実用的な分野だと思うんだけど。
まだだよ、スキーマはできないな。でもnetlistはできるよ!ただ、netlistからDiagram/Schemaにするのは逆よりずっと難しいんだよね。
高価なSVGだったけど、良い仕事してたよ。バイクはダイヤモンドフレームの実際のバイクだったし。
じゃあ、猫に関する関係ない事実を付け加えて、それでも描けるか試してみなよ。
定価のAPI料金だといくらになるの?
俺はアクセスできないけど、jet skiに乗った犬も同じくらい上手く描けるか気になるね。
simonwのLLM CLIとllm-consortiumプラグインを使えば、Gemini Deep Thinkみたいなのを家で再現できるぜ!ボーナス1:好きなモデルを組み合わせて、どの研究室のモデルでも混ぜられる。ボーナス2:カスタムconsortiumをllm-model-gatewayプラグインでローカルAPIとして公開し、アプリやコーディングアシスタントで使える。Karpathyのツイートで詳細が分かるよ。コマンドはこれ→ uv tool install llm
llm install llm-consortium
llm consortium save gthink-n5 -m gemini-pro -n 5 –arbiter gemini-flash –confidence-threshold 99 –max-iterations 4
llm serve –host 0.0.0.0
curl http://0.0.0.0:8000/v1/chat/completions <br>-X POST <br>-H ”Content-Type: application/json” <br>-d ’{
”model”: ”gthink-n5”,
”messages”: [{”role”: ”user”, ”content”: ”find a polynomial algorithm for graph-isomorphism”}]
}’
consortiumのconsortiumも作れるし、arbiterをconsortiumにすることもできるよ。オープンウェイトモデルだけで固めることも可能だぜ!詳細はこのGitHubを見てくれよな→ https://GitHub.com/irthomasthomas/llm-consortium
- これをGemini Deep Thinkのバージョンって言うのはなんで?多エージェントモデルの構築にはいろんなやり方があると思うんだけど。2. モデル間の共分散って、エラーの相関を生むから、個々のモデルの有効性を下げるんじゃないかな。複数の正解があるようなベンチマーク問題で、個々の精度を保ちつつ共分散を最小限に抑えるモデルアーキテクチャやプロンプト設定の組み合わせを見つけるべきじゃない?
Deep Thinkのクローンって意味じゃなくて、並列推論の一種って言いたかったんだ。Karpathyの12月のツイートからアイデアを得て作ったんだよ。そしたら1月にDeepMindが「Evolving Deeper LLM Thinking」って論文出してて、コンセプトが似てたんだ。すごい偶然だよね!2. 相関エラーは確かにそうなんだけど、それが常に問題になるわけじゃない。一貫性が欲しいときは似たモデルを使うし、多様性が必要なときは違うモデルを混ぜるんだ。このプラグインならどっちもできるよ。Claudeとkimi、Qwenを混ぜてもいいし、同じモデルを5つ実行してもいい。最適なアプローチはユースケース次第だね。
ありがとう!OpenWebUIのプラグインでこれに似たのってある?
もっとコメントを表示(2)
これ、OpenWebUIでももう使えるよ。llm install llm-model-gatewayって打つだけ。consortiumを保存したら、llm serve –host 0.0.0.0を実行すればいい。これを使えばOpenAI互換のエンドポイントができるから、チャットクライアントに追加して使えるよ。
俺、このllm serveコマンドが見つからないんだけど。
それは別のプラグインだよ。llm install llm-model-gatewayって打ってインストールしてくれ。
このアプローチはGrok 4 Heavyに似てるね。複数の「推論」エージェントを並列で使って、回答を比較してから単一の応答を出すんだ。だいたい30分かかる。結果は素晴らしいけど、ベンチマークはGrok 4じゃなくてGrok 4 Heavy(高速な単一エージェントモデル)と比べるべきだね。
うん、一般的な“発見”としては、同じ推論計算量でも、それを複数の異なるエージェントに分散させた方が、全体的により良い結果が出るってことだよね。“長く考えすぎると結果が悪くなる”って問題を、並列で複数の思考経路を試すことで解決してるってわけ。ただ、そんなに長く考えなくてもいいんだ。
複数のエージェントに同じ計算リソースを分散させると、より良い結果が出るってのが一般的な発見みたいだね。でも、それってN倍の計算コストがかかるんじゃない?Nはエージェントの数だけど。時間的な意味ならまだしも、それでも一番遅いエージェントに合わせることになると思うんだけど。
厳密にはN倍じゃないんだ。従来のTransformerアーキテクチャだと、最初のトークンは安くて、トークン数が増えるほど高くなるからね。だから、1000トークンを10回並行で実行する方が、1万トークンを1回で実行するより安上がりなんだよ。コンテキストの問題や品質劣化も、長くなるほど出てくるしね。(これはGeminiが従来のアーキテクチャを使ってる場合の話だけど)
考えとしては、1つの思考チェーンに1万トークン割り当てる代わりに、10の思考チェーンにそれぞれ1000トークン割り当てて、それらの独立した出力を1つにまとめる方が良い結果が出るってことなんだ。並列で実行できるのは、ただのボーナスだよ。
どうしてそう確信できるの?記事には”Deep Thinkは並列思考技術を使い思考能力を押し広げる。これによりGeminiは多くのアイデアを同時に生成・検討し、修正・結合して最適解を導く”ってあるよ。これは複数のエージェントを並行で使うのを否定しないけど、それが必ずしも起こってるって意味じゃないんじゃないかな。
“並列思考技術”って、“複数のエージェントを並行で使う”ことじゃなかったら、一体何を意味するの?
まさにそれが起こっているとしか考えられないんだけど、どうしてそうじゃないって言えるの?
このアプローチが使えるのは、ローカルLLM好きにはいい知らせだね。クラウドLLMだと高くなるけど、ローカルLLMならある程度タダでできるからさ。(LLMの推論って計算よりメモリ帯域幅がネックだから、グラボで複数のクエリを単一と同じ速度で並行実行できるんだよ。もちろん計算が限界になるまではだけどね。)
これは正しくないと思うよ、特にMoEを考えるとね。モデルパラメータを再利用することでメモリ帯域幅を少し節約できるけど、それだけだ。単一のクエリと同じ速度が出るわけじゃない。
その通り、MoEだとそこまでうまくいかない。でも今のローカルモデルは密なモデルが多いしね(Qwen3-30B-A3B以外)。MoEでもまだ使えるんだよ。2番目の並行エージェントはトークンレートをほぼ半分にするけど、削減は指数関数的に減るから30番目とかはほぼタダ。Qwen3-32Bを動かすVRAMがあれば、Qwen3-30B-3Aを同じ速度で何百ものインスタンス動かせるんだ。
ちょっと待って、これってどういうこと?40GBのLLMを1つロードしたら、さらに4つ40GBのLLMをロードするのに、追加で160GBもメモリが必要になるんじゃないの?
基本的には同じ40GBモデルが読み込まれるけど、同時にたくさんの異なる入力で呼び出されるんだ。
Grok-4の重いベンチマークはツールを使ったから、多くの問題が簡単になっちゃったんだよね。
バカな質問かもだけど、GoogleのアプローチってMixture of Expertsとどう違うの?
温度設定で多様性を出すのと、いろんなモデルを使うのとどっちがいいの?
計算量を固定した時に、同じモデルを複数回動かすのと違うモデルを使うのとで結果を比較した論文ってある?
MOEはモデルにパラメータや容量を効率的に増やす方法だよ。名前の「エキスパート」はちょっと誤解を招くかもね。同じモデルを何回も実行してベストな応答を選ぶのは、多様性を出すには場当たり的だ。
Tree of thoughtsとか、応答の計画と生成を分ける方法とか、いくつか別のサンプリングアプローチが考えられるよ。
Mixture of Expertsは、いろんな専門性を持つモデルを使うわけじゃなくて、パラメータ数をすごく増やして、各フォワードパスで一部の重みだけ使うスパース化技術に近いんだよ。
こんなシンプルなアプローチが今頃使われるなんて驚きだよ。僕の最初の画像説明CLIでも、複数回答を得てから要約するってことしてたもん。
LLMのマルチエージェントフレームワークは最初から試されてきたけど、強力な推論モデルが出てきて、ようやく違いが出てきたみたいだね。
すごくリソースを食うから、プロセスが効率的になるまで待ってたのかもね。もっといい方法で解決しようとしてたってのもあると思う。
僕も1年くらい前にautogenで似たようなの作ったよ。
今のモデルとの違いは、全体目標の一部にモデルをちゃんと向けられるようになったことだね。前は数学モデルとかも、探索じゃなく問題解決に特化しちゃってた。
最近やっと、たくさんの情報からベストを選んだり、長いコンテキスト長で効果的に動くようになったんだ。Gemini 2.5は、100-200kトークンで初めてちゃんと使えるモデルだと思う。
同意するけど、3〜4倍のコスト増に見合うだけの性能向上を得るのは難しいと思うよ。