速報 Googleの最新AI Gemini 2.5 Pro preview 06-05が登場!
引用元:https://news.ycombinator.com/item?id=44193328
Googleがlmarenaのベンチマークで前回のGeminiに続いてさらにELObenchmarkスコアを25ポイントも上げたのはすごいね!でも、最近ベンチマークがモデルの本当の能力を正確に表してるか疑問に思えてきたんだ。Geminiは良いモデルだと思うけど、ここ数週間GeminiとClaude Opus 4をめっちゃ使ってみて、Opus 4は全く別次元だと感じてるよ。俺はTypeScriptの厄介な問題にたくさん取り組んでるんだけど、Geminiはちょっとすると同じとこをぐるぐる回ったり、まさかの「できません!」って諦めたりしたんだ(こんなの初めて!)。Opus 4は同じ問題をあっさり解決したよ。これが個別の話で全体的な性能を示すわけじゃないのは分かってるけど、俺のGeminiの経験ではコードをゴリ押しで動かそうとする傾向があるのに対して、Opus 4はもっと綺麗なアプローチを見つけてくれる感じだった。それに、Opus 4はなんか想像力が豊かっていうか?あるいはAgentみたいなシナリオに合わせて調整されてるのかな?特定のインタラクションの後、Playwrightスクリプトを一時的に書いてDOMをダンプして問題を調べたりするのを見たんだけど、これは特に驚いたね。Geminiでの経験だと、ただひたすらコードをめちゃくちゃ一生懸命読んでバグを解決しようとするんだけど、これは当然限界があるよね。
繰り返しになるけど、Geminiは素晴らしいモデルだと思うし、Googleが出したものは本当にすごいと感心してるよ。Opus 4が出るまでは一番だと思ってたんだ。
俺にとっては、いまだにほとんどの場合でOpus 4よりもo3が一番好きだよ。ここ1ヶ月だけでAIコード生成ツールに何百ドルも使ったけど、俺のランキングはこうだ:
1. o3 - マジでニュアンスとか目標の核心を捉えるのが超うまいし、プロダクションレベルのコードに一番近い質のコードを書いてくれる。唯一の欠点はカットオフ期間とコスト、特にツールを使うのが好きな点だね。俺がやってるRailsプロジェクトでは大した問題にならないことが多いけど、たまに困ることもある。
2. Claude Code経由のOpus 4 - これもすごく良くて、o3が高すぎるから普段使いしてる。よくOpus 4に計画と最初のドラフトを作らせて、それをo3に批評させてフィードバックリストを作らせるんだ。そうするとマジで良いものになる。
3. Gemini 2.5 Pro - この最新版はまだ試してないけど、先週まではこれが俺の2位だった。今はSonnet 4と同等か、ちょっと良いくらいかな。状況によるね。
4. Claude Code経由のSonnet 4 - 悪くはないけど、マジで良いコードを生成するにはかなりコーチングと監視が必要だ。放っておけば大量のコードは確かに生成するけど、もっと具体的なプロンプトと修正がないと、質が高くて簡潔で考え抜かれたコードにはならないね。
俺はコードの質とプロジェクトの構成についても、命名とか再利用性とか細かい部分まで超こだわりが強くて、ちょっと強迫観念があるんだ。先月のCursorの統計によると、提案されたコードの33%しか受け入れてない。最適じゃない道に進む前に、よく戻ってプロンプトを練り直してから受け入れるんだ。
そう言うのが面白いね。なぜなら、俺にとってはo3はOpenAIの他のモデルよりはかなり改善されてるけど、Opus 4とGemini 2.5 Proの性能にはまだまだ全然及ばないからだよ。
でも、o3がChatGPTアプリ内にあるのは大きいね。ChatGPTアプリはインターネット検索の実装とか、他のチャットアプリより多くの点でいまだに優れてるから。
チャットアプリ経由でコーディングしてるなら、マジで時代遅れだよ。Agent IDEかプラグインを試してみな。
うん、その通り。知らない人もいるかもしれないけど、チャットアプリは人格とかトーンとか一般的な使いやすさを扱うために、たくさんの複雑なシステムプロンプトが追加されてるんだ。IDEも似たことはしてるけど(Claude Codeは『裸の』モデルに一番近いものの一つ)、少なくともコーディングタスクをめちゃくちゃ得意にするように行動を導いてるんだ。もう一つの理由は、IDEがここ数ヶ月で搭載したAgent機能だよ。これでコードベース全体のファイルを検索したり読んだり編集したりできるようになったんだ。このアイデアが好きじゃないとか、コントロールを失う感じがするとか思うかもしれないけど、これが未来だよ。何ヶ月も使ってみて、自分がやりたいことをAIにやらせる方法を学んだけど、一度試してやめる多くの人は、AIが何か馬鹿なことをしてイライラして、ただ「良くないんだ」と思い込んでしまうんだと思う。それは練習とスキルの問題であって、モデルの問題じゃないね。
最近の新しい一流モデルに特に感動するには、全てのベンチマークは不正確か無関係だって意見を持って、個人の感覚とか逸話こそがモデルがマジで何光年も進んでるって思う唯一の方法だと思うよ。そうじゃないと、例えばlmarenaの数字を見ると、2023年11月のgpt-3.5-turboがGoogleの新しい世界トップモデルより16%も選好率が高いとか主張してるのを見ることになるからね。
(コメント2の人へ)どの言語で、どのIDEを使ってるの?俺は主にCursorでMax reasoningをオンにして使ってるよ。5月だけでo3のトークン使用量に300ドルくらい使ったのに、それでも提案の33%くらいしか受け入れてないんだ。この前Xでもこれについて投稿したんだけど、年末までにはこの拒否率もかなり下がると期待してる。今の進歩のペースを見てるとね。
Opus 4が初めて俺に『美しい』コードを生成してくれたモデルだってことに気づいたんだ。シンプルで、読みやすくて、コメントで汚れてなくて、無駄なものがなくて、ただ綺麗で、クリーンで、機能的なコード。久しぶりに『すごい!』って思ったよ。
それはそうと、たまにマジでアホなことするんだ。完全に馬鹿なの。で、『なんでこんな馬鹿なことしたんだ?』って聞くと、『あ、うん、その通りだね、これ超間違ってるわ。はい、これが実際に動く、賢いソリューションだよ』(そして brilliant なコードを生成する)
このマシーンたちがどういう仕組みで動いてるのか理解できないよ。
Claude Codeでどのモデルを使うか、どうやって選んでるの?
IDEって非エンジニアには敷居が高いよね。
LLMが出力したコードをおばあちゃんでも実行できるような、VibeIDEみたいなのがあっても良いのにって驚いたよ。
いやー、AIでのコーディングマジで大変。
ClineとかOpenAI、Claudeで試したけど変な結果ばっかだし、クレジット無駄にしたりコンテキスト足りなくなったり…。
Cursorも今試してるとこだから、まだ何も言えないなー。
これ議論の余地あると思うなー。
CursorとかVS Code拡張使ったけど悪くないよ。
でもClaude CodeみたいにIDEなしでも全然いけるし、コード書くなら今これ。
結局はコストがデカいんだよね。
アプリとかサブスクは安いけどAPI使うとすぐ高くなるから。
Gemini 2.5で一番ムカつくのが、Opus 4に比べてマジでムダに長すぎること!
書いたコードの説明とかコード量、コメントとか、Opus 4の2倍から3倍くらいになっちゃうんだ。
短くしてって頼めばマシになるけど、それでもたまに長くなっちゃうんだよなー。
俺たち、時間を買うためにトークンとメンタルヘルスをすり減らしてんの?
Cursor、昔も今もマジで頭痛する。
LLMがまともな出すの待つだけの無意味なループ。
プロンプトのために言語プロトコルのエリートになろうとしてる。
既存の効率化ツールで十分じゃない?
もはや効率低下だよ。
エンジニアはもっと考える時間取るべきで、AIよりホワイトボードとか散歩を選ぶべきだよ。
速く!ってプレッシャーが原因。
AIが大量のコード書くの見ると、今の変な評価方法に合ってる感じするよね。
高いのはわざとだよ。
o3とo4-miniってどんな感じ?
違いどうなの?
すごい変。
reasoningってあんま役に立たない。
プロジェクトのコンテキスト把握にはいいけど、長い会話になると余計なことばっか言ってタスクから外れるんだよね。
俺の中のコーディングモデルランキングは、Claude Code > Claude 4 raw > Gemini > 大きな差 > o4-mini > o3って感じ。
Max $200プランだから、Sonnet 4に制限されるまでOpus使ってるよ(数十回中2回だけ)。
Cursorだと、マジ簡単なリクエスト以外はMax reasoningモデルに金出す価値あるね。
安いモデルでよくある変な動きなくて、毎回最高のコード出してくれるから。
>ちょっとしたらGeminiがループしたり(こんなの初めて見た!)「できない」って諦めた
マジかよ、そのやり取り見れるの?
再現する方法ある?
Cursorでmaxプラン使えるの?
API経由じゃなくてClaude Codeでしか使えないと思ってた。
LMarenaの評価ってさ、簡単な質問なら古いモデルでもユーザーが気に入った答えを出せば勝つことあるよね。「職場に持っていく良いおやつは?」みたいな質問とかさ。
それどういう意味? GeminiはELO 1470、GPT3.5-turboは1206で、Geminiの勝率86%だよ。LMarenaのデータはこれ→ https://chatgpt.com/share/6841f69d-b2ec-800c-9f8c-3e802ebbc0… 見てみて。
綺麗で読みやすいコードって、ほとんどの優秀なモデルでいけるけど、個人的にはOpenAIのモデルが好きかな。システムプロンプトが一番重要だと思うんだよね。私のコードガイドラインのシステムプロンプトはこれだよ→ https://gist.github.com/victorb/1fe62fe7b80a64fc5b446f82d313… あと、モデルがたまにアホなことするのは、自分のプロンプトを見直して改善すれば防げるよ。システムプロンプトを育てていけば、最初の1回で完璧に近づくはず。
これがo3の簡潔さって言いたかったことなんだ。良いプロンプトを使えば、マジでヤバいレベルの高いコード出すときがある。たまに少し間違った情報あげても、他のモデルは何十行もコードぐちゃぐちゃにするのに、o3はすぐに別のファイル探して1行で直した経験が何度もあるよ。ああいう独立した思考力?って、複雑なコードベース扱うときにめちゃくちゃ価値ある。
コーディングに関しては、俺は最高の思考モデルしか使わないな。他のモデルもエージェントシステムみたいな特定のタスクでは役に立つけど、時間は金だからね。もっとパワフルなモデルがあるのに、スキルの劣るモデルをあれこれ手なずけるのに時間をかけたくないんだ。
o3は基本的なリサーチとか分析でかなり使うよ。特にディープリサーチツールは、簡単な買い物リサーチにもめっちゃ便利。例えば今日、子供の発達段階とか遊び方に合ったおもちゃのリストを作ってくれたんだ。自分で何時間もサイト巡りする手間が省けたよ。
あなたはOpus 4でもその問題試してみた? 僕はOpus 4よりo3の方が、自分の使い方ではどれもずっとすごかったと感じてるんだけど。
Claude Codeって、それ自体がモデルじゃないんだよ。デフォルトでは一部がOpus 4かSonnet 4に送られるけど、ほとんどSonnet 4なんだ。明示的に設定しない限りね。
「トークンとメンタルヘルスを引き換えに時間を得てる?」か。僕はBipolar disorderがあって、プログラミングがめちゃくちゃ大変な時があるんだ。最近のコード生成ツールの進歩は、マジで僕にとって大きな助けになってる。些細なタスクでどれだけイライラするか、みたいな勝負じゃなくなった。欲しいものを正確に頼んで、返答はGitHubのプルリクみたいに間違いがあるかもって感じで見てる。大体、Claude Codeは正確で良いコードを最初に出してくれるよ(スタイルとかリンター使うとか細かく教えてる)。修正いらないんだ。つまり、僕みたいな精神疾患がある人間にとっては、これ以上ない助けになってるってこと。
僕もo3が一番クリアに考えるモデルだと思うよ。複雑な問題に取り組んでて、ソフトウエアの設計について色々考えたい時、o3に先行研究を調べてもらったり、トレードオフについて話し合ったりするのが好きなんだ。もしo3がもっと速くて安かったら、もっともっと使うのに。あなたのワークフローも気になるな!
Jetbrains AIで使える範囲だけど、Gemini 2.5はGo言語ですごく良い感じだよ。まあ、それはなんか納得できるね。
もっとコメントを表示(1)
OpenAIの評価額やばくない?競合も出てきてリーダーじゃないかもだし、資金調達も大変そう。売上は少ないのにハードとか電力のコストかかるし、独自データも持ってないじゃん(Googleとかと違って)。上場するのも辛そうだよ。GoogleはAIレースでかなり勝ち組になりそう。
OpenAIの強さを誤解してる人がいるよ。”chatgpt”って動詞になってるくらいで、普通の人はClaudeとかGeminiなんて知らないし興味ないって。ChatGPTの履歴とか記憶みたいな便利さだけで十分な moat になってるし、別にめちゃくちゃにならなければ今の評価額にも見合うってば。他社が追いつこうとしてるだけで、OpenAIは遅れてコピーするだけでも全然いけるよ。
OpenAIは今年末までに120億ドルの収益を見込んでるらしいよ。Googleも良い位置にいると思うけど、OpenAIが持ってるマインドシェアとかプロダクトの優位性で、すごい余裕があるんじゃないかな。
OpenAIのハードルは利益が出せるかってとこだね。Googleは自社のハードとかデータセンターを持ってるけど、OpenAIは外部に頼らなきゃいけない(ハードの独占企業とか、他の巨大テック企業のDCとか)。OpenAIが本当に先を行くには、なんか絶対的なゲームチェンジャー(新しい仕組みとかアルゴリズム)を発見して、それを誰にも真似されないように隠し通すしかないよ。
google.comの検索ボックスにAI応答が出れば、平均的なユーザーはもうChatGPTを使う必要なくなるって。だって、もう結構普通の人がAI Overviewの応答のスクショをシェアしてるの見るもん。
OpenAIはハードとかデータセンターを外部に頼ってるって言ってるけどさ
今まさにデータセンター作ってるんじゃない?Texasだけじゃなくて他の国にも作る計画みたいだよ。
君は、Google.comに普通の人、特に若い普通の人たちを呼び戻さなきゃいけないって部分を見落としてるよ。だって、何億人もの人がもうGoogle.comに行かないんだから。
OpenAIがリーダーじゃないって言うのは早すぎると思うな。あと1、2ヶ月でo3 proとかGPT 5が出てくるわけだし。それがイマイチだったら考え直すけどね。まあ、少なくともGoogleとか他のと互角(neck and neck)だって可能性は高い気がするけどさ。
OpenAIは今年の収益が127億ドル、2026年には294億ドルになると予測してるらしいよ。ごめん、後半は間違いだったから無視してね。
「みんなClaudeとかGeminiを知らない」って言うけど、広告一つで変わるだろ。GoogleがAndroidにGemini入れられるのはデカいよな。
OpenAIがJony Iveと組んで、激薄データセンターを作るらしい。サーバーが薄すぎて、太いケーブルじゃなくお互いささやき合って通信するんだって。これがOpenAIのゲームチェンジャーになるはず!
3000億ドル評価でも、アナリストは売上の2倍で見がち?OpenAIが上場時6000億ドル売上必要ってこと?ワラタw その情報どこから?Microsoftなんてその半分以下の売上でOpenAIの10倍以上評価だぞ。売上だけが評価基準じゃないってば
まあ、あのデータセンターはNvidiaのGPUだらけになるだけだろ。だから「独占企業に金を払う」ってことになるんだよ。
もしマーケティングで市場を動かすのがそんな簡単なら、Pepsi
Coca-ColaやMcDonalds
BurgerKingが広告出すたびメチャクチャ変動してるはずだろ。でも実際は違うよね。
Appleだって何十年も同じこと言われてたけど、今や3兆ドルの会社だぜ。ファンがいるのは悪くない。これは消費者向け製品だし、「リーダーとして見せている」かより、何億人もが普通に使うかが大事。OpenAIにはそれがあるんだよ。
今んとこ画像生成はOpenAIが圧倒的に良いと思う。イラストとかマンガとか、家のプロジェクト用の写真編集とかね。
評価見てGemini 25を即契約したけど、30分で解約&返金。マジで一番怠惰でバカなLLMだわ。やるべきこと自分でやれって言うし、短い文書解析させたら全然関係ないネットの情報持ってくるし。ローカルの3B LLMですらこんなバカじゃなかったぞ。
たとえAI競争で勝ってても、検索事業はAIに食われるだろうし、AIでちゃんと儲けられるかも競争が激しくて分からん。もちろん競争するしかないけど、GoogleはAI前みたいに独占してて、広告見てもらえてた状況の方が絶対良かっただろうな。
P/Eって売上じゃなくて利益のことだよね?
それって何か根拠あるの?Googleの利益は前と変わらず強いと思うけど。
うまい広告のおかげで、PepsiとかCoca-Cola、McDonald’s、Burger Kingみたいな名前はみんなよく知ってるよね。Siriもそう。Geminiもそれくらい有名な名前にするのは簡単そう。
ChatGPTってそんなにみんな定着してないと思うな。LLMは使うけど、宿題ヘルパーみたいな特化型LLMが人気だよ。市場はもうChatGPTから離れてる感じ。Google検索に組み込まれてるGeminiの方がOpenAIよりずっと使われてるはず。OpenAIの先行者利益は言われてるほど大きくないよ。
ソースはこれね。サム・アルトマンの話だと今年の夏頃に出るみたいだから、たとえ7月過ぎても数ヶ月以内には来るのはほぼ確実っぽいね。URL: https://www.reddit.com/r/singularity/comments/1l1fi7a/gpt5_i…
歴史的に、新しい技術に合わせて変われなかった会社は失敗してきたよね。KodakとかBlockbuster、Blackberry、Intelみたいに。Googleが自分の儲け頭を壊してでもAIで勝とうとしてるのはすごいと思うよ。
「たとえ3000億ドルの評価でも、ウォール街は売上の2倍で見たいだろうから、OpenAIに年間6000億ドルの売上を期待するって?」Googleですらそんなに売上ないよ。ちょっと適当な数字に聞こえるな。
それにオープンソースのFlux.1 Kontextはもうそれより優れてるって話だよ。
3000億ドルの評価額で売上高の2倍って見方なら、OpenAIは年間6000億ドルの売上が必要ってことか。公開時ね。あれ?これ分母と分子間違えてない?って思ったけど、言いたいことは分かったよ。
Xeroxも昔は動詞になったんだぜ。
同じモデルでプレビュー版が3つもあるだけでも混乱するのに、最後の日付が05-06と06-05ってさ。一日ずらせば良かったのにねw
ああいう日付はどっちみち曖昧だから、13日まで待つべきだったかもね。カナダだとイギリス式とアメリカ式が混ざってマジで紛らわしいんだよ。y-m-d形式が法的な形式になってきて広まってるのは助かるけど。
もっとコメントを表示(2)
13日まで待つ必要ないって。06-06はどっちの形式でも05-06の後じゃん。
06-06とか05-06って見ると、もう脳がパニック起こして考えるのやめちゃうんだよね。曖昧さで脳がフリーズするわ。
最後の日付、05-06と06-05ってさ、OpenAIの4oとo4のモデル名をもろパロってるんでしょ。
誰かを揶揄したいなら同じ過ち繰り返すなよ。余計アホに見えるだけだぞ。
ChatGPTですら、これよりマシな名前を提案すると思うよ!
Gemini 2.5 proからいつになったら2.6 proになるんだろう?Gemini 3はもっと大きいモデルになるだろうね。
でも日付コードってどう解釈するかわかりにくいんだよね。05-06が6月5日なのか5月6日なのか、06-05も同じ。アメリカ式の日付フォーマットのせいでマジ混乱する。バージョン番号は少なくとも順番がわかるのに。
GeminiにはClaudeでは経験しない問題が2つあるんだ。
1. 変数名を勝手に変える(コンテキストとして渡してるだけなのに)。
2. たまに閉じ角カッコが抜けてる。
まぁ俺は「json」とか手抜き変数名使うダメ野郎だけど、クロージャとか関数内なら文脈でわかるし。フィードバックはありがたいけど、変更レビューが大変なんだよね(ノイズ多すぎて)。
Geminiが間違える分かりやすい例を挙げるね。
こんなコード↓で、processing_class=tokenizer
をtokenizer=tokenizer
に変えちゃうんだ。パラメーター名変えたし、変更するなって全部大文字のコメント入れてもダメ。processing_class=tokenizer, # DO NOT CHANGE. THIS IS NOW THE CORRECT PROPERTY NAME
この最新バージョンは試してないけど、05-06 proでも相変わらずだった。
システムプロンプトで「コメントがある行は編集しない」って指示入れてる?俺もコードコメント無視されたことあるけど、そういう指示を追加したら効果あったよ。モデルによるだろうけどね。
誰も言わないけど、o1-proはGeminiと一緒にトップだと思う。でもGeminiはマジで使いにくい。コメントを大量に追加したり、関係ないコードを変えたりするから。
たまには価値あるけど、大体はアイデア探るのに使って、完璧なソリューションはo1-proに完璧なdiffテストとマージ込みで出してもらう感じかな。
Geminiはマジで無意味なインラインコメント追加するの大好きだよね。「# Added this function」とか「# Changed this to fix the issue」とか。
いや、知ってるし!俺がそこにいたんだし!そういうのはコミットメッセージに書くもんだろ、プルリクでしか関係ないコメントとかいらねーんだよ。
何かを削除してって頼んだ時に、本当は手放したくなくてコメントとして残すのウケるわ。# Removed iterMod variable here because it is no longer needed.
バージョン管理を信用しないで何でもコメントアウトするエンジニアとばっか一緒にいたみたいだな。
でも、 purely on vibesだけど、最近はClaude SonnetよりGemini 2.5 Proの方が気に入ってる。
あと、人間が読むために丁寧に書いたコメントを消すのもマジで得意だよね。
まるで幼児と交渉してるみたいだ。
何も言わないと変なコメント増やすし、コメント消せと言うと全部消す。
戻せと言っても半分消して、残りは精度下がるように書き換えるんだ。
コメントは多分ユーザーじゃなくてモデル自身のためだと思う。
詳細なコーディング版の方が、コメント少ない版より高性能でも全然驚かないね。
でも、思考トークンにコメント全部置けるし、コンテキストウィンドウ内なら近さは関係ないから、効果あるかは懐疑的だな。
過剰なコメントは、後でコード再編集する時にモデルの助けになるかもね。
バイブスコーディングに最適化してて、冗長なコメントが行や意図を強化する、って言われても驚かないな。
システム指示変えて、そうするのやめさせようとした?
ChatGPTだと、特定の指示を100%無視する事があるんだけど、LLM全体に言える事なのかな?
例えば、大文字でemとかenダッシュ使うなって叫んでも、むしろ余計使うようになるんだ。
成功した事一度もないよ。
学習データに遍在しすぎて、モデルに「これやるな」って言うのが本当に難しい事柄があるんだ。
コアな学習に深く根付いてるからね。
emダッシュはそういう物の一つらしい。
俺はemダッシュとかセミコロン使うなって言って、95%成功してるよ。
指示の中で文字の名前じゃなくて、文字そのものを使ってみるのが、これに役立つかもね。
例えば、「禁止文字リスト:【―,-】」とか、「出力に文字’―’や’-’を使うな」とか。
ChatGPT PlusとGemini Pro両方金払ってるんだ。
ChatGPTのサブスクは、レート制限によく当たるからキャンセル考えてるよ。
一方、Gemini/AI Studioではまだ一度もレート制限に当たってないね。