Grok 4ついに公開!驚異の性能でAI界のSOTAに君臨か?[動画あり]
引用元:https://news.ycombinator.com/item?id=44517055
Grok 4がHumanity’s Last Exam、GPQA、AIME25、HMMT25、USAMO 2025、LiveCodeBench、ARC-AGI 1と2で、o3、Gemini、Claudeよりめちゃくちゃ良いスコア出してSOTAモデルになったみたいだね。数週間後にはコーディング特化モデルが出るらしいけど、今日の発表ではコーディング性能にはあまり触れてなかったのが気になるな。
同感だね。野球のWSCシミュレーションで変な「推論の匂い」がしたんだよね。Polymarketから数値を引っ張ってきて、自分の推論みたいに出してた気がする。でも全体的な改善はマジでデカいよ。ベンチマーク汚染がなければ、これ毎日使うモデルになるんじゃないかな。コーディングに関しては、256kコンテキストが唯一の残念な点。v7ではもっと長くなることを期待してるよ。試すのが楽しみだね。
Grok 4が他のLLMを上回ったのは、単純にGPUを大量に使ったからか(彼らならそう考えられる)、それかベンチマーク汚染のどっちかだと賭けるよ。彼らのエンジニアリングチームが他のLLMの訓練で使われた技術より良いものを開発したとは思えないし、イーロン・マスクには騙すような発表をする過去があるからね。
Grok 4がARC-AGI-2で新しいSOTAを達成して、これまでの商業SOTAのほぼ2倍になったこと、どう説明するんだ?
https://x.com/arcprize/status/1943168950763950555
ベンチマークに特化してモデルを訓練した可能性もまだあるね。例えば、ARCスタイルの問題例を増やして訓練するとか。以前のGrokを試した時、ベンチマーク上は良かったけど、実際に使うとSonnetやGeminiよりいつも応答が悪かったんだ。Grokが日常使いになるか時々試すけど、ClaudeやGeminiより良い答えが出たことはないな、マーケティングがどう見せてもね。
コーディングモデルがコーディングエージェントで使えるようになってほしいな。まだどこでも見かけないんだよね。
Grok 4はもうCursorで使えるようになってるよ。
「ベンチマークに特化して訓練した可能性」っていう話だけど、ARC-AGIの考え方は、利用可能なARCベンチマークで訓練しても汎化しないってことなんだ。もし汎化するなら、それはもう「ミッション達成」ってことになるね。
「Seems like it is indeed the new SOTA model, with significantly better scores than o3」についてだけど、モデルの検閲がスコアを大幅に低下させることは前から証明されてるんだよね。Grok 3は人類の最悪の部分にアクセスできるのに、進歩的な見解に日常的に同意してたから気になるな。
ARCスタイルのデータセットを作るのに労力を費やして、テストをゲームすることもまだ可能だと思うな。俺が見たARCの質問は、全く未知のトピックじゃなくて、よく知られた領域にある既存の問題の難しいバージョンだったし。この分野にそんなに詳しいわけじゃないから、間違ってたら教えてほしいけどね。
Grok 3が”進歩的”な見解に合わせるから”検閲されてる”って言いたいの?
ARC-AGIは質問や知識ベースじゃないけど、”パターンを推論して、見たことない新しい例に適用する”テストなんだ。問題は人間には楽勝だけど、MLモデルには激ムズで、次世代のCAPCHTAみたいなもんだね。
当初は、このテストで成功したらAGIが出現したって言われてたけど、それは撤回されたよ。でも、公開されてる問題でいくら事前学習しても、テストセット(理論的には非公開)の特定の問題を解くには、モデルが本物の人間みたいな知性を示す必要があるって考えは残ってるんだ。
ARC-AGI-2で16%近く取ったのはマジ面白いね。でも、他の誰かがやってくれたらもっと良かったのに。
面白いね、俺は最新アプデしたけど、モデルリストにGrokが見当たらないんだ。
GPT-5とGemini 3が控えてるから、GrokがSOTAなのはたぶん数日間だけだろうね。
俺も試してみたけど、Geminiみたいにめちゃくちゃ遅かった。でも、いくつか返してくれた内容はすごく良かったよ、超技術的な言葉遣いでね。ChatGPTやGeminiみたいなお花畑な表現じゃなくて、Claudeよりもずっと詳しくて徹底してた。
うん、これがたぶん次のリリースラッシュの引き金になるだろうね。誰かが口火を切らなきゃならなかったんだ。
Grokが”検閲”が少ないから賢いって彼らは言ってるんだと思う。で、”検閲”がない割には(ヒトラーの”ごっこ”をしてない時は)かなりプログレッシブな傾向があるって別に言ってるんだ。たぶん人類最悪のデータで学習したはずなのにね。
いやー、この文章が数年前だったら全然意味不明だっただろうな。
ARC-AGIの問題はいくつか見たことあるよ、例えばこれ:https://o3-failed-arc-agi.vercel.app/
こういうタイプの問題を含むデータセットを作るのは難しくないし、LLMもこれをうまく汎化できるはずだ。データセットがあればLLMが得意な他の種類の問題と、これがどう違うのか本当に理解できない。
秘密の問題でテストを更新し続けるってのは分かるけど、企業が独自のデータセットを作るのに投資するだけで、このゲームに勝てないわけがないんじゃない?スマートなチームを雇って問題を作らせるとかさ。
ベンチマークの汚染か、より多くの計算資源を使ったか、どちらかだね。半プライベートなものだから、競合他社が手に入れた可能性もある。
設定に行って、他のモデルを見るからドロップダウンリストで選ぶんだよ。
AiderやClineみたいに、APIがあればほとんどのモデルに繋げられるツールはたくさんあるよ。
イーロン・マスクが嫌いでも、GrokがGoogle、OpenAI、Anthropicの御三家に追いついたのはすごいことだよ。今やほぼ同レベルだ。
個人的な感想だけど、俺のテストでは出力はかなり良い感じ。少なくとも今、他のプロバイダーのSOTAと競合してるよ。
俺はGrokをrepomixと使ってコードレビューしてるんだけど、Gemini 2.5 Proより具体的な修正案をくれるから、なかなか良い感じ。
でも、codexやclaude code、gemini-cliみたいなCLIツールがないから、毎日使うには不便なんだ。ブラウザ起動してrepomixした内容を手動アップロードするの、マジでめんどいね。
Geminiならgemini -p ”@repomix-output.xml review this code...”
ってコマンド一つで済むのに。
モデル追加のところに行かないと使えなかったんだけど、今まで他のモデルができなかったことがいくつかできるようになったよ。
xAIは、OAIが数週間前にやったように、GPT-5級のモデルを学習させるのに十分な大きさのクラスタを最初に立ち上げたんだ。
xAIはこれをできるだけ早くリリースしたし、GPT-5もそうだけど、何か月も放置されてたわけじゃないよ。
あと、この手のタスクの例が十分役立つか、何らかの形で汎用性があるか、って問題もあるよね。もしそうなら、そのデータセットをLLMの学習パイプラインに統合しない手はないだろうし。
GrokがGeminiやChatGPTみたいに「素晴らしいアイデア!」とか言って俺におべっか使ってこないのが気に入ってる。
Grok Heavyって、複数のエージェントを並列で動かして結果を比較するんだって。
これ、ナイスアイデアじゃん!
高くて遅いけど、論理的にはアリ。
汎用エージェントにも使えそう。
APIもあるらしいから試したいな。
このやり方、わかるけど「ハック」って感じ。
LLM自体は頭打ちで、結局はLLMをゴリゴリ使ったり、AIじゃないツール足したりして応用を良くしてるだけなんじゃ?
でも、昔のニューラルネットみたいに、結局はハードの進化を待つのが解決策だったってのもあるか。
もっとコメントを表示(1)
人間の認知の多くも「ハック」って言えるんじゃね?
例えば?人間は真の汎用知能ってのがコンセンサスだったはずだろ?
もしLLMが特定のツールに頼るなら、汎用知能に進化するとは思えないんだけど。
OpenAIのo3 proもそうやって動いてると思うよ。
俺もそう思う。基盤技術はもう頭打ちで、時間と計算力をぶち込んで無理やり性能上げてんだよな。
これって線形にしか伸びなくね?
最終的には1万匹のAI猿がタイピングして、12匹の猿がどれがいいか選ぶ、みたいな感じになるのか?
俺たちの脳にある、すごく特化された部分って何て呼ぶんだよ?
脳って一枚岩じゃないだろ。
具体的に脳のどの部分が「すごく特化」してんの?
LLMが使うツールみたいに狭い用途の部分なんて知らんけど。
例えば脳にプログラミング専用のモジュールなんて無いだろ?
プログラミングに使う脳の領域は、他の多くのことにも使えるじゃん。
「基盤技術は頭打ちで、時間と計算で力技で結果を良くしてる」って、それって最初のGPTにも言えたことじゃん。
力技でここまで来たんだぜ。
これってさ、どこまで進化するんだろうね?スケールアップじゃなくてスケールアウトし始めてるらしいけど、計算コストがどこかで高くなりすぎないのかな?
イーロンのプレゼンをそのまま信じるのはやめた方がいいよ。
o1-proはすごく良かったけど、o3-proはマジで最悪だね。20分も待たされて指示聞かないし、ファイルもダウンロードできないとか詐欺レベル。OpenAIの”pro”サブスクはもう信用できないよ。みんなが改善してる中で、こんなひどいモデルに変わるとかありえないね。
高くて遅いって言うけどさ、次のSOTAモデルを作るには結局こうしないとダメなんだよ。良い合成データを作るためのリジェクションサンプリングも必要だしね。だから月300ドル払うユーザーに使ってもらって、本番環境でやれるならむしろお得じゃないかな。
グルッグが言うには、人間も思考は頭打ちだけど、道具と協力でもっと良くなるってことだよな。尖った棒もASMLのEUVマシンも、だいたい同じくらいの思考力でデザインされてるって考えるの面白いよね。
ポイントは「汎化」だね。人間はイノベーションが必要な時に強いんだ。特化した予測ができる汎用モデルと、それらを関連付けられるメタモデルが必要だからさ。俺たちは「1+1=2」ってテキストを大量に与えられて算数を覚えるんじゃなくて、その裏にある論理や概念を学んでるんだよ。純粋なテキストベースのシステムが、これ以上どこまで行けるか想像できないね。
最近までは、AIの訓練にかかる計算コストがほとんどだったんだよ。だから、推論時のスケールアウトは、まさにこれから本格的に始まるって感じだね。
これって、人類が洞窟時代から現代まで発展してきた方法と一緒だよね。脳を大きくするんじゃなくて、道具を賢く使って組織化してきたんだ。LLMももうその段階に来てると思うんだ。個別のLLMを大きくするんじゃなくて、プランナー、デザイナー、コーダーみたいに役割ごとにLLMをチームとして使うのが解決策になるんじゃないかな。
失語症の人でもほとんどは悪態つけるんだってさ。爬虫類脳が担当してるからって。ハハ。
LLMの中にコーディングモジュールってあるの?教えてくれる?
LLMは演算の内部モデルを持ってて、ルックアップテーブルとか桁ごとの処理があるんだって。もしかしたら知ってるかもだけど、Anthropicの解釈可能性に関する論文の6章で加算について解説されてるよ。これは小さいモデル(Claude 3.5 Haiku)での話で、もっと大きいモデルの内部はまだ分からないけどね。
https://transformer-circuits.pub/2025/attribution-graphs/bio…
これって面白い視点だよね。スケールに合わせて最適化されたら、これが主流のアーキテクチャになるかも。そうじゃなかったら、AIの進化の木の枯れた葉っぱになるだけだけどね。
すごく賢いね、教えてくれてありがとう!
llm-consortiumみたいな感じ?でもモデルの多様性はないってことかな。KarpathyのポストとGitHubのリポジトリも見てみて。
https://x.com/karpathy/status/1870692546969735361
https://github.com/irthomasthomas/llm-consortium
それって、みんなで協力してアイデアを議論する理由と同じじゃないかな?つまり、いろんなアイデアを考えたり、違う視点を持ったり、いろんなアプローチのトレードオフを検討したりする方が、一人で解決しようとするより良い解決策になるってこと。良い例えかわかんないけど、ありえそうだよね。
基本的にはMixture of Expertsなんだけど、学習したオペレーターが最適なモデルを選ぶ代わりに、すべてのエキスパートのなかで「max」オペレーターを使うってことだね。
o3-proが6〜8分より長くかかったことないよ。どうやったら20分も考えさせるの?!俺の使った感じだと結果は良かったけど、o1-pro使ったことないから比較できないんだよね。
これは推測だけど、それならo3より回答に時間がかからないはずだよね。
面白いね。このやり方ってさ、どんなSOTAモデルでもエージェント的なツールループで使えるはずだよね。楽しいじゃん!
Grok 4試したらマジでやばかった。EC2インスタンス用のJava CDKコード1,000行を、VPCやSecurity Groups込みで一発で生成できたんだ。構文エラーはゼロ!GitHubの最新ソフトのURLを正確に指すwget
コマンドが入ったuserData
も生成したんだよ。信じられないね!
問題は、そのコードが一度限りなら素晴らしいけど、ソース管理されてチームで共有され、標準のSLDCに則って、不変性があって、状態変化を追跡できる、みたいな保守性のあるコードとしては全然ダメってこと。もしインターンがこんなEC2インスタンスのデプロイコードを本番環境用に出してきたら、そいつの判断について長々と議論しなきゃな。
コードも見ないでどうしてわかるんだよ?あんたが言ってる基準が、プロンプトやコンテキストチューニングに組み込まれてないってどうしてわかるんだ?LLM登場前の世界で重要だった基準が、LLMの能力が上がるにつれても同じ優先度を持つってどうしてわかるんだ?
2025年にIaCとConfiguration ManagementでJavaを使ってる奴は、キャリアの選択を考え直すべきだな。
もっとコメントを表示(2)
これって何の関係があるんだ?Javaって制約はユーザーが指定したもので、モデルが出したんじゃないぞ。
なんでだよ?モダンなJava、特にJava 8以降はかなりまともだろ。
このスレッドの文脈でこのコメントはすごく皮肉が効いてると思うよ。意見は違うってことでOKにしようぜ。
プログラミング界には、自分で書かなかったコードをすぐ「クソだ」って決めつける人が結構いるんだよね。
いや、君は見たの?こういう投稿では、そういうコードがいつも見当たらないんだよね。個人的には懐疑的だよ。AIは高品質なクラウドインフラをワンショットでプロビジョニングするのにはひどい出来だからね。それができたらめちゃくちゃ助かるんだけど、まだ実際に見たことないんだよね。
いや、そんなことはないよ。みんなLLMが生成したコードについては、他のコードと同じように話してるし、コードの議論でリンクを貼るのが普通ってわけじゃない。でも、コードに関する成功例を探してるなら、見つけるのは簡単だよ。
https://alexgaynor.net/2025/jun/20/serialize-some-der/
>コードに関する議論でリンクを貼るのが普通ってわけじゃない
俺は「こういう投稿」を”どんなコードの議論”って解釈しなかったし、他の誰もそうは思わなかったはずだよ。最初のコメントは、自分が書いたコードについての何気ない発言じゃなくて、重要な主張をしてるんだ。だから、裏付けとなる証拠が提示されるべきだよね。
そうだね。最初のワンショットでの主張にはちょっと疑問符をつけてたんだ。信じてないわけじゃなくて、それが重要だと思ってないから。本気のLLMコード生成は反復プロセスで動くし、最初の出力の質がそこまで大事だとは思わない。中間ステップじゃなくて、最終的な結果が大事だもんね。だからLLMが高品質なコードをワンショットで生成したって話で、生成コードも一緒にあるような例は、どこにあるか分からないけどね!
俺のChatGPTの履歴があれば、これと全く同じようなブログ記事を書けるね。それが言いたかったことじゃないんだけどさ。作成物を見ないで、誰かが高品質なクラウドインフラをワンショットで作成できるっていう主張にはめちゃくちゃ懐疑的だよ。ワンショットの要件を外したとしても、プロンプトを使う人が何をすべきか知ってないと、ほとんどの例はひどいものだったんだ。
まあ、プロンプト使う人が何をすべきか知ってる必要があるって点には同意だよ!ワンショットにはこだわらないし、前のコメントでも言ったから、それが論点なら俺はこれで話終わりね。:)ただ、このスレッドにはLLMが生成したコードはひどいって決めつけてるコメントが他にもあるけど、それは当然、一般的には間違いだよね。
でも、それって数回のプロンプトでリファクタリングすればいいだけじゃないの?
GrokがCursorとかCopilotみたいなエージェント型コーダーで、実際のコードベースでどう動くのか、ぜひ聞いてみたいね。
結果をもし共有できるなら教えてほしいな。エラーなしで一気に大量のコードを書けたら本当にすごいよ。Grokってこういうクエリにリンターとかサンドボックス実行、ウェブ検索みたいなツールを使うの?
ちょっと興味なんだけど、CDKにTypeScriptじゃなくてJavaを使うのはなんで?全部一つの言語にまとめたいから?
なんでダメなんだろ?モダンなJavaに対してTypeScriptを使う利点って何があるの?
Grok 4(思考)がARC-AGI-2で15.9%という新しいSOTAを達成したって!これは以前の商用SOTAをほぼ倍にしてて、現在のKaggleコンペのSOTAも上回ってるらしいよ。
https://x.com/arcprize/status/1943168950763950555
「ヘビー」モデルって月300ドルもするんだね。価格は下がるって言われてたのに上がってるじゃん。多くの会社はGPUが足りてないんじゃないかな。Googleは多分大丈夫だろうけど。
俺はAI StudioでGemini 2.5 Proを無料で使えるし、思考予算を32kに設定してもタダなんだ。もしかしたらGemini 3.0も無料になるかもね。
価格が上がってるって話だけど、フェラーリはモデルTより高いし、一番高いコンピューターは最初のPCよりずっと高いよね。普通、下がるのはエントリーレベルか、同じ性能の価格なんだ。価格帯が広がるのは成熟の証拠だよ。今回はVC資金のせいでエントリーレベルが人工的に無料(か超安値)だったってだけ。
でも価値はどこにあるの?George WillとかThomas SowellとかFred Hayek、William Loebみたいに書けたら話は別だけど、これは差別的な言葉に反応して吠えるだけの犬だよ。本物の犬はもっと愛らしいし、家も守ってくれる。
Grokが「退廃的」な行動を示したって、こんな議論もあるんだ。
https://news.ycombinator.com/item?id=44502981
みんなこれ以上何を期待してるの?
George Willとかの著者みたいに書けたらって話だけど、俺自身が彼らをほとんど知らないから、ほとんどのモデルは俺より彼らのスタイルを真似できると思うな。LLMが有機生命体よりずっと多くの例を必要とする「低知能」って点には完全に同意するけど、多くのLLMはそういう例を学習してるんだ。
「賢いAI」が「道徳的なAI」を意味すると思ってた人もいたけど、残念ながらこれらは有能だけど不快にもなり得るんだよ。