Claude Opus 4.1爆誕!AI最前線、他社モデルを凌駕するのか?
引用元:https://news.ycombinator.com/item?id=44800185
大手3社が数時間内に立て続けに何かを発表したんだって。この展開、アニメみたいでヤバい!
GPT5の噂もあるし、8月はまだ始まったばかりって感じだな。
グレゴリオ暦と惑星の公転を考えると、8月はまだ始まったばかりだね。
まるで、他社の発表を待ってから同時に出して、どれが一番か市場に決めさせてるみたいだな。
これって絶対偶然だろ。
どの研究所にもリーカーがいっぱいいるってことだな。
これってGPT5がもっと良いってことじゃないかな?だって、競合が超えてきた後で劣るモデルなんか出せないでしょ。たとえ一日だけでもリードしてるって見せなきゃいけないんだからさ。
FBIとかDOJにももっとリーカーがいたらいいのにね。
これって本当かな?多くの人が次のモデルのリリース日に必死で採用しようとして、すごい仕事のメリットを期待してるってこと?
いや、そうしたのは地球の自転だよ。
これがPR部門の存在理由だよ。Hacker Newsのトップページやニュースサイトで注目されるのは超重要。たとえ一番じゃなくても、競合の注目を薄めるためにできるだけ多くの関心を分散させるのが大事なんだ。
偶然でもカルテルでもないよ、これはPRのカウンタープログラミングだね。
これらの新しいモデルが最先端技術をどう進歩させたかについて、関連する論文をどれも発表してないみたいだね。残念。
厳密に言うと、地球の自転が昼と夜をもたらすんだ。カレンダーを動かすのは、地球の公転だよ。
GPT 4.6みたいなものが来ると思って、身構えてるよ。
LLMを限界ギリギリで使ってるなら、ちょっとした性能改善でもすごくわかるんだよね。
同僚やパートナーと俺は、もう何週間もずっとこの話をしてるんだ。俺もその一人だと思うけど、どうなるか見ものだね。見たARCのグラフがもし正確なら、本当に信じられないくらいすごいよ。
なんて時代に生きてるんだ!
いつが発売のタイミングかってどうやって分かるんだろうね?企業スパイなのかな?それとも数ヶ月前から次の製品を用意して、すぐにでも出せるようにしてるだけなのかな。
彼らはきっと、すぐにでもリリースできるように準備して待機してるんだろうね。
AI企業のCEOが部下に「次の3つのリリースは準備しろ、でも俺が言うまで発表するな。特に改善とかは要らない、数字だけ上げとけ」って言ってるみたいだね。
HNのコメントはすごいから、まだ始まったばかりって感じだね。
Claude Opus 4.1は高すぎるし、Sonnetも高いね。Gemini Flashは安いけど判断ミスが多い。OpenAIはClaudeには劣るけど、コスパはChatGPT 4.1 miniが最強だよ。無駄なトークン出さないしAPIも安定してて助かるんだ。
1: https://openrouter.ai/anthropic/claude-opus-4.1
2: https://openrouter.ai/anthropic/claude-sonnet-4
3: https://block.github.io/goose/
4: https://openrouter.ai/anthropic/claude-3.5-sonnet
5: https://openrouter.ai/google/gemini-2.5-flash
6: https://openrouter.ai/openai/gpt-4.1-mini
Claude Codeをサブスクで使うのが経済的だよ。俺はマックスプランで毎日使ってるけど、過去2週間で制限に引っかかったのは2回だけだね。
Claude CodeはSonnet APIよりコスパいい?同じコンテキスト長とスループット?GPT-4.1(miniも)はエージェントタスクは得意だけど、トークンキャッシュがないと長いコンテキストでコストがやばくなるんだよね。
月20ドルのプランだけど、Claude Codeを使い始めた頃はトークン上限に引っかかったよ。でも、コンテキストをこまめにクリアするようになってからは、ほぼ「無制限」で使えてる。長い会話だとすぐトークン食っちゃうけどね。
Anthropicに電話番号を教えずにClaude Codeに登録する方法ない?Google Voiceも使えないし。変なSaaSに電話番号渡したくないんだよね。
俺は月100ドルのマックスプランだけど、集中してコーディングしてると制限にすぐ引っかかるよ。利用状況を簡単に確認できるツールがないのが困るね。Claudeでログ解析ツールを作ってるけど、それ自体がトークン食うんだ。
Claude Codeを使っても、Opusのトークン制限は厳しすぎてほぼ使えないよ。他のモデルの意見が欲しい時だけ切り替える感じ。5分使うともう上限だね。
それってうちの分野では主要なサブスクツールだろ?適当なSaaSツールとは違うよ。
もっとコメントを表示(1)
ccusageってツールをチェックしてみてよ。まさに君が言ってるツールみたいだよ。https://github.com/ryoppippi/ccusage
いいね!ツールで確認したら、俺は毎日約3億トークン消費してコード書いてて、費用は約125ドル/日らしい。でも、モデルの出力は月100ドルの価値は余裕であるね。
これは知っとくべき基準だね。警告は出るけど、あとどれくらい残ってるのかよく分かんないんだ。君はほとんどOpusを使ってる?
それって一番高いサブスク?うちは仕事で200ドルのプランだけど、Opusしか使ってないのにほとんど制限に引っかからないんだ。CCUsageだと同じ使用量でもAPI経由だと先月は2000ドルくらいだったって(俺たち週4日、1日5時間ほぼずっとClaude使ってるのに)。
世の中には、初回課金で失敗する有効なクレカで何千ものアカウントを喜んで作る詐欺師がいっぱいいるんだ。電話番号を求めるのは、その摩擦を補うのに十分なほど詐欺率を下げるんじゃないかな。ちなみに、多くのAIのAPIプロバイダーが、十分な規模や既存関係がない限り前払い(クレジット購入)を求めるのも、このためだよ。
いろんな料金比較をするんだけどさ、コンテキストをほとんどキャッシュできれば、Claude(API)は常に一番安いんだよね。入力の90%割引ってマジでヤバい。
大規模モデルはモデルに問い合わせる用、小規模モデルはコンテキストに問い合わせる用なんだ。Opusは、その得意なニッチな使い方をすれば安いんだよ。
ほとんどSonnetを使ってるよ。利用制限があるからね。
利用制限のドキュメントってある?同僚が数時間でOpusから“高使用量”って理由で使えなくなったんだって。APIで月3000ドル使ってるけど、月200ドルのサブスクだとすぐ無駄になりそうだし、またAPIに戻るだけな気がする。でも、サブスク管理に時間かかっても、1000〜2000ドルのコスト削減になるなら、試す価値あるかも。
うん、断然良くなってるよ。ローカルで動かすと、トークン消費量がめちゃくちゃ少ないか、はるかに効率的に使えるようになるんだ。
GitHubのccusageをチェックしてみて。
ドキュメント化されてないのがポイントなんだ。不透明にすることで、低頻度ユーザーが使ってない時に高頻度ユーザーがもっと使えるように調整できるわけ。もし明確だったら、悪質なパワーユーザーに悪用されちゃうからね。あと、モデルを指定できるCLI引数もあるよ、claude --help
を試してみて。
なるほどね。特定の時間帯にシステムが遅くなったり、品質が下がったりするっていう投稿も見るよ。
もしClaude Codeをサブスクで使ってるなら、ccusage
(https://github.com/ryoppippi/ccusage)を動かせば、自分の“本当の使用量”とかコストがわかるよ。
Opusの場合、役に立つにはMaxプランがほぼ常に必要みたいだね。
まさかね。月額課金でも、月末じゃなくて月初に請求すれば、簡単な修正で済むと思うんだけどな。
おいおい。彼らのCLIを動かして、自分のマシンにあるランダムなファイルを意図的に彼らのAPIに送らせるんだろ?もう少し信用してあげなよ。
モデルの性能はすごいけど、なんで電話番号が必要なの?そこは納得いかないな。
個人的に使うならいいけど、Claudeで製品作ってる場合は、そういうのはダメだよね。
Opusはコーディングで優れてるって言うけど、個人的にはSonnetの方がずっと良いと感じるんだよね。みんなはOpusに完全に切り替えた?それとも、使い分けてる感じ?
Sonnetがたまに変になったらOpusに切り替えるとすぐ解決するんだ。あくまで個人の感想だけど、モデルを変えるのが効果的なのかもね。
MaxプランでもOpusはSonnetより良いけど、Opusの利用制限がひどいんだ。昨日なんて、仕事始めた数分で制限にかかっちゃったよ。マジで使い物にならない。
Opusは技術的には優れてるんだろうけど、実用性ではそうでもないな。複雑な実装はLLMに一発でやらせるのは無理だし、なんでその解決策に至ったのか理解したいんだ。だから、毎日の作業ならSonnetで全然十分だよ。
これはサブエージェントの良い使い方だね。Sonnetを使いつつ、Opusが全体を調整すれば、両方の良いところを組み合わせられるよ。
Windsurfの「Planning」機能がすごく良いんだ。Cascade(Claude)と何が必要か徹底的に話し合って、テストコードも込みで、それから実装、テスト、デバッグする。なかなか良い感じだよ。
みんなが利用制限にすぐ引っかかるのが不思議だよ。俺はOpusだけ使ってるけど、全然制限にかからないんだ。APIだと月2000ドル相当使ってるって出てるよ。
君たち、具体的にどうやってるの?計画モードとチャットを一緒に使う感じ?
ZedではAIパネルをaskモードにしてエージェントと話すんだ。設計が決まったらWriteモードで実装、テスト、診断。最後に人が最終レビューするよ。
永続的なサブエージェントがほしいんだけど。YAMLファイルで設定して、いろんなPCやチームで共有できたら最高なのにね。
システムの負荷によって、モデルの挙動が変わるみたいだね。
もっとコメントを表示(2)
そんなのありえないよ。キャッシュのこと考えてる?もし考えてないなら、長くは続かないだろうね。
これって「平均への回帰」じゃない?モデルの調子が悪い時、他のモデルに変えるとか何か変えるだけで、たまたま良くなることってよくあるよね。
LLM IDEの簡易版計画モードを真似て、「まず計画とコード例を見せろ、確認なしに編集するな」って指示ファイルを使ったら、めちゃくちゃ生産性上がったよ。無駄な作業が減って、またプログラミングが楽しくなった。
みんな、どのプランにお金払ってるか聞いた方がいいよ。月20ドルのプランで文句言ってる人もいるからね…。
CursorならSonnetだけど、Claude CodeだとOpus 4はSonnetの3倍は良い感じ。結局のところ、最近は何でもプロンプト次第だよね。
コントローラーは一番賢いモデルじゃなくてもいいんじゃない?Sonnetをメインにして、重い処理はZen MCP経由でGemini ProとかOpusに任せてるよ。サブエージェントも似たような感じっぽいね。
AnthropicもベンチマークもOpusの方が優れてるって言ってるし、パラメータ数も多いから、Opusがほんとに良いのかもね。
デザインドキュメントやmermaid図をタスクごとに作らせるのもいいよ。早い段階で「なんでこうするのか」を明確にできるし。
ccusageで費用見てるんだけど、キャッシュは考慮してないと思うわ。この使い方だと長続きしないだろうけど、俺はサイドプロジェクトでOpusと普通にチャットしてるだけだから大丈夫。狂ったような使い方はしてないよ。
そうそう:https://docs.anthropic.com/en/docs/claude-code/sub-agents
Opusは反復的な問題解決や、文脈を覚えておく必要のある長いタスクで良い感じ。複雑なトラブルシューティングとかにはOpus使うかな。Sonnetは普段使いには十分だし、トークン制限に引っかかりにくいからSonnetを使ってるよ。
記事の「Agentic Coding」ベンチマークだと、Sonnet 4がOpus 4より0.2%良かったり、Opus 4.1より1.8%悪かったりするんだね。今回のリリースで評価が変わるかも?ベンチマークが正しいならだけどさ。
ホスト型のモデルって、負荷が高い時に一部のリクエストを低性能なモデルに回したり、性能を落としたバージョンで動かしたりして、負荷を分散してるんじゃないかって、ずっと疑ってたんだよね。
コンテキスト腐敗かもね?もしモデルの出力が悪くなったり、ワンパターンになってきたら、一旦コンテキストをクリアしたり、新しいセッションを始めたりするといいよ。
そうだね、簡単なことならシンプルなモデルで十分だから、トークンを無駄にしないように、使うモデルを自分で積極的に選んだ方がいいよ。