Claude Opus 4.1爆誕！AI最前線、他社モデルを凌駕するのか？

Claude Opus 4.1爆誕！AI最前線、他社モデルを凌駕するのか？

引用元：https://news.ycombinator.com/item?id=44800185

qsort 2025/08/05 16:42:05

大手3社が数時間内に立て続けに何かを発表したんだって。この展開、アニメみたいでヤバい！

x187463 2025/08/05 16:55:28

GPT5の噂もあるし、8月はまだ始まったばかりって感じだな。

kridsdale3 2025/08/05 18:26:27

グレゴリオ暦と惑星の公転を考えると、8月はまだ始まったばかりだね。

tonyhart7 2025/08/05 17:50:15

まるで、他社の発表を待ってから同時に出して、どれが一番か市場に決めさせてるみたいだな。

candiddevmike 2025/08/05 18:00:40

これって絶対偶然だろ。

qoez 2025/08/06 01:12:28

どの研究所にもリーカーがいっぱいいるってことだな。

torginus 2025/08/05 19:49:26

これってGPT5がもっと良いってことじゃないかな？だって、競合が超えてきた後で劣るモデルなんか出せないでしょ。たとえ一日だけでもリードしてるって見せなきゃいけないんだからさ。

goatlover 2025/08/06 02:05:54

FBIとかDOJにももっとリーカーがいたらいいのにね。

rapind 2025/08/05 21:47:23

これって本当かな？多くの人が次のモデルのリリース日に必死で採用しようとして、すごい仕事のメリットを期待してるってこと？

aitchnyu 2025/08/06 06:22:11

いや、そうしたのは地球の自転だよ。

Etheryte 2025/08/05 18:54:46

これがPR部門の存在理由だよ。Hacker Newsのトップページやニュースサイトで注目されるのは超重要。たとえ一番じゃなくても、競合の注目を薄めるためにできるだけ多くの関心を分散させるのが大事なんだ。

wilg 2025/08/05 18:02:24

偶然でもカルテルでもないよ、これはPRのカウンタープログラミングだね。

vFunct 2025/08/05 17:53:14

これらの新しいモデルが最先端技術をどう進歩させたかについて、関連する論文をどれも発表してないみたいだね。残念。

Onewildgamer 2025/08/06 10:54:33

厳密に言うと、地球の自転が昼と夜をもたらすんだ。カレンダーを動かすのは、地球の公転だよ。

teaearlgraycold 2025/08/06 03:16:54

GPT 4.6みたいなものが来ると思って、身構えてるよ。

dnh44 2025/08/05 23:18:01

LLMを限界ギリギリで使ってるなら、ちょっとした性能改善でもすごくわかるんだよね。

rzz3 2025/08/06 05:35:22

同僚やパートナーと俺は、もう何週間もずっとこの話をしてるんだ。俺もその一人だと思うけど、どうなるか見ものだね。見たARCのグラフがもし正確なら、本当に信じられないくらいすごいよ。

ozgung 2025/08/05 17:00:42

なんて時代に生きてるんだ！

andai 2025/08/06 00:50:58

いつが発売のタイミングかってどうやって分かるんだろうね？企業スパイなのかな？それとも数ヶ月前から次の製品を用意して、すぐにでも出せるようにしてるだけなのかな。

j45 2025/08/06 01:12:20

彼らはきっと、すぐにでもリリースできるように準備して待機してるんだろうね。

paulryanrogers 2025/08/05 23:37:40

AI企業のCEOが部下に「次の3つのリリースは準備しろ、でも俺が言うまで発表するな。特に改善とかは要らない、数字だけ上げとけ」って言ってるみたいだね。

MollyRealized 2025/08/06 16:29:42

HNのコメントはすごいから、まだ始まったばかりって感じだね。

djha-skin 2025/08/05 19:57:11

Claude Opus 4.1は高すぎるし、Sonnetも高いね。Gemini Flashは安いけど判断ミスが多い。OpenAIはClaudeには劣るけど、コスパはChatGPT 4.1 miniが最強だよ。無駄なトークン出さないしAPIも安定してて助かるんだ。
1: https://openrouter.ai/anthropic/claude-opus-4.1
2: https://openrouter.ai/anthropic/claude-sonnet-4
3: https://block.github.io/goose/
4: https://openrouter.ai/anthropic/claude-3.5-sonnet
5: https://openrouter.ai/google/gemini-2.5-flash
6: https://openrouter.ai/openai/gpt-4.1-mini

generalizations 2025/08/05 20:02:36

Claude Codeをサブスクで使うのが経済的だよ。俺はマックスプランで毎日使ってるけど、過去2週間で制限に引っかかったのは2回だけだね。

tgtweak 2025/08/05 20:11:20

Claude CodeはSonnet APIよりコスパいい？同じコンテキスト長とスループット？GPT-4.1（miniも）はエージェントタスクは得意だけど、トークンキャッシュがないと長いコンテキストでコストがやばくなるんだよね。

bavell 2025/08/05 21:11:00

月20ドルのプランだけど、Claude Codeを使い始めた頃はトークン上限に引っかかったよ。でも、コンテキストをこまめにクリアするようになってからは、ほぼ「無制限」で使えてる。長い会話だとすぐトークン食っちゃうけどね。

seneca 2025/08/05 21:58:40

Anthropicに電話番号を教えずにClaude Codeに登録する方法ない？Google Voiceも使えないし。変なSaaSに電話番号渡したくないんだよね。

bgirard 2025/08/05 21:54:55

俺は月100ドルのマックスプランだけど、集中してコーディングしてると制限にすぐ引っかかるよ。利用状況を簡単に確認できるツールがないのが困るね。Claudeでログ解析ツールを作ってるけど、それ自体がトークン食うんだ。

teruakohatu 2025/08/06 02:22:19

Claude Codeを使っても、Opusのトークン制限は厳しすぎてほぼ使えないよ。他のモデルの意見が欲しい時だけ切り替える感じ。5分使うともう上限だね。

cma 2025/08/06 01:51:48

それってうちの分野では主要なサブスクツールだろ？適当なSaaSツールとは違うよ。

もっとコメントを表示（1）

bartman 2025/08/05 22:22:01

ccusageってツールをチェックしてみてよ。まさに君が言ってるツールみたいだよ。https://github.com/ryoppippi/ccusage

bgirard 2025/08/05 22:36:16

いいね！ツールで確認したら、俺は毎日約3億トークン消費してコード書いてて、費用は約125ドル／日らしい。でも、モデルの出力は月100ドルの価値は余裕であるね。

j45 2025/08/06 14:13:52

これは知っとくべき基準だね。警告は出るけど、あとどれくらい残ってるのかよく分かんないんだ。君はほとんどOpusを使ってる？

closewith 2025/08/06 06:42:45

それって一番高いサブスク？うちは仕事で200ドルのプランだけど、Opusしか使ってないのにほとんど制限に引っかからないんだ。CCUsageだと同じ使用量でもAPI経由だと先月は2000ドルくらいだったって（俺たち週4日、1日5時間ほぼずっとClaude使ってるのに）。

senko 2025/08/06 08:29:04

世の中には、初回課金で失敗する有効なクレカで何千ものアカウントを喜んで作る詐欺師がいっぱいいるんだ。電話番号を求めるのは、その摩擦を補うのに十分なほど詐欺率を下げるんじゃないかな。ちなみに、多くのAIのAPIプロバイダーが、十分な規模や既存関係がない限り前払い（クレジット購入）を求めるのも、このためだよ。

Aeolun 2025/08/05 23:50:58

いろんな料金比較をするんだけどさ、コンテキストをほとんどキャッシュできれば、Claude（API）は常に一番安いんだよね。入力の90％割引ってマジでヤバい。

energy123 2025/08/06 00:33:04

大規模モデルはモデルに問い合わせる用、小規模モデルはコンテキストに問い合わせる用なんだ。Opusは、その得意なニッチな使い方をすれば安いんだよ。

bgirard 2025/08/07 19:02:37

ほとんどSonnetを使ってるよ。利用制限があるからね。

drusepth 2025/08/06 17:32:38

利用制限のドキュメントってある？同僚が数時間でOpusから“高使用量”って理由で使えなくなったんだって。APIで月3000ドル使ってるけど、月200ドルのサブスクだとすぐ無駄になりそうだし、またAPIに戻るだけな気がする。でも、サブスク管理に時間かかっても、1000〜2000ドルのコスト削減になるなら、試す価値あるかも。

j45 2025/08/06 01:14:32

うん、断然良くなってるよ。ローカルで動かすと、トークン消費量がめちゃくちゃ少ないか、はるかに効率的に使えるようになるんだ。

symbolicAGI 2025/08/05 22:24:30

GitHubのccusageをチェックしてみて。

generalizations 2025/08/06 18:12:50

ドキュメント化されてないのがポイントなんだ。不透明にすることで、低頻度ユーザーが使ってない時に高頻度ユーザーがもっと使えるように調整できるわけ。もし明確だったら、悪質なパワーユーザーに悪用されちゃうからね。あと、モデルを指定できるCLI引数もあるよ、claude --helpを試してみて。

j45 2025/08/07 22:40:48

なるほどね。特定の時間帯にシステムが遅くなったり、品質が下がったりするっていう投稿も見るよ。

MarcelOlsz 2025/08/05 23:59:04

もしClaude Codeをサブスクで使ってるなら、ccusage（https://github.com/ryoppippi/ccusage）を動かせば、自分の“本当の使用量”とかコストがわかるよ。

ygouzerh 2025/08/06 08:48:57

Opusの場合、役に立つにはMaxプランがほぼ常に必要みたいだね。

yencabulator 2025/08/07 22:57:57

まさかね。月額課金でも、月末じゃなくて月初に請求すれば、簡単な修正で済むと思うんだけどな。

eddythompson80 2025/08/06 06:53:16

おいおい。彼らのCLIを動かして、自分のマシンにあるランダムなファイルを意図的に彼らのAPIに送らせるんだろ？もう少し信用してあげなよ。

seneca 2025/08/06 22:22:33

モデルの性能はすごいけど、なんで電話番号が必要なの？そこは納得いかないな。

thomasahle 2025/08/06 19:59:14

個人的に使うならいいけど、Claudeで製品作ってる場合は、そういうのはダメだよね。

jzig 2025/08/05 16:46:47

Opusはコーディングで優れてるって言うけど、個人的にはSonnetの方がずっと良いと感じるんだよね。みんなはOpusに完全に切り替えた？それとも、使い分けてる感じ？

adastra22 2025/08/05 16:57:04

Sonnetがたまに変になったらOpusに切り替えるとすぐ解決するんだ。あくまで個人の感想だけど、モデルを変えるのが効果的なのかもね。

biinjo 2025/08/05 17:17:09

MaxプランでもOpusはSonnetより良いけど、Opusの利用制限がひどいんだ。昨日なんて、仕事始めた数分で制限にかかっちゃったよ。マジで使い物にならない。

SkyPuncher 2025/08/05 17:42:51

Opusは技術的には優れてるんだろうけど、実用性ではそうでもないな。複雑な実装はLLMに一発でやらせるのは無理だし、なんでその解決策に至ったのか理解したいんだ。だから、毎日の作業ならSonnetで全然十分だよ。

monatron 2025/08/05 17:15:21

これはサブエージェントの良い使い方だね。Sonnetを使いつつ、Opusが全体を調整すれば、両方の良いところを組み合わせられるよ。

bdamm 2025/08/05 20:52:44

Windsurfの「Planning」機能がすごく良いんだ。Cascade（Claude）と何が必要か徹底的に話し合って、テストコードも込みで、それから実装、テスト、デバッグする。なかなか良い感じだよ。

furyofantares 2025/08/05 17:46:46

みんなが利用制限にすぐ引っかかるのが不思議だよ。俺はOpusだけ使ってるけど、全然制限にかからないんだ。APIだと月2000ドル相当使ってるって出てるよ。

jstummbillig 2025/08/05 21:25:52

君たち、具体的にどうやってるの？計画モードとチャットを一緒に使う感じ？

trenchpilgrim 2025/08/05 23:33:48

ZedではAIパネルをaskモードにしてエージェントと話すんだ。設計が決まったらWriteモードで実装、テスト、診断。最後に人が最終レビューするよ。

adastra22 2025/08/05 18:35:52

永続的なサブエージェントがほしいんだけど。YAMLファイルで設定して、いろんなPCやチームで共有できたら最高なのにね。

j45 2025/08/05 17:10:52

システムの負荷によって、モデルの挙動が変わるみたいだね。

もっとコメントを表示（2）

Bolwin 2025/08/05 18:52:13

そんなのありえないよ。キャッシュのこと考えてる？もし考えてないなら、長くは続かないだろうね。

gpm 2025/08/05 17:24:59

これって「平均への回帰」じゃない？モデルの調子が悪い時、他のモデルに変えるとか何か変えるだけで、たまたま良くなることってよくあるよね。

Larrikin 2025/08/06 00:05:02

LLM IDEの簡易版計画モードを真似て、「まず計画とコード例を見せろ、確認なしに編集するな」って指示ファイルを使ったら、めちゃくちゃ生産性上がったよ。無駄な作業が減って、またプログラミングが楽しくなった。

rirze 2025/08/05 17:49:55

みんな、どのプランにお金払ってるか聞いた方がいいよ。月20ドルのプランで文句言ってる人もいるからね…。

dested 2025/08/05 17:05:02

CursorならSonnetだけど、Claude CodeだとOpus 4はSonnetの3倍は良い感じ。結局のところ、最近は何でもプロンプト次第だよね。

rapind 2025/08/05 21:51:00

コントローラーは一番賢いモデルじゃなくてもいいんじゃない？Sonnetをメインにして、重い処理はZen MCP経由でGemini ProとかOpusに任せてるよ。サブエージェントも似たような感じっぽいね。

keeeba 2025/08/05 20:26:46

AnthropicもベンチマークもOpusの方が優れてるって言ってるし、パラメータ数も多いから、Opusがほんとに良いのかもね。

ssk42 2025/08/05 19:35:51

デザインドキュメントやmermaid図をタスクごとに作らせるのもいいよ。早い段階で「なんでこうするのか」を明確にできるし。

furyofantares 2025/08/05 19:01:28

ccusageで費用見てるんだけど、キャッシュは考慮してないと思うわ。この使い方だと長続きしないだろうけど、俺はサイドプロジェクトでOpusと普通にチャットしてるだけだから大丈夫。狂ったような使い方はしてないよ。

mwigdahl 2025/08/05 19:31:25

そうそう：https://docs.anthropic.com/en/docs/claude-code/sub-agents

MostlyStable 2025/08/05 16:54:41

Opusは反復的な問題解決や、文脈を覚えておく必要のある長いタスクで良い感じ。複雑なトラブルシューティングとかにはOpus使うかな。Sonnetは普段使いには十分だし、トークン制限に引っかかりにくいからSonnetを使ってるよ。

gpm 2025/08/05 17:18:59

記事の「Agentic Coding」ベンチマークだと、Sonnet 4がOpus 4より0.2%良かったり、Opus 4.1より1.8%悪かったりするんだね。今回のリリースで評価が変わるかも？ベンチマークが正しいならだけどさ。

api 2025/08/05 17:15:23

ホスト型のモデルって、負荷が高い時に一部のリクエストを低性能なモデルに回したり、性能を落としたバージョンで動かしたりして、負荷を分散してるんじゃないかって、ずっと疑ってたんだよね。

HarHarVeryFunny 2025/08/05 17:44:16

コンテキスト腐敗かもね？もしモデルの出力が悪くなったり、ワンパターンになってきたら、一旦コンテキストをクリアしたり、新しいセッションを始めたりするといいよ。

epolanski 2025/08/05 17:28:27

そうだね、簡単なことならシンプルなモデルで十分だから、トークンを無駄にしないように、使うモデルを自分で積極的に選んだ方がいいよ。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。