GPT-5の最新情報!主要特性、価格、システムカードを徹底解説!
引用元:https://news.ycombinator.com/item?id=44827794
システムカード: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb…
GPT-5は期待してた「世界を揺るがす」リリースじゃなく、漸進的な改善に留まったみたいだね。純粋なスケーリング至上主義は終わりつつある感じがする。もっと効率的な方法を探してるってことかな。でも、業界がクローズドだから、モデルの現状が全然見えないのがマジで不満だよ。
Gemini 2.5 Proで校正させたら、存在しないタイプミスを指摘されたんだ。LLMは結局、知能を偽装してるだけなんだよね。多くのタスクでは十分だけど、監視なしでは絶対にダメ。だって、本当に知能があるわけじゃないからね。
スケーリング至上主義が終わるなら、他のアプローチに投資が集まるのかね?なんでみんなLLMだけにお金突っ込むんだろう。多様な研究に投資して、リスクを分散すべきじゃないか?俺も偏見あるけど、データと計算力だけでAGIに到達するなんて信じられないね。
今の技術じゃAGIへの道はないよ。これらのモデルは訓練が終わったら固定されちゃうんだからさ。
AGIがモデルの使用中に変更される必要があるって、なんでそう思うの?モデルが獲得する洞察は、コンテキストに入れれば十分なんじゃない?
LLMは文字じゃなくてトークンを見てるんだよ。これはLLMの根本的な特性。LLMが特定の文字数を認識できないって指摘するのは、君が愚かだって言ってるようなもんだ。ちゃんと基礎を理解しろって話だよ。
順向性健忘(Anterograde amnesia)だからだよ: https://en.wikipedia.org/wiki/Anterograde_amnesia
ツール利用とマルチモーダル能力で、静かなる革命が起こってるよ。一般的な知能は少しずつだけど、ツールを使った複数ステップの作業や世界とのインタラクション能力は劇的に改善してる。これが最終的に汎用知能にフィードバックされるはずさ。
言った通り、モデルはコンテキスト内なら情報を覚えていられるよ。LLMは、自分が言われたことや出力したことを、数メッセージ後でもちゃんと記憶できるんだ。
LLMに全投資する理由について、他に有効な選択肢がないからだと説明。非LLMのアプローチはまだ成果が出てないんだって。投資家が他の道に資金を出すべきかという問いには、まだその時じゃないって返してるね。
「言語モデル」って名乗ってるのに、言語を正確にモデル化できないし、人間並みの知能って言ってるのも怪しいよね。基本的な事実さえ理解できないのを「バグじゃなくて特徴」って言うのはどうなの?って皮肉ってる。
非LLMの代替案にも良いアイデアはあるのに、スケールで証明されてないと投資されないのはおかしいって言ってるよ。MambaやFlowsみたいな代替アーキテクチャはもっと注目されるべきだし、投資家は新しい優れたアプローチにすぐに切り替えないことが多いって歴史が示してるってさ。
[0] https://arxiv.org/abs/2412.06329
[1] https://arxiv.org/abs/2506.06276
20世紀初頭の蒸気機関車みたいに、今のLLMもわずかな性能向上のために複雑になりすぎてるって話。ディーゼルや電気機関車みたいに、いつか全く違う、もっとシンプルで優れたアプローチが必要になるだろうって予感するってさ。
FortniteやWoWみたいな成功例を真似ようとする投資家の心理について話してる。低確率でも超高リターンの夢に惹かれちゃうんだね。根本的に違うアプローチに投資するより、成功例を追う方が魅力的ってことかな。投資家は自分より良い情報を持ってる可能性もあるって言ってる。
他の投資先がないのは、GPT-2レベルの成果を出した代替案がまだないからだって言ってるね。MambaもLLMの仲間だし、FlowsはAGIの代替じゃないって反論してる。もし新しい技術が出てきても、ChatGPTみたいにすでにユーザーを抱えてるOpenAIが有利だろってさ。
GPUが情報を取り込んでコンテンツを生成できるのはわかったけど、それを本当に役立たせるには、特定の問題への応用とすっごい努力が必要だって話。GPTにスタートアップ作らせても、それで簡単に億万長者にはなれないってさ。当面はまだ地道な努力が必要なんだね。
読み書きできない人には言語がないのかって?アルファベットやルールを知らないと単語の文字数もわからないけど、それが正確な言語モデリングができないってことにつながるのかって問いかけてる。
「strawberry」の「r」の数を数えるのにも苦労するアーキテクチャが、校正に良い選択肢だと思う?LLMは私たちとは全然違う方法で言葉を認識してるんだよって言ってる。
GPTが10億ドルのスタートアップを生み出せるとしても、もし誰でも同じツールでその全部を再現できちゃったら、そのスタートアップ自体にそんな価値はつかないでしょ?誰もそこにお金なんて払わないよって言ってる。
F1の進化が効率と安全性重視で速度は劇的に変わってないように、LLMもいずれ特化型になり、アップデートは微々たる差になるけど、大規模運用は安くなるだろうね。
新しい技術の閾値って何?LLMはTransformerだけじゃないし、AGIにはマルチモーダルモデルが必要だと思うよ。研究資金はNASAのTRLスケールみたいに、基礎研究(TRL 1-3)にもっと投資すべきだよ。そうしないと、イノベーションが停滞しちゃうかもね。https://www.nasa.gov/directorates/somd/space-communications-…
パフォーマンスが約4-7ヶ月ごとに倍増してるってすごいことだよ!それが続いているのに「頭打ち」なんて言うのは、期待しすぎで hype に踊らされてるだけじゃない?全然頭打ちじゃないよ。https://metr.github.io/autonomy-evals-guide/gpt-5-report/
モデルが文脈中のことを記憶するって言うけど、それには無限のコンテキストか圧縮が必要だろ。この定理も見てみてくれ。https://en.wikipedia.org/wiki/Data_processing_inequality
「閾値」ってのは、GPT-2みたいに、実際に役に立つ前から話題になるレベルのことだよ。数億ドル規模の投資は、このレベルをクリアしないと難しいし、他の研究も資金がないわけじゃないけど、それに見合う成果がないから規模が小さいんだよ。
文字数カウントとスペルチェックは全然違うタスクだよ。以前はモデルがスペルチェック苦手だったのに、Claude 4とかo3で劇的に良くなったのは、少しずつの改良が実用レベルに達した良い例だよね。
GPT-3前に神経科学系のAIプロジェクトを始めたけど、投資家はLLMばかり。今はLLM活用企業しか見ないんだって。ジョン・カーマックみたいに自己資金がないと、新しい基礎的なAIモデルは難しいのかな。投資家はまだLLMにがっかりしてないから、他のプロジェクトにはリスク取らないみたいだね。
AGIが無限の知識を必要とするわけじゃないんだから、無限のコンテキストも必要ないんじゃない?
GPT-5が性能的にちょっとずつの改良になるって、もう半年くらい前から言われてたことだよね。今はもう、わずかな進歩を積み重ねていく段階に入ったってことだよ。
GPT-5はプロダクトの簡素化とは程遠い。記事によると、GPT-5は3つのモデルと4つの思考レベルで動くんだって。つまり、一つの入力に対して12通りの実行方法があるってこと。全然シンプルじゃないよね。
もっとコメントを表示(1)
時間は進むし、物事も変わる。新しい情報を全部コンテキストに入れたり、圧縮したりするのは無理ゲーだね。毎日膨大な情報が生まれてるのに。もしそれができたら、LLMはプロンプトだけで学習もチューニングもいらなくなるってことになっちゃうよ。
「幻覚が劇的に減った」って話、すごく混乱するな。Claude 4(SonnetとOpus)は簡単なことでも難しいことでも毎日幻覚を起こしてるよ。しかも小さい個別の質問でさえね。
どんな幻覚が見えるの?
数週間前、4ページ文書を三人称に書き直したんだ。修正後の文書をClaude Sonnet 4に渡して、まだ一人称の箇所をハイライトするように頼んだら、「they/them」を一人称として指摘したんだ。「they」は三人称だと伝えたら、「分析を間違えました」って訂正してきた。良いモデルでもまだ実世界の問題で失敗するんだよね。
SimonさんはLLMをかなり長く使ってるから、幻覚が出にくいように質問をフレーミングするコツを身につけてるんじゃないかな。
それって僕が使う「幻覚」の定義とはちょっと違うな。明らかにアホな間違いだけど、間違った事実(例えばスーパーボウルの勝者を間違えるとか)を自信満々に言ってるわけじゃないでしょ。
うん、まさにその通りだと思う。僕は幻覚が出やすい質問(検索アクセスなしで論文の引用をLLMに求めるような)をしないから、めったに幻覚を見ないんだ。
発表会でもいくつか幻覚があったし、ClaudeもGPTも使うたびに幻覚を見るよ。LLMの大きな問題は、人間の好みに最適化されてて、隠れたエラーを最適化しちゃうことだね。僕はこういうステルス性の高い失敗モードのツールを使うのは本当に慎重になる。デバッグに時間かかるし、常に二重チェックが必要になるからね。
発表会での幻覚って何だったの?僕が「幻覚」っていう言葉を使ったのが不注意だったね。僕は「現実と全く関係ない事実を自信満々に述べること」だと解釈してたけど、みんなが同じ定義を共有してないってことがよく分かったよ!記事にあの注釈を入れたことを深く後悔してる。
「幻覚」ってどうやって確認するの?俺はコードとか論文の要約書いてる時でも微妙な幻覚に遭遇するよ。例えば、抄録作成でLLMが勝手に数字足したり、airfoilの例みたいにね。ClaudeとかGPT-4でも完璧じゃなかったし、フォローアップと修正が必要だった。君は幻覚を見ないって言うけど、何に使ってるのかマジで気になるな。
コードに使うときは、実行できるツール内で使うから、モデルが勝手に直してくれるから幻覚にはほとんど気づかないよ。事実確認にはo3とかGPT-4みたいな検索機能付きモデルしか使わないし、それ以外は大量のテキストから情報抽出したり操作したりしてる。
「この文は一人称だ」って答えが実際は三人称だったら、それって幻覚じゃないの?二択なのに正反対の間違いって、ありえないでしょ。ずいぶん都合よく解釈してるようにしか見えないよ。
そうだね。ClaudeとかChatGPTとかに「間違ってるよ」って言うだけで、モデルは自分で崩壊し始めて幻覚を何度も繰り返すループに入っちゃうんだ。たとえ最初正しくても、反論してこないし自信がないみたい。
俺の定義だと「blueberryにはBが3つある」は間違いであって幻覚じゃないんだ。どうやら俺の「幻覚」の定義は世間と違うみたいだね。Twitterでアンケート取ったら、85%の人が「捏造された事実」って定義に賛同してくれたよ。でも、「この文は一人称だ」ってのも「捏造された事実」って言えるかもね。URL: https://twitter.com/simonw/status/1953565571934826787
俺も君と同じ定義に賛成だよ。間違いを幻覚って呼ぶのは初めて聞いたけど、ちょっとグレーゾーンって気もするね。
コードに使ってるからって幻覚がないってわけじゃないでしょ。コンパイルやテストが通っても幻覚じゃないとは言えないし。事実情報でもo3はいいけど、俺は幻覚をしょっちゅう見てるよ。幻覚がないってどうやって確認してるの?「めったに見ない」ってのは、みんな「結構見る」って解釈してるんじゃないかな。
馬鹿げたグラフとかベルヌーイの誤りを見逃したんじゃないの?URL: https://news.ycombinator.com/item?id=44830684
URL: https://news.ycombinator.com/item?id=44829144
「blueberryにBが3つある」ってのが幻覚かどうか、追加でTwitterアンケートやってるよ。今のところ、41%が幻覚、59%が幻覚じゃないって言ってて、意見がかなり割れてるね。URL: https://twitter.com/simonw/status/1953777495309746363
「幻覚が大幅に減った」って言うけど、「バカな間違い」はどのくらい遭遇したか教えてくれない?読者の多くは「幻覚」と「バカな間違い」を同じ意味で捉えてるかもしれないからさ。
コードがテスト通るなら、ハルシネーション(存在しない関数とかメソッド作ること)は防げるでしょ。テストが通れば存在してるって証明じゃん。使い方が間違ってたらそれはバグだし、ハルシネーションじゃないと思うんだよね。ひょっとして「ハルシネーション」の定義、俺たち違う?
みんなハルシネーションの定義、どう考えてんの?区別マジむずいって。Simonの論文[0]で定義してるけど、それもはっきりしねえんだよな。訓練データにあるかないかで決めるのは無理ゲーだし、汎用性を考えたら訓練分布で見るべきじゃね?間違いとハルシネーションの正確な区別って、やっぱ難しいわ。
[0] https://arxiv.org/abs/2508.01781
[1] https://news.ycombinator.com/item?id=44831621
グラフはモデルのハルシネーションじゃなく、人間の設計ミスだろ。ベルヌーイ誤差も、モデルが世間に広まってる誤情報を出しただけ。俺にとってのハルシネーションは、モデルが過去のデータに全く基づかず、嘘の情報をでっち上げること。Google BardがJames Webb Space Telescopeが系外惑星を最初に撮ったって言った件、あれこそマジのハルシネーションだよ。
ClaudeとかChatGPTに「お前間違ってるよ」って言うと、ループに入ってハルシネーションしまくるんだよね。コンテキストを直そうとするのは最悪のアプローチだわ。それより、最初のプロンプトを改善して、一発で正解出すようにすべき。間違ったらまたゼロから始めろ。コンテキストはすぐ「汚染」されちゃうから、正確さを求めるなら潔くリスタートが吉。
それ、ハルシネーションでしょ。君の定義は?俺も研究者だけど、ハルシネーションの定義って元々広範で、色んな間違いに当てはまってきたよ。英語の「世界」モデリングが不正確なせいで、プロンプト解釈時に英語のハルシネーション起こしてるんじゃない?「they」が一人称になる文脈、俺は思いつかないのにGoogleのAIはできるって言ってて、リンク先も裏付けない。これもハルシネーションだね。
Claude Codeは、タスク完了したって言うのに、実際はモックコード書いただけの時がよくあるんだ。あと、確信満々に質問に答えるけど、それ全部でっち上げ。だから、OpusとかSonnetでハルシネーション見てないって人は、多分ちゃんと見てないだけだよ。
だから何?形式的な定義に当てはまるって事実は変わんねーよ。LLM企業が「違う!」って騙しても、真実にはならん。客観的に違うなら扱い方も違うはずだろ。中身はただの間違った統計で、解決策は訓練とデータ増やすことだけ。モデルが「これ一人称だよ」って自信満々に間違った事実を出すのも、俺にとっては「でっち上げられた事実」なんだわ。
どんな失敗でも呼び方はどうでもいいわ。俺が欲しいのは、半分近く間違った出力出すようなもんじゃねえんだよ。AIとかAGIとかハルシネーションとか、そんなのどうでもいい。ただ、仕様通りにコード書けるとか、言われた通りに動くソフトをくれよ、頼むから。
タスクが完了したか、検証するツールを与えてないからだろ。TDD(テスト駆動開発)はめちゃ効くぜ。まず基本テスト書かせて、そんでコード実装させろよ。俺はCLAUDE.mdに「タスク完了って言う前にtask build
走らせろ」って常時命令入れてるんだ。俺のプロジェクトはみんなTask[0]使ってて、task build
でlintとtestが通れば、まあ大丈夫だなって分かる。
[0] https://taskfile.dev
コードで使うと、適当な関数名や壊れたコードがしょっちゅう出てくるんだよね。これって幻覚とは言わないのかな?
幻覚を検出して取り除くシステムを実質的に作ってるんじゃないの?それなら、Van Halenが茶色のM&M’sを見ないのと同じで、幻覚が最初から存在しないんじゃなくて、取り除かれてるから見えないってことだよね。
もっとコメントを表示(2)
Twitterのアンケートで分かったんだけど、”hallucination”って言葉は使わない方がいいみたい。定義が人によってバラバラだから、ちゃんとしたコミュニケーションには向かないんだよね。
「君はGPT-5?」って聞いたら、「いや、4oだよ。5はまだ出てない」って。でも「今日リリースされたよ」って言ったら、「あ、そうだった!僕がGPT-5だよ。4oの無料利用はここまでだよ」って言い出したんだ。
ハハ、ひどいね。たぶん明日かな。
OpenAIのこの積極的な価格設定って珍しいね。もし彼らにすごい”堀”があったら、こんなことする必要ないでしょ。本当に競争が激しいんだなって思うよ。
アプリでは圧倒的に勝ってるけど、APIではAnthropicに負けてるってさ!マジかよ。→ https://finance.yahoo.com/news/enterprise-llm-spend-reaches-…
せいぜい5%くらいしか良くないでしょ。Gemini 2.5 Proと価格競争せざるを得なかったのは明らかだと思うな。特にCursorがデフォルト変えたくらいだしね。
最近PROの顧客(俺もだけど)を失ってる影響を感じてるんじゃないかな。PROモデルはPLUSの10倍の価値なんて全然なかったし!特にz.aiみたいな新しい競合がすごく魅力的なサービス出してきてるからね。
Nanoが5セントってのが面白いね。たぶんGoogleが最近じわじわ上げてた価格を、また下げざるを得なくなるんじゃないかな。
AI企業はデータが欲しがってるかもね。
OpenAIとかAI企業はさ、有料APIに送られたデータでは学習しないよ。
API使われなくなるの恐れてるんじゃない?データ学習されないよう追加料金払うプランとかあってもいいのにね。
著作権のある素材を使って学習しないってさ /s
それは違うよ。彼らはウェブスクレイプで学習してるんだ。有料APIの顧客データは使わない。
所有してないデータで学習してると大胆に言うなら、みんなが自ら提出したデータで学習しないって言葉も楽観的に聞いちゃうな。
君の論理が理解できないな。著作権データで無許可学習っていう悪いこと認めたのに、それがもっと悪いことについて嘘をつくってことと、どう繋がるの?
聴衆を知ってるからだよ。彼らは著作権を気にしない層にそういう主張をしてる。でも同じ層が、自らネットに提出したデータに召喚状が出たらパニック。突然プライバシー侵害って騒ぐんだ。僕には論理的じゃないけど、この議論は論理じゃないんだよね。
ああ、彼らはそんな約束してないね。モデル通して著作権素材を「マネーロンダリング」するのはOKって言いたいだけなんだよ。
もしそれを信じるなら、君に売る橋があるよ…
もしOpenAIが、送られてくる膨大な機密データで学習してるってバレたら、訴訟の山で即座に潰れて、閉鎖する羽目になるだろうね。
大企業の人たちもアカウント持ってるけど、彼らが使わせてもらってるのは”自分のデータで学習しないで”っていうチェックボックスがあるからさ。
それに、全部のアカウントが会社のメールに紐付いてるわけじゃないから、OpenAIが差別することもないんだ。
それは”マザーモデル”を大規模に蒸留したものだから、推論コストは低くなるだろうね。
GPT-5のAPIは”シンプル”だって言うけど、本当にそうかな?
今GPT 4.1を使ってて3つの選択肢があるけど、GPT-5だとレギュラーモデルを考えなくても、miniとnanoだけで最低8つの選択肢になるんだ。
さらに、これらの選択肢の中から選ぶ時、いつも悩むことになるだろうね。今のプロンプトを調整すべきか、それともGPT-5のバージョンや推論レベルを変えるべきかって。
もし推論レベルが考慮されるなら、GPT 4.1のバリエーションに既にo3-mini-highとかo3-mini-medium、o3-mini-low、o4-mini-highとかを追加してたはずだろ。
GPT-5のやり方の方が、俺にはシンプルに見えるけどな。
うん、俺もそう思うよ。nは1,2,3でmは0,1,2,3って感じで、構造があるから、それぞれのパラメータがどの方向に増えるか分かるんだ。
でも、選択肢があるとして、君はより大きなモデルを選ぶ?それとも、より高い推論レベルを選ぶ?それか、両方の中間を選ぶ?
世界の知識が必要なら大きなモデル、問題解決が必要ならより高い推論レベルだね。
でも、nano/mini/mainとminimal/low/medium/highの具体的な選び方は、結局は実験と君のコストやレイテンシの制約次第だよ。
それらのモデルについては、経験を積まないとだめだね。俺は主にMistralを使ってるから、思考させるかさせないかの選択肢しかないんだ。
Mistralにもsmall、medium、largeがあるよ。smallとmediumの両方に思考するバージョンがあるし、devstral、codestralとかもあるんだ。そんなにシンプルじゃないよ。