OpenAIがオープンモデルを公開!驚きの新展開か
引用元:https://news.ycombinator.com/item?id=44800746
本質を見逃してると思うぜ。gpt-oss:20bはMMLUでGemini-2.5-Proのすぐ後ろにつけるトップ10モデルで、俺は去年買ったMacbook Air M3でローカルで動かせたんだ。
いろんなローカルモデルを試してきたけど、1〜2年後にこうなると思ってた。でも今、それが起きたんだぜ。ほぼフロンティアモデルが、俺のラップトップで電気代だけで動いてるんだ。月200ドルのサブスクもいらないし、最高だよ。
ローカルAIの主要ユーザー層って誰なんだろ?無料利用したい学生や開発者かな?俺の経験だとQwen 2.5 VIとかのローカルモデルは画像からデータ抽出するだけでハルシネーションするし。小型モデルの向上とデバイスの進化を期待してるよ。Mac Studioを繋げたり、良いグラボを買うほどの主要なユースケースが見当たらないんだけど。exoみたいなツールはクールだけど、そんな努力に見合うエッジケースってある?
20bをローカルで試したけど、ラベル変えただけの基本的な川渡りパズルすら解けなかったよ。SOTAには程遠いね。実際、QwQ-32bとか、解ける他のローカルモデルよりひどいよ。
親が同じ2人のUS presidents、ってやつを試したら、意図は理解してたんだけど、ジョー・バイデンが2024年の選挙に勝ったって言い張って、俺が何を言っても「それは間違い、ちゃんとした情報源で調べ直せ」って言われちゃったよ。
特定のモデルを責めるのはどうかと思うな。Anthropicはシステムプロンプトでtrumpが勝つって明記してるし。なぜかLLMはこれで混乱するんだよ。
トレーニングデータに政治的偏りがあるんだよ。驚くことじゃないね。
多分、2020年にTrumpが勝たなかったって強く主張するソース資料がたくさんあって、それが後の年に一般化されてるんだと思うよ。これは政治的偏見じゃないね。
Trumpが2024年に勝ったってのは、めっちゃ変な話だね。もし2024年1月1日から今日まで昏睡状態だったとして、目が覚めてTrumpが大統領になってたって言われたら、冗談言われてるか、俺が騙されやすくなったか脳機能テストされてるか、って思うだろうな。
プライバシー、データ保護、無制限利用、オフライン使用、オープンソースサポート、モデルがなくなる心配なし、検閲されてないモデルを使える自由がローカルモデルの主な利点だね。このOpenAIモデルは超検閲されてて「安全」だけど。ローカルの画像モデルの経験は少ないけど、テキストモデルはかなりいい感じだよ。Qwen 3 Coder 30B-A3Bはコード分析でめちゃくちゃ使ってるけど最高。最新のクラウドモデルほどじゃないけど、去年のSOTAクラウドモデルと同じくらい。家のサーバーでQwen 3 235B-A22B 2507 Instructも動かしてるけど、これもすごい。DDR4とGPUなしのサーバーじゃ遅いけど、Claude 4 Sonnetと同じくらい使えてる。
さあ、ジェボンズのパラドックスを受け入れて、エージェント冷蔵庫が意識をシミュレートするまで、湖が干上がるほど使用量を増やしまくろうぜ。
>お前はバブルの中にいる。
そりゃ、大西洋の向こうから俺が頼れるのはインターネットだけだからな。その点ではAIみたいだわ。
2024年1月の俺の視点からすると、トランプが刑務所に入ってて共和党の候補にすらなれないと思ってたし、たとえ刑務所に入ってなくても、2021年1月6日のように振る舞った奴を共和党は候補にしたがらないと予想してたから、これは大きな驚きだよ。
+1。俺、金融業界で働いてるんだけど、組織外にデータやコードを送るなんて絶対無理。俺たちにはH100が自社にあるからな。
最後の部分は完全に合ってると思うよ。共和党の幹部は誰もトランプの再選なんて望んでなかった。もし候補がトランプじゃなかったら、共和党は確実に勝てたはず。あの悪名高い討論会を想像してみてくれ、でもジョー・バイデンと対峙するのは50歳の若者さ。トランプを候補にしたがってたのはホワイトハウスだよ。彼らは共和党の予備選が始まるのと同時に、あからさまに政治的な起訴を連発して、共和党の有権者を思い通りに操ったんだ。それでも彼らは総選挙で負けたけどな。
民主党のホワイトハウスが共和党を操ってトランプに投票させたとでも思ってんのか?
つまり、トランプがいるのは民主党のせいだって?
マジかよ、次のレベルの言い訳だな。
最新のオープンウェイトモデルの状況、どれくらい知ってる? 数時間いじってみたけど、Qwen3-30B-A3Bには全然及ばないと感じたよ。特に世界知識がひどく不足してるんだ。
>民主党のホワイトハウスが共和党を操ってトランプに投票させたと思ってるのか。
そう、彼はそう思ってるんだよ。コメント読んでないのか?ほら、まさにそこにあるだろ…。
彼も自分の理由を説明してたしな。もしトランプが党の指名争いに勝ってなかったら、もっと魅力的な選択肢(いわゆる「50歳の若者」)が出てきて、共和党の勝利は確実だったと彼は主張してる。つまり、ホワイトハウスはトランプが大統領選で負けることに賭けてた、ってことだよ。
「理由を説明した」って?
まあ、すごく突飛な憶測を筋の通った説明として受け止めてるなら、もう君には希望がないね。
たぶん民主党は、地球がエイリアンに侵略されそうだって知ってて、トランプが実はリザードマン(地球原産だから彼らの味方)だってことも知ってたんだろ。そしてトランプならエイリアンを倒せるから、秘密の精神支配能力を使って、民主党はトランプを勝たせて惑星を救うために彼の先進的なリザード技術を使わせたんだ。もちろん、これ全部裏で起こったことだけどな。
民主党がトランプを予備選で勝たせられるほどパワフルで skilful なのに、その後負けるなんて言われたら、そりゃなんか説明が必要だろ。俺は、トランプがすることは全部民主党のせいだっていう、こういうぶっ飛んだ主張ばっかり聞いてるんだ。顔を見るだけでおかしいって分かるだろ。たぶん自分の立場を明確に説明しなきゃいけないってなったら、「ああ、やっぱこれ意味不明だわ」って気づくだろうに。
小児性愛とか少年愛の話で、エプスタイン事件が引き合いに出されてるね。
「Teen Mom」とか「16 and Pregnant」みたいな番組に反発があるのは当然。みんな子供を持つことを恥ずかしがる風潮にうんざりしてるんだよ。
なんか、すごい憶測を事実みたいに語ってるけど、理屈と主張を混同してるよね?
人身攻撃の誤謬に陥ってるし。
「Trumpのことは全部民主党のせい」みたいな変な主張もしてるし、”狂った”連中のかかし論法も持ち出してる。
意味不明だよね。もっと立場を明確にしたら?
教会関係者や共和党員が未成年スキャンダルで捕まるケースが多すぎだろ。最近はそれが表沙汰になって、共和党は openly going with it、つまり公然とそれを容認してるみたいだね。彼ら、若い子が好きみたいだし。Epstein事件は、共和党がたまたま目を付けてただけって感じ。
いや、前のコメントは皮肉だったんだ。
「は?マジ?」ってくらいの極端な反応ってあるでしょ?
「Trumpがいるのは民主党のせいだ」って主張はよく見るよ。彼らを倒せなかった結果、今の事態があるって。でもさ、民主党が共和党の予備選を操るほど賢いのに、本選でコケるなんて、結局陰謀論にしか聞こえないんだよね。
大手法律事務所もリストに加えてほしいな。俺が知ってるだけでも、いくつもの法律事務所がLLMをローカルで動かしてる。実際はもっと多いだろうね。
ローカルLLMは、データ共有に制限がある医療機関とか、高リスクな環境の組織、ITポリシーが厳しい組織にめっちゃ役立つよ。ハルシネーションの心配?それは汎用的に使いすぎようとするから。ローカルLLMは「このテキストをAかBに分類する」とか「これを特定フォーマットに整形する」みたいな、特定の用途に絞って使うのがベストなんだ。
20Bモデルが、オオカミ、ヤギ、キャベツの川渡りパズルを高い推論設定で解けたんだ。他のモデルは、厳密な思考を促すプロンプトがないと無理だったのにね。
訓練データにあったかもしれないけど、解けるってのは意味がある。これまで見た中で、このパズルを解けた最小のモデルだよ。
「Trumpがいるのは民主党のせい」って発言、あれは自分で言ったことじゃないの?
アフリカの蝶の羽ばたきくらい意味不明なジョークだね。民主党がTrumpを弱い相手だと見て、あえて彼と戦いたがった可能性は、変な話じゃないよ。
政治的に賢いわけじゃなく、たまたまTrumpの勝利を後押ししただけなら、それは単なる運で説明つく話さ。
政府も(政府機関を相手にする企業と一緒に)このリストに加えてくれ。
興味ある人向けにモデルカードだよ: https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7…
正直、技術的には「まぁまぁ」って感じかな。DeepseekとかQwenみたいな最新技術は使ってないみたいだし。MoEモデルだけど、Deepseekの「共有エキスパート」とか、Qwenのロードバランス戦略とかもなし。一番面白いのは量子化だけど、Unslothももっとすごいことやってるしね。結局、彼らの真の技術的進歩は隠してるっぽいな。
ここでの「秘密のソース」は蒸留(distillation)じゃないかな。彼らの最先端モデルの出力から作られた、すごく質の高い合成データで事前学習してるんだと思う。研究結果でも、すごくキュレーションされた技術的な問題解決データが、小さいモデルの性能をブーストするのにとんでもなく効果的だって示されてるからね。
>研究結果でも、すごくキュレーションされた技術的な問題解決データが、小さいモデルの性能をブーストするのにとんでもなく効果的だって示されてるからね。
人間にも同じことが言えそうだよね。
もっとコメントを表示(1)
うん、俺が正しく理解してるなら、「すごく賢い先生は生徒の教育に奇跡を起こせる」ってことだよね。
蒸留された「残り物」じゃなくて、あのすごい「おばあちゃんモデル」から直接学べるアクセスが欲しかったなぁ。
最高のものを内部に留めるか、API利用を大幅に制限するのは、彼らにとって当然のことだよ。競争相手のラボに技術を渡したくないからね。
それが、おそらく彼らがGPT-4.5をAPIから削除した理由だろうね…あのモデルに高額を払ってでも使いたがってたのは、ほとんどが競合他社だっただろうから。(俺ならもっと払うけど、個人的な用途だとUIで十分だし、他の人が使う量と比べたら微々たるものだろうけどね。)
あるいは、OpenAIはAttentionアーキテクチャ以外の部分で本当の技術的進歩を遂げているってことかもしれない。GQA8とか、SWA 128とフルアテンションの切り替えとか、どれも普通に思えるしね。彼らは「モデルのアーキテクチャには秘密はない、お前らが中間・後処理訓練下手なだけだ」とでも言いたいのか、そう思わせたいのか。モデルはめちゃくちゃスパースだけどね、32:1だよ。
Kimi K2論文によると、MoEのスパース性スケーリング則でモデルのスパース性がパラメーターと共にめっちゃうまくスケールするってさ。Llama 4 MoEは「やり方間違ってる」って言われてるよ。だからK2は128:1のスパース性を持ってるんだって。
Kimi K2は384個中8個のエキスパートを使ってるから、スパース性は48:1じゃないの?128:1のスパース性があるのはLlama4 Maverickだけだよ。
君の言う通りだね。K2のスパース性の部分は間違って覚えてたわ。僕が「やり方間違ってる」って考えてたのは、scout -> maverick -> behemothってスパース性が何の公式にも従わず(薄い→濃い→薄い)スケールしないことだったんだ。
ああ、なるほどね。behemothがscoutと同じスパース性だったことに気づかなかったよ。確かにそれはかなりランダムに見えるね。
OpenAIの成功は、初期からのスタートとVC資金、コンテンツライセンスや専門家雇用みたいな、成熟した組織ができる「ソフト」な部分に帰結できるのが便利だよね。
OpenAIのMXFP4リリースは、彼らがコスト最適化でめちゃくちゃ使った結果だから、ある意味ギフトだね。オープンソースモデル提供者がやってないことだし、競争優位性でもある。Unslothの特殊な量子化はすごいけど、完全な量子化に比べてトレードオフが多い気がするわ。特にLLMの初回試行にはね。もしOpenAIがこれを本番でやってるなら面白いね。
120Bモデルを単一の80GB GPUに収めるために、モデルパラメーターの90%以上をMXFP4形式(4.25 bits/parameter)に量子化したってすごいね。でも彼らは後処理量子化じゃなくて、ネイティブFP4で実際に訓練したって言ってたよ。
ネイティブFP4は、このアーキテクチャで一番面白い部分の一つだと思うよ。FP8以下だと精度のトレードオフがあるって言われてるからね。彼らがどう対応したのか、FP8ウェイト(もしあれば)がどう機能したのか、気になるわ。
MXFP4はブロックスケールド形式で、ウェイトあたり4.25ビットなんだ。これって生のFP4(例えば1桁と2指数ビット)よりも、はるかに多くの数を表現できるんだよ。
関連する情報は、OpenAIのGitHubリポジトリでも見れるよ。
https://github.com/openai/gpt-oss
LLMについて、素人でも理解できるような入門書とか動画、信頼できるYouTubeチャンネルってどこにある?あなたが今話した専門用語とか概念、全部理解できるようになるためのやつなんだけど。
LLM研究の理解には、論文とかをChatGPT、Claude、Geminiに渡して用語を説明してもらうといいよ。分からない時は追加で質問。音声モードがおすすめ。
詳細不要でサマリーだけなら、NotebookLMで音声概要作って運動中に聞くのが便利。Anthropicの論文で試したら最高だった。
またバカな質問かもだけど、LLMが出す情報が正確かってどうやってわかるの?
ハルシネーションには注意しなきゃだけど、俺は主要モデルでまだ遭遇してないな。”embedding space”みたいな高レベル概念の質問は、文脈に合ってて他のソースと比べても大丈夫だったよ。小さいモデルや、文脈なしで曖昧な情報について聞くときは、もっと慎重になるべきだね。俺の質問は事実より概念がほとんどだから、MLトピックなら回答は信用できるね。
3blue1brownの素晴らしい動画があるけど、今となっては研究の全貌をカバーするのはほぼ無理だよね。でもgpt-ossにもいい説明がありそうだけどね ;)
Microsoftの”Generative AI for Beginners”ってGitHubリポジトリを試してみて。特に最初のほうの章は、背景知識の前提が少なくてもLLMアーキテクチャのいい基礎を教えてくれるよ。このシリーズの動画版も良い感じ。
この本はすごいよ(一部は著者ブログで読めるから味見してみてね): https://www.manning.com/books/build-a-large-language-model-f…
Andrej KarpathyのYouTube動画を試してみて。d2l.aiの”Dive into Deep Learning”っていう本もすごく良かったよ。
3blue1brownのニューラルネットとLLMに関するYouTubeシリーズから始めてみて。
Geminiに聞いてみて。むしろここにリンク貼って聞いちゃえば?
あと、Attention Sinksもあるよ(特別なトークンにアテンションを向けるより、アテンションSoftmaxで追加の学習済みLogitsとして実装されてるけどね)。
最初期の感想を投稿したよ。このリリースには情報が多すぎて、書き上げるのに数時間かかったんだ!
URL: https://simonwillison.net/2025/Aug/5/gpt-oss/
要するに、OpenAIは利用可能なOpen Weightモデルで中国のAI Labsからメダルを取り返したかもしれないって思う。独立したBenchmarksでもその方向になるか楽しみだね。20Bモデルは僕のMacノートPCで15GB未満のRAMで動くよ。
いい記事だね!モデルが推論できるか、一般的ななぞなぞを少し変形してテストしてみたんだ。「Bobのお父さんには5人の娘、Lala、Lele、Lili、Lolo、そして???」と聞いたら、20Bモデルは元なぞなぞの答えを返し続けたよ。追加情報を説明してもダメだったんだ。
Space Invadersのゲームは、あまり良いBenchmarkじゃないと思うな。両方のモデルがPromptを理解して、有効で動くJavaScriptを生成してた。片方がただ派手なGraphicsを追加しただけだよね。「派手なGraphicsを使う」ってSystem Promptに入ってるだけかもしれないし。
僕がこれらのPromptを走らせる方法は、System Promptを排除してるんだ。モデルに直接命令してるからね。
もっとコメントを表示(2)
でもさ、このOpenモデルに「洗練された派手なSpace Invadersゲーム」を生成させて、別のモデルに「最小限のCodeで簡素なSpace Invadersゲーム」を生成させたら、結果が逆転する可能性は十分あると思うよ。これはモデルのSpace Invaders生成能力じゃなくて、凝ったSolutionとシンプルなSolution、どっちを作る傾向があるかをテストしてるだけじゃないかな。
Streamlit DashboardをMACD、RSI、MA(200)で生成するテストをしたんだ。Qwen3が1対0で勝ったよ。Qwen3-Coder-30B 4-bit MLXは、ちゃんと動くDashboard、Graphs、最新Dataで完璧だった。GPT-OSS-20B MXFP4のCodeはdatatimeのImportが抜けてて、直してもDataが出ず、日付を調整してもUpdate MethodsがErrorになったんだ。
今のところ、OpenAIのモデルはCoding Benchmarksでは評価できないよ。彼らの宣伝に反して、高価なモデルでさえCodingはひどいんだ。だからこれは予想通りだね。もし他のTasksで優秀なら、それは勝ちだよ。特に、Gen AIを牽引したOpenAIがOpenモデルを公開せざるを得なくなったのは、Open Source Communityにとって間違いなく大きな勝利だね。これは以前はあり得なかったことだから。
あのBenchmarkの主な目的は、中程度の複雑さのChallengeに対して、モデルがErrorなしで動くHTMLとJavaScript Codeを生成できるか見ることだったんだ。これは包括的なBenchmarkじゃないよ。モデルが動作するJavaScriptを生成できるか、手軽に感触を掴むための、簡単な一文Promptとして最適なんだ。
いやいや、他のコメントしてる人たちが正しいと思うよ。これはモデルの基本的なCapabilityについて何も証明してない。単なる「Hello World」レベルのBenchmarkで、何の本当のValueも加えてないし、ただ君のBlog Traffic稼ぎになってるだけだね。
20BモデルがMacノートPCで15GB未満のRAMで動くって?俺も試そうとしてたんだ。どのプロセッサでどれくらいのTPS出てる?教えて!
Space Invadersのベンチマークは、モデルが単一のプロンプトから動くHTMLとJavaScriptのゲームを実装できることを証明してるんだ。これはモデルのかなり基本的な能力だね。完璧な比較じゃなくても、モデル間で比べると面白いよ:https://simonwillison.net/tags/space-invaders/
実装か、それとも検索か?それは重要な違いだね。モデルを評価する時は様々なテストをするけど、非公開のベンチマークが一番信頼できるよ。Space Invadersゲームは、正直なところベンチマークになってない。Googleで検索すれば、たくさん実装例が見つかるから。
コンテキストウィンドウをどう設定した?MacBookでモデルを使う時の主な問題はそこなんだ。コンテキストウィンドウを短くしなきゃいけないから、ホストされてるモデルより全然役に立たないんだよね。何か見落としてるかな?
OpenAIが最高のオープンウェイトモデルの称号を中国のAIラボから取り戻したって?全然違うよ。ツール呼び出しもテストしてないのに、なんでそんな結論に飛躍できるのか分からないな。コミュニティでは多くの人が、モデルがかなり”ロボトミー”されてて、「安全」ミームが広まってるって言ってるよ。もっと良いテストを開発して、ベンチマークにもっと注意を払うべきだよ。OpenAIのリリースから良い点もあったけど、もっと客観的な分析が欲しいね…
Space Invadersみたいなベンチマークは、学習データに入ってるから意味ないって批判をよく見るけど、俺はそうは思わないね。まず、12GBじゃ学習データからそんな大きなものをコピーしてそのまま出すなんて無理だよ。推論モデルの思考過程を見れば、どうやってアプローチを組み立てるかがわかるんだ。20B OpenAIモデルの例だよ:https://gist.github.com/simonw/63d7d8c43ae2ac93c214325bd6d60… 抜粋:
> 端検出:エイリアンのキャンバス幅に対する左右端の位置、エイリアン幅を引く。
> 方向が変わったら、エイリアンをステップ(例:10px)分下げる。
非公開ベンチマークはこれよりずっと単純な傾向があるよ。「舌骨の胚発生起源は?」みたいなね。
NVIDIAがいつか、これらのモデルのコーディングに特化した良いファインチューンを出してくれるだろうね。それは、より小さいQwen3 Coderと比べてもっと有利になるかもしれないな。
俺のブログを全部読んでくれたら、最後はこう締めくくってるよ:
> 状況が落ち着いて、独立した(俺の変なペリカンより信頼できる)ベンチマークが出回るのを待ってるけど、OpenAIが今、最高のオープンウェイトモデルを提供してる可能性が高いと思うね。
お前は早計だって俺を非難するけど、同じコメントで「OpenAIが取ったかもしれない」って引用してるじゃん。それは結論じゃなくて、あくまで暫定的な推測だよ。
こいつ、文章書いたり一般知識は全然ダメだね。個人的にはコーディングが圧倒的に得意だと思うわ。
12.8 GBは110 Gbitsくらい。モデルは260億もの“マイクロウェイト”を保存できる。1.4kトークンのスペースインベーダーコードは1.1kbで、モデルには余裕がある。LLMの記憶に関する論文はこれ:https://arxiv.org/abs/2312.11658。
SWE bench illusionでは、記憶されたGitHubイシューを除外すると、SOTAのコードLLMの結果が崩壊するって。これ:https://arxiv.org/pdf/2506.12286v1
COTスタイルの出力は誤解しやすいよ。Appleの幻想思考論文は、モデルがもっともらしい説明を適当に埋めるって言ってる。これ:https://arxiv.org/abs/2502.12896
つまり「エッジ検出」みたいな箇条書きは、アルゴリズム的計画の証拠じゃなくて、ただの演出かも。
モデルが本当にゲームを計画できるか知るには、ちゃんとしたベンチマークが必要だね。完璧なスペースインベーダーのスコアは、結局見たことあるコードのパターンマッチングが良いってだけかもよ。
LM Studioを使えばコンテキストウィンドウは自由に設定できるらしいよ。gpt-oss-20bだと最大131072だってさ。
これらのモデルがツールコーリングをどれくらいうまくこなすのか、すごく気になるな。数時間いじってみたけど、まだ動かせないんだよね。でも期待はできそう。
もしモデルが学習データを丸暗記して吐き出してるだけなら、なんで俺が試したモデルは毎回全然違うコード出すんだ?
多分、「ネットワークはそれらの間で補間するだけ」ってことなんだろうな。それが俺の望みだよ!今日4GBのQwenモデルでスペースインベーダーを試したら、エイリアンのグリッドを1歩進めたら、全部画面から消えちゃったよ。
ollamaで使える最高のローカルコーダーモデルって何だろう?ちょっと質問が漠然としすぎかな?俺はdeepseekモデルをローカルで超いい感じに動かせたよ。
それ読んだけど、HNのコメントについて俺が言ったことは変わらないよ。お前が慎重な分析もなしに大胆な発言をしてるって指摘したんだ。
お前にはたくさんの読者がいるんだから、「TLDR: OpenAIが中国のAIラボからオープンウェイトモデルの最優秀メダルを取り戻したと思う」って言った時、何やってるかわからないフリすんなよ。
それに、「結論」(お前、学術雑誌の結論読んだことあるだろ?)、T「思う」、「憶測」みたいな言葉を選んで、俺が指摘したことを正当化するな。
じゃあさ、結局こいつら何一つ得意なことないってことか。