メインコンテンツへスキップ

OpenAIがオープンモデルを公開!驚きの新展開か

·3 分
2025/08 AI LLM オープンソース OpenAI ローカルAI

OpenAIがオープンモデルを公開!驚きの新展開か

引用元:https://news.ycombinator.com/item?id=44800746

lackoftactics 2025/08/05 17:02:02

https://openai.com/index/introducing-gpt-oss/

cco 2025/08/05 21:13:25

本質を見逃してると思うぜ。gpt-oss:20bはMMLUでGemini-2.5-Proのすぐ後ろにつけるトップ10モデルで、俺は去年買ったMacbook Air M3でローカルで動かせたんだ。
いろんなローカルモデルを試してきたけど、1〜2年後にこうなると思ってた。でも今、それが起きたんだぜ。ほぼフロンティアモデルが、俺のラップトップで電気代だけで動いてるんだ。月200ドルのサブスクもいらないし、最高だよ。

captainregex 2025/08/05 22:02:47

ローカルAIの主要ユーザー層って誰なんだろ?無料利用したい学生や開発者かな?俺の経験だとQwen 2.5 VIとかのローカルモデルは画像からデータ抽出するだけでハルシネーションするし。小型モデルの向上とデバイスの進化を期待してるよ。Mac Studioを繋げたり、良いグラボを買うほどの主要なユースケースが見当たらないんだけど。exoみたいなツールはクールだけど、そんな努力に見合うエッジケースってある?

int_19h 2025/08/05 23:45:59

20bをローカルで試したけど、ラベル変えただけの基本的な川渡りパズルすら解けなかったよ。SOTAには程遠いね。実際、QwQ-32bとか、解ける他のローカルモデルよりひどいよ。

9rx 2025/08/06 05:32:29

親が同じ2人のUS presidents、ってやつを試したら、意図は理解してたんだけど、ジョー・バイデンが2024年の選挙に勝ったって言い張って、俺が何を言っても「それは間違い、ちゃんとした情報源で調べ直せ」って言われちゃったよ。

freehorse 2025/08/06 07:38:03

特定のモデルを責めるのはどうかと思うな。Anthropicはシステムプロンプトでtrumpが勝つって明記してるし。なぜかLLMはこれで混乱するんだよ。

jari_mustonen 2025/08/06 09:09:09

トレーニングデータに政治的偏りがあるんだよ。驚くことじゃないね。

regularfry 2025/08/06 09:21:49

多分、2020年にTrumpが勝たなかったって強く主張するソース資料がたくさんあって、それが後の年に一般化されてるんだと思うよ。これは政治的偏見じゃないね。

ben_w 2025/08/06 11:13:33

Trumpが2024年に勝ったってのは、めっちゃ変な話だね。もし2024年1月1日から今日まで昏睡状態だったとして、目が覚めてTrumpが大統領になってたって言われたら、冗談言われてるか、俺が騙されやすくなったか脳機能テストされてるか、って思うだろうな。

wizee 2025/08/05 22:22:12

プライバシー、データ保護、無制限利用、オフライン使用、オープンソースサポート、モデルがなくなる心配なし、検閲されてないモデルを使える自由がローカルモデルの主な利点だね。このOpenAIモデルは超検閲されてて「安全」だけど。ローカルの画像モデルの経験は少ないけど、テキストモデルはかなりいい感じだよ。Qwen 3 Coder 30B-A3Bはコード分析でめちゃくちゃ使ってるけど最高。最新のクラウドモデルほどじゃないけど、去年のSOTAクラウドモデルと同じくらい。家のサーバーでQwen 3 235B-A22B 2507 Instructも動かしてるけど、これもすごい。DDR4とGPUなしのサーバーじゃ遅いけど、Claude 4 Sonnetと同じくらい使えてる。

datadrivenangel 2025/08/05 21:42:51

さあ、ジェボンズのパラドックスを受け入れて、エージェント冷蔵庫が意識をシミュレートするまで、湖が干上がるほど使用量を増やしまくろうぜ。

ben_w 2025/08/06 12:18:42

>お前はバブルの中にいる。
そりゃ、大西洋の向こうから俺が頼れるのはインターネットだけだからな。その点ではAIみたいだわ。
2024年1月の俺の視点からすると、トランプが刑務所に入ってて共和党の候補にすらなれないと思ってたし、たとえ刑務所に入ってなくても、2021年1月6日のように振る舞った奴を共和党は候補にしたがらないと予想してたから、これは大きな驚きだよ。

M4R5H4LL 2025/08/05 22:35:28

+1。俺、金融業界で働いてるんだけど、組織外にデータやコードを送るなんて絶対無理。俺たちにはH100が自社にあるからな。

username332211 2025/08/06 13:53:55

最後の部分は完全に合ってると思うよ。共和党の幹部は誰もトランプの再選なんて望んでなかった。もし候補がトランプじゃなかったら、共和党は確実に勝てたはず。あの悪名高い討論会を想像してみてくれ、でもジョー・バイデンと対峙するのは50歳の若者さ。トランプを候補にしたがってたのはホワイトハウスだよ。彼らは共和党の予備選が始まるのと同時に、あからさまに政治的な起訴を連発して、共和党の有権者を思い通りに操ったんだ。それでも彼らは総選挙で負けたけどな。

FrustratedMonky 2025/08/06 15:17:15

民主党のホワイトハウスが共和党を操ってトランプに投票させたとでも思ってんのか?
つまり、トランプがいるのは民主党のせいだって?
マジかよ、次のレベルの言い訳だな。

dongobread 2025/08/05 22:32:41

最新のオープンウェイトモデルの状況、どれくらい知ってる? 数時間いじってみたけど、Qwen3-30B-A3Bには全然及ばないと感じたよ。特に世界知識がひどく不足してるんだ。

9rx 2025/08/06 15:53:47

>民主党のホワイトハウスが共和党を操ってトランプに投票させたと思ってるのか。
そう、彼はそう思ってるんだよ。コメント読んでないのか?ほら、まさにそこにあるだろ…。
彼も自分の理由を説明してたしな。もしトランプが党の指名争いに勝ってなかったら、もっと魅力的な選択肢(いわゆる「50歳の若者」)が出てきて、共和党の勝利は確実だったと彼は主張してる。つまり、ホワイトハウスはトランプが大統領選で負けることに賭けてた、ってことだよ。

FrustratedMonky 2025/08/06 17:56:58

「理由を説明した」って?
まあ、すごく突飛な憶測を筋の通った説明として受け止めてるなら、もう君には希望がないね。
たぶん民主党は、地球がエイリアンに侵略されそうだって知ってて、トランプが実はリザードマン(地球原産だから彼らの味方)だってことも知ってたんだろ。そしてトランプならエイリアンを倒せるから、秘密の精神支配能力を使って、民主党はトランプを勝たせて惑星を救うために彼の先進的なリザード技術を使わせたんだ。もちろん、これ全部裏で起こったことだけどな。
民主党がトランプを予備選で勝たせられるほどパワフルで skilful なのに、その後負けるなんて言われたら、そりゃなんか説明が必要だろ。俺は、トランプがすることは全部民主党のせいだっていう、こういうぶっ飛んだ主張ばっかり聞いてるんだ。顔を見るだけでおかしいって分かるだろ。たぶん自分の立場を明確に説明しなきゃいけないってなったら、「ああ、やっぱこれ意味不明だわ」って気づくだろうに。

9rx 2025/08/06 17:18:23

小児性愛とか少年愛の話で、エプスタイン事件が引き合いに出されてるね。
「Teen Mom」とか「16 and Pregnant」みたいな番組に反発があるのは当然。みんな子供を持つことを恥ずかしがる風潮にうんざりしてるんだよ。

9rx 2025/08/07 05:08:13

なんか、すごい憶測を事実みたいに語ってるけど、理屈と主張を混同してるよね?
人身攻撃の誤謬に陥ってるし。
「Trumpのことは全部民主党のせい」みたいな変な主張もしてるし、”狂った”連中のかかし論法も持ち出してる。
意味不明だよね。もっと立場を明確にしたら?

FrustratedMonky 2025/08/06 18:00:15

教会関係者や共和党員が未成年スキャンダルで捕まるケースが多すぎだろ。最近はそれが表沙汰になって、共和党は openly going with it、つまり公然とそれを容認してるみたいだね。彼ら、若い子が好きみたいだし。Epstein事件は、共和党がたまたま目を付けてただけって感じ。

FrustratedMonky 2025/08/07 12:21:29

いや、前のコメントは皮肉だったんだ。
「は?マジ?」ってくらいの極端な反応ってあるでしょ?
「Trumpがいるのは民主党のせいだ」って主張はよく見るよ。彼らを倒せなかった結果、今の事態があるって。でもさ、民主党が共和党の予備選を操るほど賢いのに、本選でコケるなんて、結局陰謀論にしか聞こえないんだよね。

filoleg 2025/08/06 01:12:48

大手法律事務所もリストに加えてほしいな。俺が知ってるだけでも、いくつもの法律事務所がLLMをローカルで動かしてる。実際はもっと多いだろうね。

canvascritic 2025/08/05 22:10:36

ローカルLLMは、データ共有に制限がある医療機関とか、高リスクな環境の組織、ITポリシーが厳しい組織にめっちゃ役立つよ。ハルシネーションの心配?それは汎用的に使いすぎようとするから。ローカルLLMは「このテキストをAかBに分類する」とか「これを特定フォーマットに整形する」みたいな、特定の用途に絞って使うのがベストなんだ。

CMay 2025/08/06 09:23:35

20Bモデルが、オオカミ、ヤギ、キャベツの川渡りパズルを高い推論設定で解けたんだ。他のモデルは、厳密な思考を促すプロンプトがないと無理だったのにね。
訓練データにあったかもしれないけど、解けるってのは意味がある。これまで見た中で、このパズルを解けた最小のモデルだよ。

9rx 2025/08/07 14:23:13

「Trumpがいるのは民主党のせい」って発言、あれは自分で言ったことじゃないの?
アフリカの蝶の羽ばたきくらい意味不明なジョークだね。民主党がTrumpを弱い相手だと見て、あえて彼と戦いたがった可能性は、変な話じゃないよ。
政治的に賢いわけじゃなく、たまたまTrumpの勝利を後押ししただけなら、それは単なる運で説明つく話さ。

atlasunshrugged 2025/08/06 02:29:55

政府も(政府機関を相手にする企業と一緒に)このリストに加えてくれ。

foundry27 2025/08/05 17:57:40

興味ある人向けにモデルカードだよ: https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7
正直、技術的には「まぁまぁ」って感じかな。DeepseekとかQwenみたいな最新技術は使ってないみたいだし。MoEモデルだけど、Deepseekの「共有エキスパート」とか、Qwenのロードバランス戦略とかもなし。一番面白いのは量子化だけど、Unslothももっとすごいことやってるしね。結局、彼らの真の技術的進歩は隠してるっぽいな。

highfrequency 2025/08/05 21:01:56

ここでの「秘密のソース」は蒸留(distillation)じゃないかな。彼らの最先端モデルの出力から作られた、すごく質の高い合成データで事前学習してるんだと思う。研究結果でも、すごくキュレーションされた技術的な問題解決データが、小さいモデルの性能をブーストするのにとんでもなく効果的だって示されてるからね。

asadm 2025/08/05 21:10:40

>研究結果でも、すごくキュレーションされた技術的な問題解決データが、小さいモデルの性能をブーストするのにとんでもなく効果的だって示されてるからね。
人間にも同じことが言えそうだよね。

もっとコメントを表示(1)
throw310822 2025/08/05 22:03:37

うん、俺が正しく理解してるなら、「すごく賢い先生は生徒の教育に奇跡を起こせる」ってことだよね。

tempaccount420 2025/08/05 21:30:59

蒸留された「残り物」じゃなくて、あのすごい「おばあちゃんモデル」から直接学べるアクセスが欲しかったなぁ。

ashdksnndck 2025/08/05 22:19:58

最高のものを内部に留めるか、API利用を大幅に制限するのは、彼らにとって当然のことだよ。競争相手のラボに技術を渡したくないからね。

saurik 2025/08/06 02:53:00

それが、おそらく彼らがGPT-4.5をAPIから削除した理由だろうね…あのモデルに高額を払ってでも使いたがってたのは、ほとんどが競合他社だっただろうから。(俺ならもっと払うけど、個人的な用途だとUIで十分だし、他の人が使う量と比べたら微々たるものだろうけどね。)

rfoo 2025/08/05 18:07:13

あるいは、OpenAIはAttentionアーキテクチャ以外の部分で本当の技術的進歩を遂げているってことかもしれない。GQA8とか、SWA 128とフルアテンションの切り替えとか、どれも普通に思えるしね。彼らは「モデルのアーキテクチャには秘密はない、お前らが中間・後処理訓練下手なだけだ」とでも言いたいのか、そう思わせたいのか。モデルはめちゃくちゃスパースだけどね、32:1だよ。

liuliu 2025/08/05 18:16:38

Kimi K2論文によると、MoEのスパース性スケーリング則でモデルのスパース性がパラメーターと共にめっちゃうまくスケールするってさ。Llama 4 MoEは「やり方間違ってる」って言われてるよ。だからK2は128:1のスパース性を持ってるんだって。

throwdbaaway 2025/08/05 22:40:25

Kimi K2は384個中8個のエキスパートを使ってるから、スパース性は48:1じゃないの?128:1のスパース性があるのはLlama4 Maverickだけだよ。

liuliu 2025/08/06 17:06:40

君の言う通りだね。K2のスパース性の部分は間違って覚えてたわ。僕が「やり方間違ってる」って考えてたのは、scout -> maverick -> behemothってスパース性が何の公式にも従わず(薄い→濃い→薄い)スケールしないことだったんだ。

throwdbaaway 2025/08/07 04:19:16

ああ、なるほどね。behemothがscoutと同じスパース性だったことに気づかなかったよ。確かにそれはかなりランダムに見えるね。

nxobject 2025/08/05 20:54:23

OpenAIの成功は、初期からのスタートとVC資金、コンテンツライセンスや専門家雇用みたいな、成熟した組織ができる「ソフト」な部分に帰結できるのが便利だよね。

tgtweak 2025/08/05 19:46:09

OpenAIのMXFP4リリースは、彼らがコスト最適化でめちゃくちゃ使った結果だから、ある意味ギフトだね。オープンソースモデル提供者がやってないことだし、競争優位性でもある。Unslothの特殊な量子化はすごいけど、完全な量子化に比べてトレードオフが多い気がするわ。特にLLMの初回試行にはね。もしOpenAIがこれを本番でやってるなら面白いね。

logicchains 2025/08/05 18:08:12

120Bモデルを単一の80GB GPUに収めるために、モデルパラメーターの90%以上をMXFP4形式(4.25 bits/parameter)に量子化したってすごいね。でも彼らは後処理量子化じゃなくて、ネイティブFP4で実際に訓練したって言ってたよ。

rushingcreek 2025/08/05 19:11:34

ネイティブFP4は、このアーキテクチャで一番面白い部分の一つだと思うよ。FP8以下だと精度のトレードオフがあるって言われてるからね。彼らがどう対応したのか、FP8ウェイト(もしあれば)がどう機能したのか、気になるわ。

buildbot 2025/08/06 00:18:36

MXFP4はブロックスケールド形式で、ウェイトあたり4.25ビットなんだ。これって生のFP4(例えば1桁と2指数ビット)よりも、はるかに多くの数を表現できるんだよ。

mclau157 2025/08/05 19:43:55

関連する情報は、OpenAIのGitHubリポジトリでも見れるよ。
https://github.com/openai/gpt-oss

unethical_ban 2025/08/05 22:29:36

LLMについて、素人でも理解できるような入門書とか動画、信頼できるYouTubeチャンネルってどこにある?あなたが今話した専門用語とか概念、全部理解できるようになるためのやつなんだけど。

tkgally 2025/08/06 00:21:36

LLM研究の理解には、論文とかをChatGPT、Claude、Geminiに渡して用語を説明してもらうといいよ。分からない時は追加で質問。音声モードがおすすめ。
詳細不要でサマリーだけなら、NotebookLMで音声概要作って運動中に聞くのが便利。Anthropicの論文で試したら最高だった。

tshannon 2025/08/06 18:40:07

またバカな質問かもだけど、LLMが出す情報が正確かってどうやってわかるの?

tkgally 2025/08/06 22:47:24

ハルシネーションには注意しなきゃだけど、俺は主要モデルでまだ遭遇してないな。”embedding space”みたいな高レベル概念の質問は、文脈に合ってて他のソースと比べても大丈夫だったよ。小さいモデルや、文脈なしで曖昧な情報について聞くときは、もっと慎重になるべきだね。俺の質問は事実より概念がほとんどだから、MLトピックなら回答は信用できるね。

umgefahren 2025/08/05 22:47:05

3blue1brownの素晴らしい動画があるけど、今となっては研究の全貌をカバーするのはほぼ無理だよね。でもgpt-ossにもいい説明がありそうだけどね ;)

nonfamous 2025/08/06 01:00:57

Microsoftの”Generative AI for Beginners”ってGitHubリポジトリを試してみて。特に最初のほうの章は、背景知識の前提が少なくてもLLMアーキテクチャのいい基礎を教えてくれるよ。このシリーズの動画版も良い感じ。

cwyers 2025/08/06 15:19:52

この本はすごいよ(一部は著者ブログで読めるから味見してみてね): https://www.manning.com/books/build-a-large-language-model-f

CanuckPro 2025/08/05 23:36:10

Andrej KarpathyのYouTube動画を試してみて。d2l.aiの”Dive into Deep Learning”っていう本もすごく良かったよ。

srigi 2025/08/05 22:38:42

3blue1brownのニューラルネットとLLMに関するYouTubeシリーズから始めてみて。

reilly3000 2025/08/06 01:57:10

Geminiに聞いてみて。むしろここにリンク貼って聞いちゃえば?

danieldk 2025/08/05 19:20:46

あと、Attention Sinksもあるよ(特別なトークンにアテンションを向けるより、アテンションSoftmaxで追加の学習済みLogitsとして実装されてるけどね)。

simonw 2025/08/05 20:46:07

最初期の感想を投稿したよ。このリリースには情報が多すぎて、書き上げるのに数時間かかったんだ!
URL: https://simonwillison.net/2025/Aug/5/gpt-oss/
要するに、OpenAIは利用可能なOpen Weightモデルで中国のAI Labsからメダルを取り返したかもしれないって思う。独立したBenchmarksでもその方向になるか楽しみだね。20Bモデルは僕のMacノートPCで15GB未満のRAMで動くよ。

EagnaIonat 2025/08/06 12:00:26

いい記事だね!モデルが推論できるか、一般的ななぞなぞを少し変形してテストしてみたんだ。「Bobのお父さんには5人の娘、Lala、Lele、Lili、Lolo、そして???」と聞いたら、20Bモデルは元なぞなぞの答えを返し続けたよ。追加情報を説明してもダメだったんだ。

markasoftware 2025/08/06 03:05:22

Space Invadersのゲームは、あまり良いBenchmarkじゃないと思うな。両方のモデルがPromptを理解して、有効で動くJavaScriptを生成してた。片方がただ派手なGraphicsを追加しただけだよね。「派手なGraphicsを使う」ってSystem Promptに入ってるだけかもしれないし。

simonw 2025/08/06 04:50:01

僕がこれらのPromptを走らせる方法は、System Promptを排除してるんだ。モデルに直接命令してるからね。

もっとコメントを表示(2)
markasoftware 2025/08/06 05:03:05

でもさ、このOpenモデルに「洗練された派手なSpace Invadersゲーム」を生成させて、別のモデルに「最小限のCodeで簡素なSpace Invadersゲーム」を生成させたら、結果が逆転する可能性は十分あると思うよ。これはモデルのSpace Invaders生成能力じゃなくて、凝ったSolutionとシンプルなSolution、どっちを作る傾向があるかをテストしてるだけじゃないかな。

hrpnk 2025/08/05 21:50:51

Streamlit DashboardをMACD、RSI、MA(200)で生成するテストをしたんだ。Qwen3が1対0で勝ったよ。Qwen3-Coder-30B 4-bit MLXは、ちゃんと動くDashboard、Graphs、最新Dataで完璧だった。GPT-OSS-20B MXFP4のCodeはdatatimeのImportが抜けてて、直してもDataが出ず、日付を調整してもUpdate MethodsがErrorになったんだ。

teitoklien 2025/08/05 22:13:36

今のところ、OpenAIのモデルはCoding Benchmarksでは評価できないよ。彼らの宣伝に反して、高価なモデルでさえCodingはひどいんだ。だからこれは予想通りだね。もし他のTasksで優秀なら、それは勝ちだよ。特に、Gen AIを牽引したOpenAIがOpenモデルを公開せざるを得なくなったのは、Open Source Communityにとって間違いなく大きな勝利だね。これは以前はあり得なかったことだから。

simonw 2025/08/06 05:12:32

あのBenchmarkの主な目的は、中程度の複雑さのChallengeに対して、モデルがErrorなしで動くHTMLとJavaScript Codeを生成できるか見ることだったんだ。これは包括的なBenchmarkじゃないよ。モデルが動作するJavaScriptを生成できるか、手軽に感触を掴むための、簡単な一文Promptとして最適なんだ。

dennisy 2025/08/06 12:56:19

いやいや、他のコメントしてる人たちが正しいと思うよ。これはモデルの基本的なCapabilityについて何も証明してない。単なる「Hello World」レベルのBenchmarkで、何の本当のValueも加えてないし、ただ君のBlog Traffic稼ぎになってるだけだね。

GodelNumbering 2025/08/05 21:35:52

20BモデルがMacノートPCで15GB未満のRAMで動くって?俺も試そうとしてたんだ。どのプロセッサでどれくらいのTPS出てる?教えて!

simonw 2025/08/06 13:59:51

Space Invadersのベンチマークは、モデルが単一のプロンプトから動くHTMLとJavaScriptのゲームを実装できることを証明してるんだ。これはモデルのかなり基本的な能力だね。完璧な比較じゃなくても、モデル間で比べると面白いよ:https://simonwillison.net/tags/space-invaders/

lossolo 2025/08/06 16:28:11

実装か、それとも検索か?それは重要な違いだね。モデルを評価する時は様々なテストをするけど、非公開のベンチマークが一番信頼できるよ。Space Invadersゲームは、正直なところベンチマークになってない。Googleで検索すれば、たくさん実装例が見つかるから。

coltonv 2025/08/05 21:38:17

コンテキストウィンドウをどう設定した?MacBookでモデルを使う時の主な問題はそこなんだ。コンテキストウィンドウを短くしなきゃいけないから、ホストされてるモデルより全然役に立たないんだよね。何か見落としてるかな?

h4ny 2025/08/06 04:13:57

OpenAIが最高のオープンウェイトモデルの称号を中国のAIラボから取り戻したって?全然違うよ。ツール呼び出しもテストしてないのに、なんでそんな結論に飛躍できるのか分からないな。コミュニティでは多くの人が、モデルがかなり”ロボトミー”されてて、「安全」ミームが広まってるって言ってるよ。もっと良いテストを開発して、ベンチマークにもっと注意を払うべきだよ。OpenAIのリリースから良い点もあったけど、もっと客観的な分析が欲しいね…

simonw 2025/08/06 19:19:52

Space Invadersみたいなベンチマークは、学習データに入ってるから意味ないって批判をよく見るけど、俺はそうは思わないね。まず、12GBじゃ学習データからそんな大きなものをコピーしてそのまま出すなんて無理だよ。推論モデルの思考過程を見れば、どうやってアプローチを組み立てるかがわかるんだ。20B OpenAIモデルの例だよ:https://gist.github.com/simonw/63d7d8c43ae2ac93c214325bd6d60… 抜粋:
> 端検出:エイリアンのキャンバス幅に対する左右端の位置、エイリアン幅を引く。
> 方向が変わったら、エイリアンをステップ(例:10px)分下げる。
非公開ベンチマークはこれよりずっと単純な傾向があるよ。「舌骨の胚発生起源は?」みたいなね。

pxc 2025/08/06 00:06:25

NVIDIAがいつか、これらのモデルのコーディングに特化した良いファインチューンを出してくれるだろうね。それは、より小さいQwen3 Coderと比べてもっと有利になるかもしれないな。

simonw 2025/08/06 04:45:57

俺のブログを全部読んでくれたら、最後はこう締めくくってるよ:
> 状況が落ち着いて、独立した(俺の変なペリカンより信頼できる)ベンチマークが出回るのを待ってるけど、OpenAIが今、最高のオープンウェイトモデルを提供してる可能性が高いと思うね。
お前は早計だって俺を非難するけど、同じコメントで「OpenAIが取ったかもしれない」って引用してるじゃん。それは結論じゃなくて、あくまで暫定的な推測だよ。

dongobread 2025/08/05 22:33:31

こいつ、文章書いたり一般知識は全然ダメだね。個人的にはコーディングが圧倒的に得意だと思うわ。

lossolo 2025/08/06 21:10:04

12.8 GBは110 Gbitsくらい。モデルは260億もの“マイクロウェイト”を保存できる。1.4kトークンのスペースインベーダーコードは1.1kbで、モデルには余裕がある。LLMの記憶に関する論文はこれ:https://arxiv.org/abs/2312.11658。
SWE bench illusionでは、記憶されたGitHubイシューを除外すると、SOTAのコードLLMの結果が崩壊するって。これ:https://arxiv.org/pdf/2506.12286v1
COTスタイルの出力は誤解しやすいよ。Appleの幻想思考論文は、モデルがもっともらしい説明を適当に埋めるって言ってる。これ:https://arxiv.org/abs/2502.12896
つまり「エッジ検出」みたいな箇条書きは、アルゴリズム的計画の証拠じゃなくて、ただの演出かも。
モデルが本当にゲームを計画できるか知るには、ちゃんとしたベンチマークが必要だね。完璧なスペースインベーダーのスコアは、結局見たことあるコードのパターンマッチングが良いってだけかもよ。

hrpnk 2025/08/05 21:51:37

LM Studioを使えばコンテキストウィンドウは自由に設定できるらしいよ。gpt-oss-20bだと最大131072だってさ。

rmonvfer 2025/08/05 21:42:19

これらのモデルがツールコーリングをどれくらいうまくこなすのか、すごく気になるな。数時間いじってみたけど、まだ動かせないんだよね。でも期待はできそう。

simonw 2025/08/07 01:44:02

もしモデルが学習データを丸暗記して吐き出してるだけなら、なんで俺が試したモデルは毎回全然違うコード出すんだ?
多分、「ネットワークはそれらの間で補間するだけ」ってことなんだろうな。それが俺の望みだよ!今日4GBのQwenモデルでスペースインベーダーを試したら、エイリアンのグリッドを1歩進めたら、全部画面から消えちゃったよ。

iJohnDoe 2025/08/06 00:53:06

ollamaで使える最高のローカルコーダーモデルって何だろう?ちょっと質問が漠然としすぎかな?俺はdeepseekモデルをローカルで超いい感じに動かせたよ。

h4ny 2025/08/06 05:11:00

それ読んだけど、HNのコメントについて俺が言ったことは変わらないよ。お前が慎重な分析もなしに大胆な発言をしてるって指摘したんだ。
お前にはたくさんの読者がいるんだから、「TLDR: OpenAIが中国のAIラボからオープンウェイトモデルの最優秀メダルを取り戻したと思う」って言った時、何やってるかわからないフリすんなよ。
それに、「結論」(お前、学術雑誌の結論読んだことあるだろ?)、T「思う」、「憶測」みたいな言葉を選んで、俺が指摘したことを正当化するな。

mplewis 2025/08/06 00:39:31

じゃあさ、結局こいつら何一つ得意なことないってことか。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。