Kimi K2 Thinking、オープンソースでSOTAを達成!驚異の1兆パラメータ推論モデルが登場!
引用元:https://news.ycombinator.com/item?id=45836070
中国ユーザーとして言うと、Kimiは個人的にはあまり使わないけど、多くの人が使ってるよ。中国のオープンソース戦略って、オープンソースの精神に沿ってるだけでなく、国内企業が無謀な投資でイマイチなモデルを作るのを防いで、みんなを高い基準からスタートさせるんだ。アメリカ、日本、ヨーロッパの小企業もQwenとかKimiをベースにしてるしね。DeepSeekとかが登場する前は、モデルの品質が結構悪かったけど、オープンソース戦略ができてからは、企業はモデルを改善せざるを得なくなったんだ。
最終的にモデル間の競争はエネルギー競争になるけど、中国のオープンソースモデルはエネルギー消費で大きな優位性があるし、中国自体もエネルギー資源でめちゃくちゃ有利だよ。アメリカを必ずしも超えるとは限らないけど、大きく遅れを取ることはないだろうね。
今のモデルって brute force しすぎじゃない?1兆パラメータも必要で、トレーニングや推論にめちゃくちゃお金がかかる理由なんて正直ないと思うんだよね。エネルギーが問題になってきたら、物理ハードウェアもモデル設計も、もっと効果的で効率的なアーキテクチャにシフトしていくはずだよ。あとは、サービスの料金を上げれば、無意味な利用も減るだろうね。
Kimi K2 Thinkingのトレーニングには460万ドルかかったって噂だよ。「関係筋」によるとね: https://www.cnbc.com/2025/11/06/alibaba-backed-moonshot-rele…
個人的に最近の中国モデルで一番面白いのはMiniMax M2かな。200Bパラメータしかないのに、コーディングだとSonnet 4に匹敵するベンチマークが出てるんだ。これなら5,000ドルくらいのハードウェアで十分動くから、1Tモデルみたいにものすごく高価なマシンは必要ないよ。
エネルギー問題は中国よりもアメリカで深刻になりそうだね。詳しくはこちらを読んでみて: https://fortune.com/2025/08/14/data-centers-china-grid-us-in…
君たち、間違いなくアメリカを追い越すよ。AIに必要なエネルギーの生産量はアメリカの何倍もあるし、オープンソースだから、高いベースラインからスタートできて、開発も速いもんね。
それは違うな。中国がより多くの電力を生産してる(そして汚染してる)理由の一部は、アメリカの製造業のために生産してるからだよ。https://www.brookings.edu/articles/how-do-china-and-america-…
中国のエネルギー源はアメリカより脆弱なんだ。中国は圧倒的に石炭に依存してるけど、アメリカは石油、天然ガス、石炭、原子力、水力、再生可能エネルギーとバランスが取れてるからね。あと、GDPあたりの電力使用量も中国の方が20%くらい非効率なんだ。中国は石炭と輸入に頼ってるし、製造業の需要に供給が追いつかなくて停電が起きることもあるんだよ。Fortuneの記事はちょっと甘いんじゃないかな。https://www.npr.org/2021/10/01/1042209223/why-covid-is-affec… https://www.bbc.com/news/business-58733193
話はそれるけど、ヨーロッパって競争できてるのかな?Mistralはちょっと期待外れだったよね。
2021年の状況はあまり覚えてないけど、中国は今、技術爆発の時期だよ。ものすごい速さでいろんなことが変わってるんだ。たった数年で、中国は様々な分野で完全に変貌を遂げている可能性があるよ。欧米メディアは未だに中国の政治システムに強い偏見を持ってるし、中国のリアルな状況を伝えるにはあまりにも不足してる。いつもの「中国は資本主義だから成功した」とか「中国は共産主義だから終わる」みたいな話ばかりだよね。
でも実際には、中国では数日おきに新しい技術的ブレイクスルーやイノベーションが起きてるんだ。進歩のペースが速すぎて、国内の人ですら追いつけないくらいだよ。例えば、11月に入ってからだけでも、中国の宇宙ステーションの乗組員が軌道上でバーベキューしたり、合肥の研究者が人工太陽で新しい進展を見せたり、芳香族アミンを安全かつ効率的に調製する方法を発見したりしてるんだ。宇宙ステーションの件は多少注目されたけど、他はほとんど話題にもならなかったね。
あと、中国初の電磁カタパルト航空母艦も約1年前に正式に就役してるんだよ。
Redditを本格的に使い始めた約1年前から、環境保護やトランプへの憎悪とかが絡むせいで、電力に関する報告をよく読むんだけど、左派が多すぎて議論は少し偏ってるんだ。でも、関連ニュースや原子力データは本当だよ。中国は2025年にカーボンピークに達する予定だし、今年は本当に電力大国になってる。全国のデータセンターはどんどん建設されてるけど、住宅用電気料金はこれまでもこれからも影響を受けないよ。
中国にはまだ多くの石炭火力発電があるけど、技術アップグレードを継続して実施してる。同時に、風力、太陽光、原子力などのすべての電源が着実に進展してるんだ。中国はイデオロギーに支配されずに、科学的な方法で電力供給能力を増やしている唯一の国だよ。(AI分野ではもっと話されるかもしれないね。Kimiが新しいモデルをリリースしただけでなく、Xpengが新しいロボットを発表して注目を集めるなど、これらはすべて数日間のうちに起こっていることなんだ)。
460万ドルって、電気代だけのことかな?
ヨーロッパの状況は知らないけど、Mistralに十分満足してるから、他を探す必要ないね。スマートカーだらけの世の中でToyota Corollaに乗ってる感じだけど、ちゃんと使えるんだ。それに、他の製品には見られない熱心なコミュニティもあるよ。いつも最新のKimi K2みたいなチャットモデルを追いかけてたら、何も達成できないもんね。
その情報源は不明だけど、トレーニング費用って電気代だけじゃなく、クラウドハードウェアのレンタル料(NVIDIA H100とか)も含むのが普通だよね。でも、人件費は含まないことが多いみたいだよ。
中国は21世紀のイノベーションをまさに勝ち取ってるよね!朝の記事でトリウム炉搭載貨物船を開発してるって読んで、本当に感動したよ。すごいね。
5,000ドルくらいのハードウェアで動くって話、どこから来たの?めちゃくちゃ小さいquantsの話じゃなきゃ、Q4 quant ggufだけでも130GBくらいあるし、そんな安い方法でこのサイズのモデルをちゃんと動かせるの?Mac Studioのことかな?でも、それで“うまく動く”のかって議論もあるみたいだけどね。
“一般的にトレーニング費用には人件費は含まない”って主張、根拠が必要だね。人件費を除外するのは単に間違いだよ。エンジニア一人に年間100万ドル以上かかるんだから、必ず計上すべきだろ。
このトリウム技術って昔アメリカが開発してたんだよ。でも、アメリカは諦めちゃって、中国が近年になってその研究を続けてるんだよね。
“中国はイデオロギーに支配されず、科学的に電力容量を増やしている”って、最近SNS(Instagram, TikTok、それにHNでも変だけど)で親CCPプロパガンダをよく見かけるよね。中国が台湾への侵略を強めたら、アメリカは介入せざるを得ないだろうし、5〜10年後には状況がひどいことになりそうだね。
Mistralとか、エージェントコーディングで保守性求めると全然ダメなんだよね。Sonnet 4.5もGemini Pro 2.5も苦戦するし、GPT-5は良くなってるけど高くて遅い。Cerebras GLM-4.6はSonnet 4くらいで、値段はいいけど。まだ頼りになるモデルはないから、あと5〜10年は色んなモデルを試すことになると思うな。今でも価値はあるけど、もっと良くならないとね。
うん、Mac StudioとMLXの話だよ。M3 UltraでRAM 256GBなら5599ドルだけど、これでMiniMax M2の8bit版をMLXで動かせるはず。
https://huggingface.co/mlx-community/MiniMax-M2-8bit
もっと小さい量子化モデルなら、他のアプリ用にメモリ残せるしね!4bit MLX版のパフォーマンスはこれ見てみて。30トークン/秒以上出てるよ。
https://x.com/ivanfioravanti/status/1983590151910781298
DeepSeekのトレーニング費用が550万ドルって、そんなわけないだろ。最終的なトレーニングだけならあり得るかもしれないけど、失敗したランとか他の費用全部含めたら数億ドルかかるよ。Grokだって『ビッグ4』に入るのに10億ドル以上(エネルギーとチップだけで5億ドル)もかかったんだからね。
この記事は2021年の話だよ。中国は過去1年で8時間ごとに1GWの太陽光発電を増やしてて、そのペースは加速中。エネルギー生産に関しては、もうアメリカは中国のライバルじゃないね。
研究者が1000人もいて、同時に何十ものトレーニングランを走らせてる状況で、どうやって給料を割り振るんだ?会計上、GPU-hoursでコスト計算する方がはるかに楽なんだよ。論文でもトレーニングコストはみんなGPU-hoursで書いてるよね。GPT-OSSは210万H100-hours、Llama 2は331万A100-80G GPU-hoursって言ってたけど、実際のドルコストや人件費まで含めてるのは見たことないな。
これは特定のトピック、つまり電力についてだけ言ってるんだ。他のことで議論してもHNはRedditと同じ政治的傾向だから、それはやめとくわ。
そんな理屈を使えば、本当のコストには半導体産業への総投資とか、国家の送電網、教育、さらには防衛みたいなインフラ費用も全部含めるべきだって議論もできちゃうよね。
株価の hypeや地政学的な競争も絡んでるね。アメリカの大手テック企業はみんな同じ流れに乗ってるんだ—チップを買って、データセンター作って、新しいモデル出して、またチップを買うっていうサイクルを維持しなきゃいけない。電力問題が本当に無理になったら止まるかもね。アメリカの具体的な状況は完全に理解してるわけじゃないけど、いつかアメリカから完全に逃げ出して、資源を確保するために中東に移っちゃうんじゃないかとさえ感じるよ。
中国の猛烈な発展は、多くのUSの人には理解しがたいものだよ(根底には鈍い国内成長を基準にしてたり、中国を軽視してたりするのがある)。この記事は、中国が今どうしてるかについて、このURL: https://archive.is/wZes よりもずっと正確な状況を描写してるね。
失敗した実験のコストも含まれてるのかな?
コーディングだけが唯一の使い道じゃないし、最先端である必要もないんだ。俺はMistralのモデルを使ってて、OCRから要約、JiraやTeamsみたいな別サービスとの連携まで、Mistralの製品を使って社内知識パイプラインを丸ごと作ったんだけど、すごく満足してるよ。他の選択肢も検討したけど、正直どれもMistralほど費用対効果が高くて、速くて、満足いくものはなかったな(それにうちの会社はUSのAI企業が俺たちのデータをどうするか信用してないんだ)。
たぶん見てないだけだね。AnthropicはUSで“loyalty”争いをリードしてるみたいだし。
“The tech is from America actually, decades ago… But they give up and China continues the work”みたいなケース、たくさんあるよね。
これ、どうやって使うの?
もっとコメントを表示(1)
ってことはさ、Google Cloudみたいな推論プロバイダーとかZDRとかに、自分のデータを預けちゃダメってこと?
こうやって使うんだよ。
uv tool install llm
llm install llm-moonshot
llm keys set moonshot # キーを貼り付け
llm -m moonshot/kimi-k2-thinking ’Generate an SVG of a pelican riding a bicycle’
OpenRouterのmoonshotai/kimi-k2-thinkingを使ったらこうなったよ: https://tools.simonwillison.net/svg-render#%3Csvg%20width%3D...Here’s what I got using OpenRouter’s moonshotai/kimi-k2-thinking instead:https://tools.simonwillison.net/svg-render#%20%20%20%20%3Csv…
新しいモデルが出るたびに、このベンチマークがどんどん有名になるのいいよね。GPT-5系の性能は信じられないくらいだけど、新しいオープンソースモデルがもっと意欲的になっていくのはマジでカッコいいわ。
でもなんでこれがベンチマークなの?知能とは関係ないじゃん。
知能とより相関するテストって何?それと、なんで?
機械がうつ病になったり不安になったりしたら、本当の知能を手に入れたって分かるだろうね。半分は冗談だけど。
1兆パラメータのモデルって、どこで動かすの?
それ、もう起きてるよ!CLI AIツールがイライラして諦めて、コードベースを全部怒って消しちゃったって報告がたくさんあるんだよ。
CLI AIツールが人間がイライラしたり諦めたりする時に出す言葉を表示するって報告は多いよね。それって訓練データにあったからでしょ。感情があるって意味じゃないよ。“コードベースを全部消す”ってのも面白いけど、それも同じだと思うな。“イライラ”する言葉が“イライラ”する行動につながってるだけで、LLMがイライラしたわけじゃない。訓練データにあったから模倣しただけだよ。
これって根本的な哲学の問題だよな、明確な答えはないし。人間や動物についても同じことが言えるんじゃない?
家でやるならik_llama.cppがおすすめだよ。メモリ帯域幅が広いサーバーとGPUがあれば、このサイズのモデルもそこそこ動く。控えめなワークステーションでも6-10 tok/s出るらしい。ただし、Thinkingでトークン消費が多いから大変だけどね。
彼らがこのテストをトレーニングデータに入れ始めるまでの話でしょ、結局。
人間や動物には感情をつかさどる肉体や神経系があるけど、コンピューターやLLMにはないんだよ。LLMは人間のテキスト応答をシミュレートするだけ。そこから感情へどうつながるの?って感じ。
OpenRouterの人たちに任せとけばいいんじゃない?
1兆パラメータモデルを動かすのに、どんなサーバー使ったの?マジで知りたいから、もっと詳しく教えてほしいな。
媒体と表現されるものを混同しないでくれよ。ポルノは写真だろうと油絵だろうとポルノだろ。感情は、ぐにゃぐにゃの肉の脳で感じられようが、コンピューターの完璧なシミュレーションで感じられようが、感情は感情だよ。個々の神経細胞に感情がないなら、お前にも感情がないことになるぞ。
参考:https://www.mit.edu/people/dpolicar/writing/prose/text/think…
OpenRouterの結果は量子化されたホスティングプロバイダーから来てるんじゃないかな。Moonshotの直接APIコールとは全然違うし。OpenRouterがAPIレベルで量子化制限してるせいで、なんか変なユーザー/開発者体験になってるよ。
実行時って、一貫性を保つために温度を0に固定してるの?
データセット汚染だけじゃ、SVGで自転車に乗った良い感じのペリカンは作れないよ。特定の質問をチートするか、ベクトルイラスト全般を学習させるかしないと。そうしたら、データにない別の問題に簡単に変えられるけどね。
気象予測のシミュレーションって本物の天気と同じだと思ってんの?SFが必ずしも科学じゃないのと同じだよな。
OpenRouterはMoonshotに直接プロキシしてるみたいだね。今んとこ、https://openrouter.ai/moonshotai/kimi-k2-thinking/providers で唯一のプロバイダーとして載ってるよ。
最初はジョークだったけど、なぜか時間とともにこの特定のタスクの性能が、モデル全体の良さと相関してるみたいなんだよね。なんでかはよくわかんないけど!
人間には結果が簡単に想像できるくらいシンプルなのに、生成AIにとってはなぜか難しいんだよな、このタスクは。
Simonさん、俺の環境はXeon W5-3435XにDDR5 768GB、A4000sが7枚だよ。Xeon sapphire rapidsはメモリ帯域がスペックより低いからおすすめしないな。次に組むならEPYCにDDR5 12チャンネル、rtx 6000 pro blackwellだな。こっちのが楽で速そう。
DeepSeekを自宅で動かすのについてLevel1Techsにいいスレッドがあるんだけど、Kimi K2にもだいたい当てはまるよ。
https://forum.level1techs.com/t/deepseek-deep-dive-r1-at-hom…
俺はビジュアル思考のベンチマークとして、ASCIIアート図の方が好きだな。SVGみたいに2段階のプロセスが必要だし、テキスト要素の想像的な再利用もテストできるからね。
客観的とか定量的だとは言わないけど、「自転車に乗るペリカン」みたいな良いデザインを人間でも考えるのが難しいから、これは面白いタスクだと思うんだ。あと、あら探しするやつ注意ね!
これはGPTが生きているって言い張るような、はっきりしないタイプの人たちだけの問題に見えるな。
それにはTurboエンドポイント、つまりmoonshotai/turboも含まれるよ。フルモデルだけを使いたいなら、プロンプトにこれを入れるといいよ。
-o provider ’{
”only”: [”moonshotai”]
}’
これが知能と相関させようとしてないからこそ、クールで役に立つんだと思うんだ。LLMを評価する上で、直感的に有用だと感じるちょっとニッチなものだよね。エルフかどうかを教えてくれるテストより、コレステロールを測るテストの方がずっといいじゃん!
世界モデルの認識が重要だよね。今のモデルにはそれがないけど、中にはうまく近似できるのもあるよ。
もっとコメントを表示(2)
気象シミュレーションは本物の天気と同じかって?もし十分正確なら、そうだよ、それが天気だ。僕らはただ宇宙の織りなす波紋にエンコードされた情報に過ぎないんだ。
訓練セットにない数学の問題は、数学的・論理的推論が知能だとみんなが思ってるからだよ。Einsteinやvon Neumannだって、このSVG問題は解けないだろうけど、だからって彼らがバカってことにはならないよね?
競争とオープンソースは良いけど、1兆パラメータより小さいLLM+エージェントのコーディングや推論性能に興味があるな。ローカルや手頃なクラスタで動くのが理想だ。
OpenAIの当初の目標はAIを全人類に役立てることだったのに、今はAIが金持ちだけのもので、格差が広がりそうで心配だよ。
小さいLLM+エージェントの性能に期待するって?それ、もう見てるんじゃない?そういうモデルは存在するし、みんな良いものを作ろうとしてるけど、結果はイマイチなんだ。もし小さいモデルで良いものが作れるなら、今デカいモデルが良いはずがないでしょ?もちろん、新しいアイデアで状況は変わるだろうけどね。
”オープンソース”ってのは、全部の学習データからモデルを最初から最後まで訓練できるスクリプトがあるべきだろ。バイナリ形式の推論スクリプトやモデルを配布して、”オープンソース”って呼ぶのはやめてほしいよ。
確かにね。でもそれがポイントなんだ。今のローカルで動くモデルはSOTAには遠いから、そっち方面の研究と実験がもっと増えるといいな。S/W開発用に特化した小さいモデルやエージェントをたくさん用意するのはどうかな?計画用とかコーディング用とかね。
CSアルゴリズムだと、空間と時間のトレードオフがあるよね。LLMだと、重さの大きさ vs テスト時の計算時間のトレードオフになるんだ。小さいモデルでも目標は達成できるだろうけど、時間がかかるだろうね。
モデルの世界では”オープンソース”は”オープンウェイト”って意味になってるんだよ。それが現状。言葉はコミュニケーションのために使うものだし、むしろ君が言葉を誤用してるんじゃない?モデルのウェイトを更新したり、訓練を続けたりできるんだから、誰も君を止めてないでしょ。
トランスフォーマーを正しく理解してるなら、小さいモデル化は難しいだろうね。”大規模”言語モデルの核心は、大きくするほど汎用的なタスクも特定のタスクも両方うまくできるようになるってことだから。Apple含め多くの人が望んでるけど、現状のAIの波に逆らうから、そう簡単にはいかないよ。間違ってたら嬉しいけど、多分これが合ってると思う。
なんか納得いかないなぁ。コンパイルされたソフトとは違うにしても、エンドツーエンドで再現できないし、全部検証できるわけじゃないでしょ。「モデルランド」なんて言葉が流行る前から、これらの言葉にはちゃんとした意味があったんだからさ。意味を拡大解釈するのはみんなを混乱させるだけだよ。
それは違うって。例えるなら、18歳レベルの理解が必要なタスクを5歳の子供に与えるようなもんだよ。5分だろうが10時間だろうが、その子は解決できないんだから。
混乱なんてしてないよ、別の文脈で意味が違うことに腹立ててる人以外はね。それに、多くの企業はモデルを自分たちでさえ再現できないこともあるんだ。非決定性の要因はたくさんあるし、何兆ものトークンで学習させたら、「FacebookがLlama 4をナチのプロパガンダで学習させた!」なんて、公開したくない内容も混じるだろうし。ただ感謝すれば?
僕は反対だね。言葉は重要だよ。「オープンソース」の肝は、誰でもその仕組みを隅々まで見られること。それがポイントなんだ。だから「オープン」って言葉が使われてるんだよ…確かにGCCのコンパイルも非決定論的だけど、オープンソースだから元となるソースは全部見られるでしょ。
うん、OpenAIやAnthropicみたいな企業のビジネスモデルって、今はモデルがデカすぎてクラウドで従量課金制で動かすしかないって感じだよね。将来的にローカルで動かせたら、販売や年間ライセンス制に変わるかもだけど。汎用的なタスクには規模が大きい方がいいけど、コーディングみたいな専門分野にはそこまで必要ないんじゃないかな。
ソフトウェアにおけるオープンソースのポイントは、君の言う通りだよ。でも、AIモデルとは違うんだ。異なる分野で言葉やフレーズの使い方が違うのはよくあることだよ。
…で、僕の言いたいことは、そうあるべきだってことだよ。科学の実践自体、オープンソースソフトウェアの文化を学べばもっと強くなるはずだ。
小規模言語モデル (SLM) の研究を増やしたいって?勘違いしてるよ。すでにSLMの研究の方がずっと多いんだ。だって簡単だから。普通のワークステーションでもSLMを学習できるし、だから修士や学部の学生がやってるんだ。博士課程の研究もSLMが多いのは、大規模モデルのハードウェアはバカみたいに高いからね。研究不足が問題じゃない、技術の根本的な限界だよ。7Bモデルに知性を詰め込めるかはまだ分からないけど、70Bモデルの方が圧倒的に簡単だってことは確かだ。
「OpenAIやAnthropicのビジネスモデルは、モデルが大きすぎてクラウドで従量課金制にせざるを得ない」って意見だけど、それはビジネスモデルの選択じゃなくて、SOTAモデルを動かす上での現実だよ。もしOpenAIやAnthropicがもっと小さなGPUやサーバーで同じ出力を出せるなら、自分たちでそうしてるはず。データセンターの費用が劇的に削減されるからね。
学習データとソースがなきゃ、重みなんて意味ないね。
「オープンソース」じゃなくて「オープンウェイト」って言うべきだよね。でも、みんなが違いを理解するには時間がかかるから、少しは許してあげようよ。
OpenAIとかAnthropicが小さいGPUで同じ出力出せるならとっくにやってるはず。てか、彼らはやってるし、GPT-5もコスト効率良いモデルに自動ルーティングしようとしてる。あと、これらの企業のインセンティブには気をつけて。彼らは最高のモデルを出すために競争してるから、97%の性能を10%のコストで出すのは彼らにとっては二の次なんだよ。
LLMでは、重みと推論時間のトレードオフがある。小さいモデルはいくら時間をかけても大きいモデルと同じSOTA性能は出せないよ。大きいモデルの方が情報学習の余地があるから。テストとリトライを繰り返しても限界は超えられないし、小さいモデルはただ同じことを繰り返すだけさ。大きなホストモデルでも同じ問題に陥ることはよくあるよ。
これらのモデルをローカルで動かす電気代は、すでにAPI利用料より高いんだぜ。
いや、真のオープンソースモデルは素晴らしいし、教育、理解、分散型コラボレーション、そしてSOTAの進歩を本当に推進するものだよ。この用語を再定義しちゃうと、彼らが象徴する素晴らしい目標へのモチベーションが減っちゃうよ。
今日のローカルで動くモデルはSOTAには遠く及ばないね。SOTAモデルはローカルで動かせるものより大きいんだ。もちろん小さいモデルがもっと性能良くなれば嬉しいけど、ClaudeやOpenAIのSOTAモデルと同じレベルで動く、小さいローカルモデルを作る秘密なんてないんじゃないかな。もしあったらAnthropicやOpenAIがとっくにやってるはずだ。あらゆるモデルサイズで研究と進歩は続いているけどね。
俺は学習データがなくても、重みとソースからたくさんの意味を見出せるけど、どう?「意味がない」って言うのは言い過ぎだと思うな。
究極のSLMが少ない計算資源のチームから生まれるのか、それとも多くの資源を持つチームが大型モデルから不要な部分を削る研究から生まれるのかは不明だね。KarpathyはDwarkeshのインタビューで、もし推論と外部知識を分離できたらAGIは1Bパラメータモデルで可能かもって言ってたよ。俺は汎用モデルよりコーディング特化モデルに興味あるんだ。フロンティアモデルの訓練データのかなりの部分がコーディングには使えないみたいだし。