週7億人対応のChatGPT、なぜ俺はGPT-4すらローカルで動かせないのか?
引用元:https://news.ycombinator.com/item?id=44840728
SamがChatGPTは週7億人のユーザーをさばくって言ってたけど、俺はGPT-4クラスのモデルをローカルで動かすのすら無理なんだよね。VRAMか速度が問題でさ。大規模なシステムで低遅延を維持するエンジニアリングの裏技って何?MLシステム作ったことある人からの意見が聞きたいな。
俺はGoogleで毎日こういうシステムに関わってるけど(個人的な意見ね)、詳しいことはあんまり言えないんだ。でも、俺の同僚が書いたこの資料は共有できるよ!
アクセラレーターのアーキテクチャとか、高速化の考慮事項について詳しくわかるはず。特に推論に関する質問は、この章を見てみて。
https://jax-ml.github.io/scaling-book/inference/
Unslothのガイドも超おすすめ。モデルの最適化についてめちゃくちゃ詳しい人たちだから。Gemma 3nのガイドも読んでみて。
https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-…
GoogleってTPU持ってるから、NVIDIAのカードを借りるより自社モデルの推論がずっと儲かるんじゃないの?OpenAIはMicrosoftとの提携でGPUを調達してるの?リンクどうもね、面白い本だ!
うん。GoogleがLLMのゲームで勝つだろうね。NVIDIAのカードよりすごくエネルギー効率が良いTPUで、圧倒的にリードしてるからさ。
解決する必要すらない問題に、たくさんの頭の良い人たちが取り組んでるってのは、市場配分の面白い側面だよね。
「解決する必要がない」ってどういう意味?金融とかフラッシュトレードの方がよっぽどそうじゃない?
多くの人がすごく役立つって思ってるシステムをスケールさせるのは、ビジネス的にも、市民目線でも、解決すべき問題に見えるけどね。
Googleを止められるのはGoogleだけだよ。
最高のモデルは作るだろうけど、製品化や、既存製品への統合でやらかす可能性はあるよね。
GCPでTPUを使いたい企業をGoogleがダメにするってのは、ある意味才能いるよね。でも、彼らが製品を捨てたり、顧客サービスがイマイチだったり、大企業への態度が傲慢だったりするから、MicrosoftやAWSに足元をすくわれるんだ。
俺がAWS ProServeにいた時、GCPと競合する時は、彼らがサービスを放棄するって点を指摘するだけでよかったよ。FUDだった部分もあるだろうけど、うまくいったね。
週7億人のユーザーが本当に生産的?AIが聖杯ならもっと改善されてるはず。Tesla FSDやAGIと同じで、口ばかり。GPT-5試したが幻覚多くて時間の無駄だった。結局自分でドキュメント読んだ。
LLMはSocial Mediaと同じ道を行くと思う。週7億人ユーザーってことは、また「俺たちが製品」なんだよ。本当に労働者を置き換えられるなら、月20ドルで使えないはず。生産的利用は10%未満じゃないかな。
みんな賢いって言うけど、実際は昔のメインフレームみたいなタイムシェアリングで動かしてるだけじゃん?そんな大したことないだろって皮肉だよ。
正直、GoogleはTPUと最新モデルを組み合わせたソリューションを企業に売れば、エンタープライズ市場を独占できるはずだろ。GCPも規制のあるクライアントにはそうしてるみたいだしね。
推論はほとんどステートレスだから、トレーニングみたいにマシン全体でメモリを整合させる必要はないんだ。単純に大量のデータをデカいマシンに振り分けるだけ。秘密は莫大なカネと、モデルをハードの箱に収めること、それが一番難しいんだよね。
Googleの主軸は広告だから、データが最も価値があるんだ。だからAIも社内で囲い込みたい。たぶん彼らの狙いはスマホ向けAIだろうね。Gemma QATモデルって3090でLlamma 3並みの性能が出るのに、あまり話題にならないのは不思議だよ。
週7億人ユーザーって本当なら、その利用がどれだけ生産的でコストに見合ってるかって疑問だよな。価値って誰が決めるんだ?俺の仕事のほとんどはChatGPTじゃ無理だけど、面倒な作業は減らしてくれるのは確かだよ。
Googleのエンジニアがそんなに優秀なら、なんでgoogle.comはLighthouseスコア100%にできないんだ?って思うんだけど。
LLMは非効率で、水も電力もバカ食いする。スーパーコンピュータでジョーク作らせるんじゃなくて、命に関わる研究に使えよ。5年前はこんなの無かったのに、なんで面倒な作業をAIに任せて、同時に「AIは使えない」って言うの?矛盾してるだろ。ポール・グレアムのTwitterで見た、12時間で1万行コード書く「ホットショット」の話も信じられないわ。
[0] https://www.sciencenews.org/article/ai-energy-carbon-emissio…
[1] https://x.com/paulg/status/1953289830982664236
俺がAIに任せるのは自動化できないようなタスクなんだよ。「軌道モデルのツール作って」とか「大学形式に変換して」とか。人間のアシスタントもコストかかるしね。AIで仕事の20-30%は減らせるし、俺より上手くやってくれることさえある。おかげで俺は30-40%多くの仕事をこなして、より価値の高いことに集中できるようになったんだ。AIは俺には無理なイラスト制作とかも手伝ってくれるし、俺の能力を超えてくるよ。
それは間違いだよ。KVキャッシュには色々なトリックがあって、ユーザーが違ってもシステムプロンプトを共有すれば最初の部分は同じになるし、入力や出力が一緒なら全体をキャッシュできる。知っておくべきことだけど、あなたの認識は全然違うよ。
GoogleがTPU関連のプロジェクトを放棄するわけないだろ。何十億ドルもインフラに投資してるんだから。彼らの製品放棄の評判があるって言うけど、これに関してはゼロだよ。
LLMが使う電力って人間が使う量と比べ物にならないくらい多いし、経済的に長期的には意味ないって。コマンドツールに詩を作る能力なんていらないだろ?滅多に使わない汎用性のために金払いすぎだよ。電力消費が減るか、利用料が上がるか、システムが崩壊するかのどれかだよ。
大規模バッチ推論がキーだね。並列化とシャーディングを最大化すれば、モデルのパラメータとそれに関連するメモリ帯域幅は実質無料になるんだ。必要なのはリクエストごとの計算とアクティベーションのメモリだけ。MoEモデルは特にこれで効率的になってる。ローカルでこれに太刀打ちするのは無理だろ。
頭いい人でも万能じゃないって話。俺の元ボスは大学の研究所を立ち上げたけど、雇った教授陣は変人ばかりで苦労してたらしい。別の同僚は専門分野では天才だけど、買い物とか税金とか日常のことは全然ダメだったって。
でもASICって、大きなアーキテクチャ変更があったら大変なんじゃないの?
GoogleがLLMゲーム勝つって言われてるけど、計算力だけで決まるわけじゃないだろ。俺はAnthropicと中国がリードしてると思う。ベンチマークなんてアテになんねぇよ。Opus 4とかQwen 3の品質が高いのは、専門家による高品質なラベリングがカギだろね。
Googleが企業にGeminiのセルフホスティングを許可し始めたってさ。NVIDIA Blackwell GPUでも使えるって。俺的にはTPUとセットで提供した方が、大規模インフラ持ってない企業には良いと思うけどな。
https://www.cnbc.com/2025/04/09/google-will-let-companies-ru…
現代の飢餓は政府の機能不全とか武力紛争が原因で、エンジニアには関係ないだろ。「世界に悪いことがあるから他のことすんな」みたいな考え方は間違ってるって。
システムが同じ質問を認識して同じ答えを出すって?そんな状況、めちゃくちゃ珍しいだろ。誰が全く同じコンテキストを共有するんだよ。最適化としては全然意味ないんじゃね?
人間が1時間タスクするのに食べ物で350kJは使うし、これLLMの100〜200リクエスト分に相当するらしいぞ。MoEモデルなら詩を作るためのパラメータは使われないから、汎用性が無駄ってわけじゃないんだ。LLMの有用性は上がるし、コストも効率も上がる、この両方だろね。
飢餓の問題は、政治的な意思とか共感、リーダーシップの問題だよ。エンジニアリングの問題じゃないって。
超優秀な専門家もいるけど、俺の経験ではもっと広い知識を持つ人も多いよ。
本当の理由は社内の政治とか優先順位だろうな。Googleには技術力がある奴らもいるけど、気にしてるのか?気にしてても、そいつらをそのタスクに割り当てられるのか?って話だ。
もっとコメントを表示(1)
H100は2万ドルのカードでVRAMが80GB。10万ドルのカードを積んだ2Uラックサーバー、ラック全体だと100万ドルにもなるんだ。運用費やエンジニアは別だけどな。
AIバブルが弾けたら、ローカルモデルを動かせるようになるかも。10年後には10万ドルのサーバーがeBayで3千ドルに。電気屋がガレージに240Vのコネクタを付けるようになるだろうな。
10年って何言ってんだ?今すぐeBayでDGX-1が1万ドル以下で手に入るぞ。
VRAMが256GB(HBM2だぜ)、NVLink対応、RAM512GB、CPU40コア、SSD8TB、100GbitのHBAも付いてる。
非Nvidia製なら約6千ドルだ。
重くて信じられないぐらいうるさいし、1台で240Vの16A回路をほぼ使い切る。つまり13000BTU\hrの排熱が出るってことだ。
AIバブルが弾けなくても、10年後にサーバーがeBayに出回るっていう君の予測は多分当たるよ。
だって一部のデータセンターはハードウェアをアップグレードして、古い奴を第三者に転売するだけだからな。
AIに関するある人の見解は、データセンターへの何十億もの投資が10年後には全く価値がなくなるってものだった。
鉄道や電話線と違い、この投資は寿命が短い。
今のデータセンター投資は無駄で莫大な損失になると言ってた。
AGIを発明して間違いだと証明されるかもだけど、最後は全部ゴミになるんじゃないかな。
冬にだけ動かせば排熱じゃないよ。
ガス炉とかヒートポンプの方が抵抗負荷より効率的って事実を無視するならな。
240V 20A 2Pブレーカーが2個必要になるよ。サーバー用に1個、1トンのミニスプリットで排熱用に1個ね ;)
分かりやすい単位だと3.8kWだよ。
ヒートポンプは分かるけど、ガス炉が家の中で抵抗負荷より効率良いってどういうこと?単にガスが安くて経済的って意味?それとも本当に効率がいいって話なの?疑問を呈してるね。
ACを合わせるなら必要な電力は1/4で済むんじゃないかな?もし既に熱を取り除く方法がない場合の話だけどね。効率アップの可能性を指摘してるよ。
冷房のBTUはCOP考慮済み。空冷で最大COP4だけど、冷却塔で7まで上がる。230V12kBTUミニスプリットのスペックだと、エアハンドラ3A、凝縮器12Aで計15A。最低回路電流の計算だと20Aブレーカーが必要。実際は凝縮器9.5-10A、エアハンドラ2.4Aくらい。12kBTU除去には5-6Aくらいで、16Aサーバーの約1/3でCOPは3くらいになるって詳しい分析だね。
電力がどこから来るかによる話だね。もし化石燃料で発電してるなら効率は40%くらいしかないから、同じ熱を家に入れるのに2.5倍の燃料を燃やすことになるって。発電効率を考慮した賢い指摘だね。
彼らの言うことは正しいかもだけど、月面着陸が無意味に高額と思われたように、宇宙技術やGPS、通信衛星が結果的に100倍以上の価値を生んだように、長期的な投資の価値を見極めるべきっていう反論もあるよねって。先見の明について話してるね。
なんであのユニットがそんなに電流食うのか不思議だね。Amazonで最初に見つけた12k BTUの窓用ユニットは115Vで12A使うよって。実際の製品と比較して疑問を投げかけてるね。
NANDフラッシュを推論に必要な高帯域幅リンクで繋ぐのは可能なのかな?各NANDチップには何百ものフラッシュダイが積層されてて、同じデータラインに繋がってるから1つしか同時に話せないのに1GB/s以上出るんだよね。もし並列に繋げたら、チップあたり何百GB/sもの帯域幅が出せるのにって技術的な可能性について考察してるよ。
今オーブン探してて、多分230V/16Aのやつを買う予定だよ。90℃なら低温調理ができるから、その排熱をまるっと利用できるね。そういう温度だとCO2ヒートポンプが必要だけど、まだ高価。ガスは家にガス管がないからよく分からないって。身近な製品と排熱利用について話してるね。
誰がそのハードウェアを買うだろうね?データセンターが処分するのは、商業的に採算が取れなくなるから。H100も数年でE-wasteになる可能性が高いって。GeForce 980Tiの中古を2025年に買うようなものだよ。H100レベルの計算が必要なら、もっと安くて電力も少ない新しいハードウェアが出てくるからねって、ハードウェアの陳腐化と経済性について論じてるよ。
それ多分Amazonのデータ入力ミスだよ。Amazonのスペックは信用できないからメーカーのシートを見た方がいい。12Aは15Aブレーカーで許容される最大負荷で、ユニット自体は900-1000Wくらいじゃないかな。A/Cユニットに専用回路を推奨するためにスペックに12Aって書いてるのかもねって、データ解釈の注意点を指摘してるよ。
まともな単位だと3.8kW、5.1馬力だね。
2UラックにH100が4枚って、すごそうに聞こえないけど、実は正確なんだ。
一般的な1Uや2UサーバーにはH100 PCIe GPUが2~4枚入るよ。
42Uラックなら20台の2Uサーバーで40~80枚のH100 PCIe GPUを収容できるってことだね。
NANDはRAMと比べてめちゃくちゃ遅いから、パフォーマンスが大幅に落ちるよ。
もっと重要なのは、推論中にメモリの中身はかなり変化する(固定ウェイトを保存するだけじゃない)ってこと。
NANDの摩耗が心配だね。NANDチップの1ビットを何百万回も書き換えたら、大量のNANDチップがおしゃかになるよ。
やっと製品ページ見つけたよ: https://bdachelp.zendesk.com/hc/en-us/articles/2319602600002。
Amazonページだと1354Wって書いてあったけど、あれは14300BTUモデルのだと思う。
12000BTUなら9.72アンペアだね。
これって俺の主張をもっと強くするんじゃない?思ったよりも普通の回路に収まるし、ミニスプリットがさらに悪く見えるよ。
そうだね。でもそれは君のシステム効率とは関係ない。
君にとってこれはホームサーバーの電力消費とガス消費の話だ。
その点では、家の中での抵抗熱はガス炉に比べて100%効率的だよ。ただ燃料費はガス炉の方が安いかもね。
いや、遅くないよ。SSDの単一NANDチップは1GB超の帯域幅があるんだ。
チップ内には実際にデータを保持する100以上のウェーハがあるけど、SSDでは読み書き時に一つしかアクティブにならない。
全部同時にアクティブにできる特殊なNANDチップを作れば、単一チップから100GB超の帯域幅が得られるはずだね。
これはデータストレージには無意味だけど、大量の静的データを素早く読み込む必要がある場合にはすごく役立つよ。
同じ写真を使って二つのオークションをやってるTemeculaのヤツの話?ヒートシンクが欠けてるやつだよね?
面白いけど怪しいな。
Tesla時代のハードウェアって、今のワークロードでどれくらい使えるの?
例えばDeepSeek R1モデルを4-bit量子化で動かしたら、TTFTとTPSはどんな感じになりそうか、なんか予想できる?
もしこれが全部無駄でバブルだとしたら、データセンター周りのインフラ整備が長期的にどう影響するのか気になるね。
新しい高圧線や変電所がたくさん作られてる。
都市もデータセンターの集積地の周りで拡大してるし。
新しいラストベルトになりかねない?
サーバーはほとんど価値がなくなるだろうけど(あるいはかなり安くなる)、それはずっと前からそうだよね。
10年前のサーバーで動かしたい人なんて多くないし(俺は月30ドルで15年くらいのデュアルXeon L5640の専用サーバー使ってるけど)。
サーバーもネット機器も交換されるだろうけど、建物やインターネット交換局へのファイバー、電力会社への配線はまだ使えるはずだ。
ラックの電力密度が上がって、配電が限界で床面積の多くが使えなくなるデータセンターの話は聞いたことあるけどね。
そりゃ、システムボックスの外で行われる非効率なことを無視すれば『同等に効率的』だよね。
それって、家の前にある巨大なディーゼル式ラジエーターで家を暖めるようなもんだ。
家では電力使わないから無限に効率的、って言ってるのと同じだよ。
電力消費量について質問してる意味が分からないんだけど?240Vで4.5-5Aって、120Vで9.72Aと同じ電力レベルだよ。
恐ろしい電力需要のせいで誰も買わないって。eBayにSPARCサーバーがいっぱいあるのと同じだよ。
もっとコメントを表示(2)
お前は数千ドル、向こうは数百億ドル。ユーザーも1人対7億人。彼らは大規模な効率性で勝ってる。それに、24GBのRAMがあるMacBookなら、GPT-4ローンチ時と同じくらい良いローカルモデルが動かせるんだぜ。詳しい情報はこのURLを見てくれ: https://artificialanalysis.ai/?models=gpt-oss-20b%2Cgemma-3-…
7億人のユニークユーザーを1日や1週間で時間シフトさせれば、ピーク時の同時推論セッションは1000万に抑えられる。個人ユーザーはアイドル時の計算リソースを貯めて一気に使えないから、ピーク時の生成速度を得るにはもっと高価なローカルハードウェアが必要になるんだ。
高負荷時に、持ってるハードウェア以上のリクエストをどう処理してるんだ?トークンごとにユーザーA、ユーザーB、ユーザーCって感じでラウンドロビンしてるのか?それとも、全リクエストをFIFOで処理してから次のユーザーに移ってるのか?前者だとオーバーヘッドが大きいけど、全員の応答性を保つためにはいいかもな。
推論は基本的に、すごく複雑な行列アルゴリズムを繰り返し実行してるんだ。だから、アクティブなセッションを限られたハードウェア上で多重化するのは簡単だよ。一般的なサーバーなら、メインRAMに数十万のアクティブなコンテキストを保持できて、それを必要に応じてGPUにほぼ瞬時に送れるんだ。
コンテキストはもっとVRAMを消費すると思ってたんだけど。
アルゴリズム適用後のコンテキストはただのテキストだよ。でも推論中のアクティブなコンテキストは、GPU内で各トークンが12288次元のベクトルに爆発的に展開されるから、VRAMが4桁も多く必要になる。これはモデルの重みと結合されて、ギガバイト単位になるんだ。最終結果はテキストトークンだから、メインシステムRAMで簡単にやり取りして、リモートユーザーに送れるよ。
「ハードウェア以上のリクエストを処理する」なんて無理だよ。ほとんどのユーザーはWebアプリの無料アカウント経由で、モデル選択も「自動」だからね。負荷がピークになったら、リソースをあまり食わないモデルにリクエストを振り向けられるんだ。これは実装がすごく簡単なプロダクトデザインのハックだよ。
ChatGPTのウェブページは5〜10%の確率で応答に失敗するんだって。忙しすぎると顧客を無視してるように見えるけど、それでも顧客は戻ってくるし、毎月課金してるから関係ないって感じかな。
上のコメントの話、みんなもよく経験するの?俺は数年ChatGPT使ってるけど、そんな失敗は数回しかないよ。
俺は応答失敗はあまり見ないけど、GPT-5リリース直後は8分以上も「思考」してたことあったな。サーバーが混んでたんだろうね。手動でモデル選ぶと、たぶんスロットリングされるか、順番待ちさせられるんだと思うよ。
ピーク時には、モデルのトレーニングとか、APIユーザーのバッチジョブみたいなバックグラウンドの作業を停止させられるんだよ。
それ以外にも、レート制限とか、Claudeがよく出す「需要が高いから簡潔モードになった」ってメッセージとかがあるよ。APIユーザーにはバッチ推論を安くしてリアルタイムじゃなくそっちを使わせたり、需要が高い時はサイトがエラーになったりして、ビジネス顧客を優先するんだ。サービス品質が落ちるのは普通で、どのプロバイダーも高い応答性を維持するのに苦労してるね。
最も直接的な答えは、規模が大きくなると推論はバッチ処理できるってことだね。多くのクエリをまとめて並列で処理する方が、個別にGPUを割り当てるより効率的なんだよ。Fin AIのブログ記事「https://fin.ai/research/think-fast-reasoning-at-3ms-a-token/」も参考になるかも。OpenAIとかはさらにすごい独自技術を持ってるだろうけどね。
これが本当の答えだよ。バッチ処理が一番コストを下げられるんだから、他の人たちが何を議論してるのかわからないね。LLM処理のボトルネックはモデルの重みをGPUにロードすることだから、これを複数のリクエストで一緒に計算すれば効率が上がるんだ。ロードは計算より何百倍も遅いから、バッチ処理するとすごく差が出るよ。現実では活性化状態を保存するメモリが足りなくなるのが問題だけど、一度ハードウェアを揃えれば、ほとんど性能を落とさずに何百人も同時に処理できるんだ。
親切な返信ありがとう!まだ完全に理解できなかったから、君のコメントをChatGPTに貼って追加で質問したんだけど、俺の理解が正しいか教えてほしいな。GPT-4みたいな大きいモデルはたくさんのGPUに分割されてる(シャーディング)。各GPUには層がVRAMにある。リクエスト処理には層の重みをVRAMからGPUの小さなオンチップキャッシュにロードする必要がある。ロードは遅いけど、計算は速いんだ。バッチ処理なしだと、ロード→ユーザー1計算→再ロード→ユーザー2計算ってなる。バッチ処理なら、一度ロードしたら全ユーザー分計算して次のGPUに送る。これで同時ユーザー数が多いとユーザーあたりのコストが劇的に下がるんだって。でも、大きいバッチは活性化にたくさんのGPUメモリが必要だから最大サイズがあるんだね。これって正確かな?何か重要なことを見落としてたら教えてほしいな。
これはちょっと複雑すぎるように見えるな。彼らはそんなにたくさんのモデルを扱ってないし。俺の推測だけど、GPUを特定のモデルに割り当てて、モデルは常にVRAMに置いてるんじゃないかな。だからリクエストごとにロードするなんてことはないはずだよ。ローカル環境と比較して、もし80GBのVRAMを24時間GPUに割り当てて速い応答時間を得ようとしたら、クエリしてない時間のほとんどは無駄になるってことだね。
データロードはVRAMからGPUコアキャッシュにやるんだけど、これが超遅いんだ。GPUはほとんどデータ待ちで暇してるらしいぜ。
だから、ここがボトルネックなんだな。
サンキュー、理解したわ!これについてはもっと詳しい記事が欲しいな。下のコメントみたいに、リクエストごとに専用の状態をロードする必要があるって話も気になるし。
でもさ、リクエストごとにデータロードするんだろ?LLMだと計算ごとにKVキャッシュが変化するから、結局KVキャッシュ全体をロードするってことじゃね?なんでこれがボトルネックにならないんだよ?Geminiが100万トークンのコンテキストウィンドウって言ってるけど、KVキャッシュどれくらいデカくなるんだよ、まじで?
OpenAIの秘密兵器の一つは、実は何十億ドルもの損失なんだぜ。2024年には約50億ドルも赤字だったらしい。マジかよって話だよね。
https://www.cnbc.com/2024/09/27/openai-sees-5-billion-loss-t…
2024年末から流行ったエージェント型で全部変わったんだよ。前は1リクエストだったけど、今は一つのタスクで何百も処理するからね。OAIやAzureがローカルモデルより優れてる理由は、思考エージェントで並列処理ができること。つまり、複数のステップを同時に処理できるってわけ。
バッチ処理のおかげで、推論はめちゃくちゃ儲かるはず。なのに、OpenAIは損失を出してるって言う。でもそれって本当に損失なのかな?資産を買うのは投資じゃん?
「赤字運営」って言えば、膨大なデータセットを作って、競争に生き残れるってわけだ。
でもさ、ユーザーごとにメモリを使ってパーソナライズされてるんだろ?それだと、どれだけバッチ処理できるって言うんだよ?
大量のGPUを繋げるのを想像してみて。普通にやると、KVキャッシュとかで大量のデータ移動が必要になる。でも、OpenAIはデータを動かさずに、GPUの役割を円形バッファみたいに回転させてるんだ。だから、新しいトークンが来たら、前のラウンドのメモリ担当GPUが新しいアペンドヘッドになる。データを静的に保つのが一番速いってことだね。
まさにその通りだね。Microsoftから最大100億ドルの投資があって、それが事前学習、R&D、推論に使われてる。それでもOpenAIは何十億ドルも赤字なんだ。もし利益を気にせず10億ドル以上を使い放題なら、そりゃ大量のモデルを提供できるわけだ。まさにVCスタイルの、成長重視の資本主義で、変わったビジネス構造だよな。