メインコンテンツへスキップ

AI事前学習用!30PBのHDDをラックに積み上げる巨大ストレージ構築の舞台裏!

·2 分
2025/10 AI ストレージ ハードウェア インフラ データ

AI事前学習用!30PBのHDDをラックに積み上げる巨大ストレージ構築の舞台裏!

引用元:https://news.ycombinator.com/item?id=45438496

lucb1e 2025/10/01 22:22:35

Discordのブログ記事も面白かったよ。特に、ワールドカップのゴールが監視グラフに表示されて、それを口実に会議中にサッカーを見てたって話は最高だね!「システムパフォーマンスを積極的に監視してたんだ!」って言い訳してたんだって。Discordのメッセージ保存量が1PB未満っていう話も、ノードサイズから計算すると708TBとか648TBになるみたいだよ。
https://discord.com/blog/how-discord-stores-trillions-of-mes

g413n 2025/10/02 15:11:18

うん、その数字(Discordのストレージ量)には画像添付も含まれてるか確信はなかったんだよね。でも、大規模なテキストデータ処理の参考値としては、少なくともだいたい合ってると思うよ。

jonas21 2025/10/01 16:20:59

素晴らしい記事だね!技術的な詳細も全部最高だよ。コロケーションスペースをどうやって確保したのか気になるんだけど、ブローカーを使ったの?それと、価格交渉はした?もししたなら、最初の見積もりと最終的に支払った金額でどれくらいの差があったか教えてほしいな。

nee1r 2025/10/01 16:25:20

SFとFremontにあるコロケーションスペースのほぼ全てに見積もりを依頼したよ。見積もり価格と実際に支払った金額には違いはなかったけど、契約条件や一回限りの費用については交渉したんだ。

toomuchtodo 2025/10/02 17:17:21

見積もりを公開するのを検討してほしいな。コロケーションの名前を伏せてもいいからさ。

Scramblejams 2025/10/01 21:47:59

楽しい記事だったよ、作者さんありがとう!でも、こういうワクワクするような記事には、いつももっと写真があると嬉しいな!

echelon 2025/10/01 21:53:13

もし作者さんたちがコメントしてくれるなら、「Standard Intelligence PBC」が何をしているのか聞きたいな。公益法人なの?一体何を開発してるの?

nee1r 2025/10/01 23:04:16

うん、もっと写真を入れたかったんだよ!!だから最近、Sony A7IIIを買って、こういう楽しい瞬間をもっと撮れるようにしたんだ。僕たちは、コンピュータの動作モデルをゼロから事前学習させてるんだ。だから事前学習用データクラスターが必要なんだよね。AGIは公共の利益のために作るのが重要だと考えてるから、うちの会社は公益法人なんだ。コンピュータで行われる多くの作業を自動化する計画もあるよ!

Scramblejams 2025/10/01 23:08:35

「最高のカメラは、いつもあなたが持ってるカメラだ。」っていう名言があるよね!次の構築記事も楽しみにしてるよ!

kid64 2025/10/02 16:09:16

多くのコロケーション施設は写真撮影を禁止してるんだ。

yread 2025/10/01 18:37:54

Hetznerのsx135を使えば、1TBあたり月1ドルくらいでいけるよ。8個の22TBでRAIDZ1構成の140TBが240ユーロだね。200台借りればもっと安くなるかも。リスクは誰かが引き受けてくれるから、夜も安心して眠れるよ。

g413n 2025/10/01 19:03:09

将来的にはHetznerみたいなサービスを使う可能性は十分あるね。融資や構築、あるいはその両方を切り離して、ソフトだけ担当するって契約も検討中だよ。HetznerはCPUクオータで苦労したし、ヨーロッパは避けたいけど、自分たちでやれることを示したら、地元で似たような条件で良い見積もりをもらえたんだ。

mx7zysuj4xew 2025/10/01 21:52:07

Hetznerはちゃんとした用途には使えないよ。大抵、濫用だって言って、何の通知もなくデータを全部消されちゃう可能性が高いからね。

fapjacks 2025/10/02 14:39:31

全くその通り!Hetznerはどんな理由であっても、動いてるものを問答無用で消しちゃうからね。サポートも信じられないくらいひどいよ。

nodja 2025/10/01 18:52:53

HetznerはSFに拠点がないと思うんだ。他の機器がある都市の外に接続する必要があるなら、100ギガビットの接続はあまり意味ないんじゃないかな。でも、ピアリングが改善されて、俺の考えが古いだけかもしれないけどね。

fuzzylightbulb 2025/10/01 21:09:34

大丈夫だよ。光ファイバーの中を伝わる光の速度は、昔も今も変わらず遅いんだ。

lostmsu 2025/10/03 18:21:20

君の計算は合ってないよ。最小限の冗長性を持たせても、だいたい1TBあたり月2ドルくらいになるはずだ。

boulos 2025/10/01 16:15:41

データを保管するだけならかなり安いけど、トレーニングやネットワークのセットアップがよく分からないな。GPUを同じ場所に置かないってコメントを見たんだけど、それじゃあサイト間で100Gbps回線を使って全トレーニングをやるの?プレトレーニング中に完全にボトルネックにならない?

cornholio 2025/10/02 11:04:54

30PBを100Gbpsで送ると1ヶ月くらいかかるけど、4回線なら1週間だね。最初のトレーニングとアレイの初期ロードを重ねて、データが利用可能になり次第トレーニングできるから、トレーニング実行としては許容範囲だと思うよ。データの前処理は、書き込む前にストレージサイトかトレーニングGPU上でやるのは当然だよね。

g413n 2025/10/01 16:49:07

うちのGPUクラスターは現状100ギガリンクしか使ってないけど、スケールするにつれて帯域幅とストレージは拡張するつもりだよ。コロケーションに4090をいっぱい置いてて、データ分割のための埋め込み計算とかにめっちゃ役立ってるのは特筆すべき点かな。

mwambua 2025/10/01 19:06:19

GPUマシンをコロケーションに置かないって決めたのはどういう経緯だったの?電力コストが高すぎたとか?それともストレージ用よりGPUマシンの方が物理的にアクセスする必要があるって考えたの?

g413n 2025/10/01 20:29:25

この仕事の前にsfcomputeで働いてた時、H100の電力密度に業界が慣れてなくて、データセンターが文字通り火事になるのを何度も見たよ。うちのトレーニングチップはJBODみたいに標準的なパッケージじゃないんだ。

Symbiote 2025/10/01 21:57:56

コンピューターを分散させる、つまりラックを全部埋めずに半分だけ使うって簡単な選択肢じゃないのかな?うちの隣のGPUクラスターは、1つのラックに64A入れられないから、2つのラックに32Aずつ入れてるよ。(230V 3相)

pixl97 2025/10/01 22:29:12

ほとんどのデータセンターでは、ラックのスペースは通常高値で取引されてるんだよね。

toast0 2025/10/02 07:21:50

僕の情報は古いかもしれないけど、電力密度ってめちゃくちゃ上がってる。多くのデータセンターはスペースは十分あっても、電力があんまりないんじゃないかな。昔の低電力密度向けに設計された建物に、そんなにたくさんの電力供給や冷却を後付けできるわけないしね。

tempest_ 2025/10/02 13:40:01

これは僕の経験と同じだね。うちは42Uラックに8台のマシンしか入れられないよ。だって、ラックにもっと電力回路を供給できないんだから。

g413n 2025/10/02 15:14:38

うん、うちの場合もそうだったよ。

Symbiote 2025/10/01 22:39:21

データセンターがラックに、安全に使える以上の電力を供給してるらしいことに、むしろ驚きだね。

lemonlearnings 2025/10/01 22:49:20

計算に関する話も続編として聞きたいな。どこでやってるの?そのデータを処理するのにどれくらいのGPUが必要なの?とか。すごく面白くて新鮮な記事だったよ。いつものtf applyしてニヤニヤしながら電話するだけって感じより、シリコンバレーってこういうことなんだって感じがする。

coleca 2025/10/01 19:05:48

この規模ならAWSとかCloudFlareに限らず、どのクラウドプロバイダとも個別価格交渉できるよ。S3でも0.5PBくらいから交渉可能。DIYよりクラウドが絶対安いとは言わないけど、クラウドの定価とeBayの機材+無料労働(ピザ代除く)を比べるのは公平じゃないよね。

もっとコメントを表示(1)
g413n 2025/10/01 19:15:54

AWSではegress費用がネックで、交渉しても譲らなかったから、AIトレーニングには全然使えないんだよね。CloudFlareのプライベート価格は、マネージドのオブジェクトストレージとしてはかなり安い方だと思う。自分たちでホストする能力があるから交渉力もつくしね。マネージドのバケット製品は、シンプルな事前学習データ保存にはオーバースペック。Glacierはアーカイブには良いけど、ML用には現状、似たようなものが無いんだ。

epistasis 2025/10/02 01:02:11

どんなディールの話?50%以上の割引とか?

master_crab 2025/10/02 11:21:49

AWSとかクラウドサービスでは、購入規模によっては50%以上の割引も全然いけるよ。

oasisbob 2025/10/02 18:10:55

最低0.5PBのボリュームじゃ無理だよ。10PBでも、ストレージのコミット割引が50%に近くなんてならない。せいぜい10~20%くらいじゃないかな。

archmaster 2025/10/01 16:29:04

ドライブのラック設置を手伝えて楽しかったよ!大量のデータって最高だね :P

nee1r 2025/10/01 16:38:02

手伝ってくれてありがとう!!!

g413n 2025/10/01 15:08:18

ディスクの故障率の話がないね?数ヶ月経ってどうなってるか気になるな。

dylan604 2025/10/01 17:37:21

以前も話したけど、複数ディスクアレイを立ち上げた時、大量のドライブ故障があったんだ。金曜の午後にラックに設置して、週末にRAIDアレイのストライプが終わった後で読み書きするシェルスクリプトをサッと書いた。ログもなくて、ただの.shファイルだったんだけどね。月曜に出社したら、全てのアレイで大規模な故障が!ストライプ中かストレステスト中か分からず、故障率は50%近く。工場出荷時の不良品で、うちのベンダーの他の顧客も文句言ってたよ。全部メーカーが交換してくれた。生産投入が遅れただけ。その後、次の職場に移るまでの12ヶ月間は一つも壊れなかったな。

jeffrallen 2025/10/01 18:13:01

へえ、10年間のディスクライフサイクルを通してストレージを管理する問題に対する、うまい解決策だね。

bayindirh 2025/10/01 15:29:13

ディスク故障率は昔と比べてすごく減ったね。10年前は毎週何十枚も交換してたけど、今はめったに見ないから驚きだよ。BackblazeのHDD統計を見れば十分って感じだね。

gordonhart 2025/10/01 16:13:45

Backblazeの年間故障率は1.36%で、2,400台のドライブなら年間約32台が故障する計算だね。追加の設備投資も年間で約4,000ドルだから、ほとんど気にならないレベルだよ。参照元:https://www.backblaze.com/cloud-storage/resources/hard-drive…

joering2 2025/10/01 17:45:01

彼らが使ってるのは中古ドライブだから、Backblazeの報告よりも故障率は高くなるんじゃないかな。仕様には2,400台のドライブで、ほとんどが12TBの中古エンタープライズドライブって書いてあったよ。

antisthenes 2025/10/01 22:02:28

ディスクの故障はU字曲線になることが多いから、一概には言えないよ。中古ドライブを買うことで、初期の故障率が高い部分を回避できるメリットもあるんだ。大抵のドライブは、寿命による高い故障率が出る前に型落ちになるだろうしね。

toast0 2025/10/02 07:28:17

輸送によるストレスで、初期の故障率はやっぱり高くなるんじゃないかな。それに、中古のエンタープライズドライブはSMARTデータが消去されてたり、故障寸前で引退させられたものもあるだろうから、注意が必要だね。

dist-epoch 2025/10/02 09:38:25

ドライブを物理的に動かすと、故障のU字曲線がリセットされがちだよ。その過程で一部は損傷する可能性もあるね。

cjaackie 2025/10/01 15:38:48

彼らが中古のエンタープライズドライブを使ってるって言ってたけど、コストを抑えたい気持ちはわかるけど、将来的に高くつくミスになるんじゃないかな。個人的にホームクラスターで中古ドライブを使ってみて、パフォーマンスのばらつきが大きすぎてすぐに諦めた経験があるよ。

jms55 2025/10/01 15:54:30

たしか、ドライブって「最初のうちに故障するか」、「寿命の終わりに故障するか」のどっちかが多いんだよね。だから中古ドライブを買うのは、初期故障するであろうものを選別済みってことで、そこまで悪いアイデアじゃない気がするんだ。もちろん、俺が何言ってるか全然わかってないけどね。

dboreham 2025/10/01 18:16:16

ハードウェア業界では、この現象を「バスタブ曲線」って呼んでるんだよ。

g413n 2025/10/01 17:23:31

完璧なデータがあるわけじゃないけど、俺たちの経験と今回の話は一致してるね。多くの故障は、インストール直後、まだ大量のデータが書き込まれる前に起きたから、実際のデータ損失はハードウェアの故障率よりは低かったよ。

frakkingcylons 2025/10/01 22:52:26

HDDはどこで調達したの?serverpartdeals.comとかで中古HDD買うの考えたけど、信頼性が心配なんだよね。

guywithahat 2025/10/01 15:50:38

ホームサーバーの趣味なら中古ドライブいいよね。問題解決は楽しいし、ドライブ故障はサーバーをいじる良い理由になるんだ。半分冗談だけど、結構面白いよ。

g413n 2025/10/01 15:48:46

データセンターだと故障率はリモートハンズの継続コストだから、フロントローダーなら問題ないよ。数ヶ月ごとに誰かが新しいドライブのリストとカート持ってデータセンターに来る感じだね。

pronoiac 2025/10/01 17:10:25

彼らが将来Backblazeストレージポッドみたいなトップローダー選ぶか気になるな。そっちの方が密度高いし、ネジ止め不要でセットアップ速いし。彼らは中古ドライブ使ったけどテストしたのかな?僕は中古ドライブで初期不良に当たった経験あるから、SMARTテストや容量検証とかのテストは重要だと思うよ。

g413n 2025/10/01 17:14:59

うん、トップローダーすごく興味あるよ。次回拡張時にテストラック作って、良ければ切り替えるつもり。中古ドライブのテストだけど、事前に各サプライヤーから少量ずつ買って試したんだ。おかげで怪しいロットを見つけて、大量注文から外せたよ。サプライヤーを複数にするのはリスク分散にすごく有効だね。

joshvm 2025/10/01 20:56:45

”ネジ止め不要”って言っても、古いトップローダーだとツールレスじゃないのも多いよ。RMAするならいいけど、現場で交換したりリファービッシュドライブだけ使うと、結局ネジ止めしまくりだね。結構壊れやすいし、プラスチックが折れたりして、地味に大変なんだ。

tempest_ 2025/10/01 18:43:37

この世代のSupermicroの中古マシンは、全部ひっくるめてもすごく安いよ。https://www.theserverstore.com/supermicro-superstorage-ssg-6…

htrp 2025/10/01 19:52:19

「HDD積み上げパーティーで30PBのハードウェアを36時間で構築」ってあったけど、2400台のドライブに実際かかったマンアワーはどれくらいだったの?

g413n 2025/10/01 19:58:51

約250マンアワーだよ。

urbandw311er 2025/10/02 07:41:33

よくやったね!正直な記事と”can do”精神が大好きだよ。きっと楽しかっただろうね。興味あるんだけど、言ってた高密度ストレージじゃなくて、必要な量の”20x”もドライブを買っちゃったミス、なんでだと思う?これを選んだ理由があったの?

g413n 2025/10/02 15:13:58

20xじゃなくて、必要な量の<2x弱くらいのドライブだと思うよ(24TBと14TBの比較ね)。でも、ドライブを格納してるラックはもっと高密度にできたかもしれないね。どっちにしろ費用はだいたい同じだし、コロケーションがスペース料金を請求しないから大したことないし、慣れてるやり方でやっただけだよ。でも、試してみる価値はあるね。

もっとコメントを表示(2)
Tepix 2025/10/02 13:49:40

彼は初期費用が高くなると言ってたよ。

RagnarD 2025/10/01 16:09:37

この話大好きだよ。これこそが本当のハッキングとスタートアップのコスト意識だね。

nharada 2025/10/01 15:27:44

それで、このデータを今どうやってGPUに持っていくの…?ただ公開インターネット経由でデータセンターに送るの?

nee1r 2025/10/01 15:33:21

うん、その通り!100Gのアップリンクがあって、nginxのセキュアリンクを使って、HTTPでマシンからcurlしてるよ。(面白いことにHTTPSだとオーバーヘッドがあるから、URLを事前に署名してるんだ)

g413n 2025/10/01 15:31:02

Zayoの100ギガで7.5Kドルってことね。それはMRCの半分くらいだ。

bayindirh 2025/10/01 15:30:12

彼らはその距離ならダークファイバーを自分で借りても安く済むはずだよ。でも、彼らが言ってたように、ISPから100Gbpsの容量を使ってるね。

nee1r 2025/10/01 15:34:40

データセンターからオフィスまでダークファイバーを引きたいんだ。100Gbpsって最高だよね!

dylan604 2025/10/01 17:40:57

今、光ファイバーがアビエーターを着て、目からレーザービームを出すポスターを想像してるよ。「Dark Fiber」ってImpactフォントでデカく書かれてるやつ。

geor9e 2025/10/01 17:02:04

サンフランシスコってまだダークファイバーが残ってるの?90年代のバブルは需要を見誤ってたもんな。

madsushi 2025/10/01 17:26:47

DWDM技術の進歩は他のテクノロジーの成長を圧倒してるよ。昔10Mbpsだった1本のファイバーが今じゃ20Tbpsも運べるんだ、200万倍だよ!供給が限られてるファイバーも、今ならすごく長く使えるから、アクセス料金のプレッシャーは思ったより小さいかもね。

dpe82 2025/10/01 18:34:57

最近はどんな接続でも「ダークファイバー」って言う人がいるよね。俺もそれが気になるんだ。

bayindirh 2025/10/01 18:48:06

俺が言いたかったのは「ポイント・ツー・ポイントのシングルモード、無終端の光ファイバーケーブル」ってこと。つまり、他のトラフィックがない自分だけのケーブルだね。共有されてるやつは俺の言葉ではMetro Ethernetだよ。

woooooo 2025/10/02 09:51:05

初歩的な質問なんだけど、L2まで行かずに、共有ファイバーでスペクトル帯域を売る中間サービスってあるの?それとも、既製のEthernetを使って共有する方が簡単すぎて、それは複雑すぎるかな?

madsushi 2025/10/02 17:20:09

うん、もちろんあるよ!よく「wave/wavelength」とか「lambda」サービス、あるいは「lit fiber」って呼ばれてるね。

not--felix 2025/10/01 15:37:09

でも、9000万時間分のビデオデータってどこで手に入れるの?

_1tem 2025/10/01 15:43:11

しかも普通のビデオデータじゃなくて、Agentic Computer uses向けのスクリーン録画って明言してたよね。すごく特殊な種類のビデオだ。多分Rewind.aiみたいな会社と提携してるんじゃないかな。

Barbing 2025/10/02 09:37:48

“プライバシーのために、画面と音声の記録はローカルに保存され、Macから出ることはない。”ってRewindみたいなサービスが言ってるけど、まさか本当にRewindじゃないよね?彼らがヘッダーでリンクしてるプライバシーページからの引用だよ。

hengheng 2025/10/02 10:30:21

>多分、ヨーロッパにはそれを置きたくないだろうね。って、それが何かっていう最高のヒントだよね。

bobbob1921 2025/10/02 18:46:33

俺の計算が合ってるなら、9000万時間の動画を30PBで賄うと平均ビットレートは760kくらいになるね。(プロビジョンしたスペースを初日から全部使うとは思えないけどね)だから、俺の推測だとCCTVみたいな動きの少ない映像か、デスクトップ録画みたいな低ビットレートの動画じゃないかな。このビットレートじゃYouTube動画みたいなもんじゃないと思う。(ビットレートとは関係なく、古いパブリックドメインの動画かもしれないけど)。どんな種類の動画を使ってるのか、めちゃくちゃ気になるよ。

mschuster91 2025/10/01 15:46:35

オンプレミスがいかに安上がりになるかを示してるね。脱帽だよ。

stackskipton 2025/10/01 15:56:49

メンテナンスのオーバーヘッドが含まれてないね。S3/R2は通常、運用担当者(OPS)を配置する必要がないけど、この手のセットアップだと週に5時間は誰かが対応に追われることになるだろうね。

nee1r 2025/10/01 16:04:39

その通りだね。だから、うちはオフィスから数ブロック離れた場所にデータセンターを置くことを選んだんだよ。

mschuster91 2025/10/01 15:59:59

昔、サーバー3ラック分くらい管理してたんだけど、そんなにディスクは多くなかったけど、ハードウェアのメンテナンスは数年間はほとんど必要なかったな(全部クラウドに移行するまでは)。サーバー管理の主な仕事はOSアップデートと、一番面倒なOpenStackだったけど、これはクラウドを使っても逃れられないことなんだよね…。

stackskipton 2025/10/01 16:15:54

S3/R2を使えば、そういう問題から解放されるんだよ。ファイルをどさっと置いて、必要な時に取り出すだけ。OSアップデート、ディスク障害、OpenStack、追加ハードウェア?そんなのS3会社の担当で、君の仕事じゃないって。前の会社でAzure Web App Containersを大量に使ってたんだけど、OS関連の作業はほとんどなくなって、クラウドで多くのOSの苦労が減らせるってことだよ。

記事一覧へ

海外テックの反応まとめ
著者
海外テックの反応まとめ
暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。