AI事前学習用!30PBのHDDをラックに積み上げる巨大ストレージ構築の舞台裏!
引用元:https://news.ycombinator.com/item?id=45438496
Discordのブログ記事も面白かったよ。特に、ワールドカップのゴールが監視グラフに表示されて、それを口実に会議中にサッカーを見てたって話は最高だね!「システムパフォーマンスを積極的に監視してたんだ!」って言い訳してたんだって。Discordのメッセージ保存量が1PB未満っていう話も、ノードサイズから計算すると708TBとか648TBになるみたいだよ。
https://discord.com/blog/how-discord-stores-trillions-of-mes…
うん、その数字(Discordのストレージ量)には画像添付も含まれてるか確信はなかったんだよね。でも、大規模なテキストデータ処理の参考値としては、少なくともだいたい合ってると思うよ。
素晴らしい記事だね!技術的な詳細も全部最高だよ。コロケーションスペースをどうやって確保したのか気になるんだけど、ブローカーを使ったの?それと、価格交渉はした?もししたなら、最初の見積もりと最終的に支払った金額でどれくらいの差があったか教えてほしいな。
SFとFremontにあるコロケーションスペースのほぼ全てに見積もりを依頼したよ。見積もり価格と実際に支払った金額には違いはなかったけど、契約条件や一回限りの費用については交渉したんだ。
見積もりを公開するのを検討してほしいな。コロケーションの名前を伏せてもいいからさ。
楽しい記事だったよ、作者さんありがとう!でも、こういうワクワクするような記事には、いつももっと写真があると嬉しいな!
もし作者さんたちがコメントしてくれるなら、「Standard Intelligence PBC」が何をしているのか聞きたいな。公益法人なの?一体何を開発してるの?
うん、もっと写真を入れたかったんだよ!!だから最近、Sony A7IIIを買って、こういう楽しい瞬間をもっと撮れるようにしたんだ。僕たちは、コンピュータの動作モデルをゼロから事前学習させてるんだ。だから事前学習用データクラスターが必要なんだよね。AGIは公共の利益のために作るのが重要だと考えてるから、うちの会社は公益法人なんだ。コンピュータで行われる多くの作業を自動化する計画もあるよ!
「最高のカメラは、いつもあなたが持ってるカメラだ。」っていう名言があるよね!次の構築記事も楽しみにしてるよ!
多くのコロケーション施設は写真撮影を禁止してるんだ。
Hetznerのsx135を使えば、1TBあたり月1ドルくらいでいけるよ。8個の22TBでRAIDZ1構成の140TBが240ユーロだね。200台借りればもっと安くなるかも。リスクは誰かが引き受けてくれるから、夜も安心して眠れるよ。
将来的にはHetznerみたいなサービスを使う可能性は十分あるね。融資や構築、あるいはその両方を切り離して、ソフトだけ担当するって契約も検討中だよ。HetznerはCPUクオータで苦労したし、ヨーロッパは避けたいけど、自分たちでやれることを示したら、地元で似たような条件で良い見積もりをもらえたんだ。
Hetznerはちゃんとした用途には使えないよ。大抵、濫用だって言って、何の通知もなくデータを全部消されちゃう可能性が高いからね。
全くその通り!Hetznerはどんな理由であっても、動いてるものを問答無用で消しちゃうからね。サポートも信じられないくらいひどいよ。
HetznerはSFに拠点がないと思うんだ。他の機器がある都市の外に接続する必要があるなら、100ギガビットの接続はあまり意味ないんじゃないかな。でも、ピアリングが改善されて、俺の考えが古いだけかもしれないけどね。
大丈夫だよ。光ファイバーの中を伝わる光の速度は、昔も今も変わらず遅いんだ。
君の計算は合ってないよ。最小限の冗長性を持たせても、だいたい1TBあたり月2ドルくらいになるはずだ。
データを保管するだけならかなり安いけど、トレーニングやネットワークのセットアップがよく分からないな。GPUを同じ場所に置かないってコメントを見たんだけど、それじゃあサイト間で100Gbps回線を使って全トレーニングをやるの?プレトレーニング中に完全にボトルネックにならない?
30PBを100Gbpsで送ると1ヶ月くらいかかるけど、4回線なら1週間だね。最初のトレーニングとアレイの初期ロードを重ねて、データが利用可能になり次第トレーニングできるから、トレーニング実行としては許容範囲だと思うよ。データの前処理は、書き込む前にストレージサイトかトレーニングGPU上でやるのは当然だよね。
うちのGPUクラスターは現状100ギガリンクしか使ってないけど、スケールするにつれて帯域幅とストレージは拡張するつもりだよ。コロケーションに4090をいっぱい置いてて、データ分割のための埋め込み計算とかにめっちゃ役立ってるのは特筆すべき点かな。
GPUマシンをコロケーションに置かないって決めたのはどういう経緯だったの?電力コストが高すぎたとか?それともストレージ用よりGPUマシンの方が物理的にアクセスする必要があるって考えたの?
この仕事の前にsfcomputeで働いてた時、H100の電力密度に業界が慣れてなくて、データセンターが文字通り火事になるのを何度も見たよ。うちのトレーニングチップはJBODみたいに標準的なパッケージじゃないんだ。
コンピューターを分散させる、つまりラックを全部埋めずに半分だけ使うって簡単な選択肢じゃないのかな?うちの隣のGPUクラスターは、1つのラックに64A入れられないから、2つのラックに32Aずつ入れてるよ。(230V 3相)
ほとんどのデータセンターでは、ラックのスペースは通常高値で取引されてるんだよね。
僕の情報は古いかもしれないけど、電力密度ってめちゃくちゃ上がってる。多くのデータセンターはスペースは十分あっても、電力があんまりないんじゃないかな。昔の低電力密度向けに設計された建物に、そんなにたくさんの電力供給や冷却を後付けできるわけないしね。
これは僕の経験と同じだね。うちは42Uラックに8台のマシンしか入れられないよ。だって、ラックにもっと電力回路を供給できないんだから。
うん、うちの場合もそうだったよ。
データセンターがラックに、安全に使える以上の電力を供給してるらしいことに、むしろ驚きだね。
計算に関する話も続編として聞きたいな。どこでやってるの?そのデータを処理するのにどれくらいのGPUが必要なの?とか。すごく面白くて新鮮な記事だったよ。いつものtf applyしてニヤニヤしながら電話するだけって感じより、シリコンバレーってこういうことなんだって感じがする。
この規模ならAWSとかCloudFlareに限らず、どのクラウドプロバイダとも個別価格交渉できるよ。S3でも0.5PBくらいから交渉可能。DIYよりクラウドが絶対安いとは言わないけど、クラウドの定価とeBayの機材+無料労働(ピザ代除く)を比べるのは公平じゃないよね。
もっとコメントを表示(1)
AWSではegress費用がネックで、交渉しても譲らなかったから、AIトレーニングには全然使えないんだよね。CloudFlareのプライベート価格は、マネージドのオブジェクトストレージとしてはかなり安い方だと思う。自分たちでホストする能力があるから交渉力もつくしね。マネージドのバケット製品は、シンプルな事前学習データ保存にはオーバースペック。Glacierはアーカイブには良いけど、ML用には現状、似たようなものが無いんだ。
どんなディールの話?50%以上の割引とか?
AWSとかクラウドサービスでは、購入規模によっては50%以上の割引も全然いけるよ。
最低0.5PBのボリュームじゃ無理だよ。10PBでも、ストレージのコミット割引が50%に近くなんてならない。せいぜい10~20%くらいじゃないかな。
ドライブのラック設置を手伝えて楽しかったよ!大量のデータって最高だね :P
手伝ってくれてありがとう!!!
ディスクの故障率の話がないね?数ヶ月経ってどうなってるか気になるな。
以前も話したけど、複数ディスクアレイを立ち上げた時、大量のドライブ故障があったんだ。金曜の午後にラックに設置して、週末にRAIDアレイのストライプが終わった後で読み書きするシェルスクリプトをサッと書いた。ログもなくて、ただの.shファイルだったんだけどね。月曜に出社したら、全てのアレイで大規模な故障が!ストライプ中かストレステスト中か分からず、故障率は50%近く。工場出荷時の不良品で、うちのベンダーの他の顧客も文句言ってたよ。全部メーカーが交換してくれた。生産投入が遅れただけ。その後、次の職場に移るまでの12ヶ月間は一つも壊れなかったな。
へえ、10年間のディスクライフサイクルを通してストレージを管理する問題に対する、うまい解決策だね。
ディスク故障率は昔と比べてすごく減ったね。10年前は毎週何十枚も交換してたけど、今はめったに見ないから驚きだよ。BackblazeのHDD統計を見れば十分って感じだね。
Backblazeの年間故障率は1.36%で、2,400台のドライブなら年間約32台が故障する計算だね。追加の設備投資も年間で約4,000ドルだから、ほとんど気にならないレベルだよ。参照元:https://www.backblaze.com/cloud-storage/resources/hard-drive…
彼らが使ってるのは中古ドライブだから、Backblazeの報告よりも故障率は高くなるんじゃないかな。仕様には2,400台のドライブで、ほとんどが12TBの中古エンタープライズドライブって書いてあったよ。
ディスクの故障はU字曲線になることが多いから、一概には言えないよ。中古ドライブを買うことで、初期の故障率が高い部分を回避できるメリットもあるんだ。大抵のドライブは、寿命による高い故障率が出る前に型落ちになるだろうしね。
輸送によるストレスで、初期の故障率はやっぱり高くなるんじゃないかな。それに、中古のエンタープライズドライブはSMARTデータが消去されてたり、故障寸前で引退させられたものもあるだろうから、注意が必要だね。
ドライブを物理的に動かすと、故障のU字曲線がリセットされがちだよ。その過程で一部は損傷する可能性もあるね。
彼らが中古のエンタープライズドライブを使ってるって言ってたけど、コストを抑えたい気持ちはわかるけど、将来的に高くつくミスになるんじゃないかな。個人的にホームクラスターで中古ドライブを使ってみて、パフォーマンスのばらつきが大きすぎてすぐに諦めた経験があるよ。
たしか、ドライブって「最初のうちに故障するか」、「寿命の終わりに故障するか」のどっちかが多いんだよね。だから中古ドライブを買うのは、初期故障するであろうものを選別済みってことで、そこまで悪いアイデアじゃない気がするんだ。もちろん、俺が何言ってるか全然わかってないけどね。
ハードウェア業界では、この現象を「バスタブ曲線」って呼んでるんだよ。
完璧なデータがあるわけじゃないけど、俺たちの経験と今回の話は一致してるね。多くの故障は、インストール直後、まだ大量のデータが書き込まれる前に起きたから、実際のデータ損失はハードウェアの故障率よりは低かったよ。
HDDはどこで調達したの?serverpartdeals.comとかで中古HDD買うの考えたけど、信頼性が心配なんだよね。
ホームサーバーの趣味なら中古ドライブいいよね。問題解決は楽しいし、ドライブ故障はサーバーをいじる良い理由になるんだ。半分冗談だけど、結構面白いよ。
データセンターだと故障率はリモートハンズの継続コストだから、フロントローダーなら問題ないよ。数ヶ月ごとに誰かが新しいドライブのリストとカート持ってデータセンターに来る感じだね。
彼らが将来Backblazeストレージポッドみたいなトップローダー選ぶか気になるな。そっちの方が密度高いし、ネジ止め不要でセットアップ速いし。彼らは中古ドライブ使ったけどテストしたのかな?僕は中古ドライブで初期不良に当たった経験あるから、SMARTテストや容量検証とかのテストは重要だと思うよ。
うん、トップローダーすごく興味あるよ。次回拡張時にテストラック作って、良ければ切り替えるつもり。中古ドライブのテストだけど、事前に各サプライヤーから少量ずつ買って試したんだ。おかげで怪しいロットを見つけて、大量注文から外せたよ。サプライヤーを複数にするのはリスク分散にすごく有効だね。
”ネジ止め不要”って言っても、古いトップローダーだとツールレスじゃないのも多いよ。RMAするならいいけど、現場で交換したりリファービッシュドライブだけ使うと、結局ネジ止めしまくりだね。結構壊れやすいし、プラスチックが折れたりして、地味に大変なんだ。
この世代のSupermicroの中古マシンは、全部ひっくるめてもすごく安いよ。https://www.theserverstore.com/supermicro-superstorage-ssg-6…
「HDD積み上げパーティーで30PBのハードウェアを36時間で構築」ってあったけど、2400台のドライブに実際かかったマンアワーはどれくらいだったの?
約250マンアワーだよ。
よくやったね!正直な記事と”can do”精神が大好きだよ。きっと楽しかっただろうね。興味あるんだけど、言ってた高密度ストレージじゃなくて、必要な量の”20x”もドライブを買っちゃったミス、なんでだと思う?これを選んだ理由があったの?
20xじゃなくて、必要な量の<2x弱くらいのドライブだと思うよ(24TBと14TBの比較ね)。でも、ドライブを格納してるラックはもっと高密度にできたかもしれないね。どっちにしろ費用はだいたい同じだし、コロケーションがスペース料金を請求しないから大したことないし、慣れてるやり方でやっただけだよ。でも、試してみる価値はあるね。
もっとコメントを表示(2)
彼は初期費用が高くなると言ってたよ。
この話大好きだよ。これこそが本当のハッキングとスタートアップのコスト意識だね。
それで、このデータを今どうやってGPUに持っていくの…?ただ公開インターネット経由でデータセンターに送るの?
うん、その通り!100Gのアップリンクがあって、nginxのセキュアリンクを使って、HTTPでマシンからcurlしてるよ。(面白いことにHTTPSだとオーバーヘッドがあるから、URLを事前に署名してるんだ)
Zayoの100ギガで7.5Kドルってことね。それはMRCの半分くらいだ。
彼らはその距離ならダークファイバーを自分で借りても安く済むはずだよ。でも、彼らが言ってたように、ISPから100Gbpsの容量を使ってるね。
データセンターからオフィスまでダークファイバーを引きたいんだ。100Gbpsって最高だよね!
今、光ファイバーがアビエーターを着て、目からレーザービームを出すポスターを想像してるよ。「Dark Fiber」ってImpactフォントでデカく書かれてるやつ。
サンフランシスコってまだダークファイバーが残ってるの?90年代のバブルは需要を見誤ってたもんな。
DWDM技術の進歩は他のテクノロジーの成長を圧倒してるよ。昔10Mbpsだった1本のファイバーが今じゃ20Tbpsも運べるんだ、200万倍だよ!供給が限られてるファイバーも、今ならすごく長く使えるから、アクセス料金のプレッシャーは思ったより小さいかもね。
最近はどんな接続でも「ダークファイバー」って言う人がいるよね。俺もそれが気になるんだ。
俺が言いたかったのは「ポイント・ツー・ポイントのシングルモード、無終端の光ファイバーケーブル」ってこと。つまり、他のトラフィックがない自分だけのケーブルだね。共有されてるやつは俺の言葉ではMetro Ethernetだよ。
初歩的な質問なんだけど、L2まで行かずに、共有ファイバーでスペクトル帯域を売る中間サービスってあるの?それとも、既製のEthernetを使って共有する方が簡単すぎて、それは複雑すぎるかな?
うん、もちろんあるよ!よく「wave/wavelength」とか「lambda」サービス、あるいは「lit fiber」って呼ばれてるね。
でも、9000万時間分のビデオデータってどこで手に入れるの?
しかも普通のビデオデータじゃなくて、Agentic Computer uses向けのスクリーン録画って明言してたよね。すごく特殊な種類のビデオだ。多分Rewind.aiみたいな会社と提携してるんじゃないかな。
“プライバシーのために、画面と音声の記録はローカルに保存され、Macから出ることはない。”ってRewindみたいなサービスが言ってるけど、まさか本当にRewindじゃないよね?彼らがヘッダーでリンクしてるプライバシーページからの引用だよ。
>多分、ヨーロッパにはそれを置きたくないだろうね。って、それが何かっていう最高のヒントだよね。
俺の計算が合ってるなら、9000万時間の動画を30PBで賄うと平均ビットレートは760kくらいになるね。(プロビジョンしたスペースを初日から全部使うとは思えないけどね)だから、俺の推測だとCCTVみたいな動きの少ない映像か、デスクトップ録画みたいな低ビットレートの動画じゃないかな。このビットレートじゃYouTube動画みたいなもんじゃないと思う。(ビットレートとは関係なく、古いパブリックドメインの動画かもしれないけど)。どんな種類の動画を使ってるのか、めちゃくちゃ気になるよ。
オンプレミスがいかに安上がりになるかを示してるね。脱帽だよ。
メンテナンスのオーバーヘッドが含まれてないね。S3/R2は通常、運用担当者(OPS)を配置する必要がないけど、この手のセットアップだと週に5時間は誰かが対応に追われることになるだろうね。
その通りだね。だから、うちはオフィスから数ブロック離れた場所にデータセンターを置くことを選んだんだよ。
昔、サーバー3ラック分くらい管理してたんだけど、そんなにディスクは多くなかったけど、ハードウェアのメンテナンスは数年間はほとんど必要なかったな(全部クラウドに移行するまでは)。サーバー管理の主な仕事はOSアップデートと、一番面倒なOpenStackだったけど、これはクラウドを使っても逃れられないことなんだよね…。
S3/R2を使えば、そういう問題から解放されるんだよ。ファイルをどさっと置いて、必要な時に取り出すだけ。OSアップデート、ディスク障害、OpenStack、追加ハードウェア?そんなのS3会社の担当で、君の仕事じゃないって。前の会社でAzure Web App Containersを大量に使ってたんだけど、OS関連の作業はほとんどなくなって、クラウドで多くのOSの苦労が減らせるってことだよ。