Cloudflareがまさかの停止!
引用元:https://news.ycombinator.com/item?id=44261064
Cloudflare公式ブログのリンクだよ。今回の件についての詳細が載ってるよ。
https://blog.cloudflare.com/cloudflare-service-outage-june-1…
記事からの引用ね。”Cloudflareの重要なWorkers KVサービスが、主要な依存関係であるサードパーティサービスの停止によりオフラインになった”んだって。
つまり、彼らは一部サービスで GCP に依存してるってことかな。
もしそれが本当なら、BGP周りの他のいざこざがなければ、その依存関係はすぐなくなるんじゃない?
記事からの引用だよ。”Workers KV は、中央ストアのためのはるかに回復力の高いインフラに移行中なんだ。残念ながら、今回はその移行の隙間を突かれちゃったんだね”ってさ。
俺の WAG (てきとーな推測)だと、Workers KVって会社全体のインフラの95%くらいを占めてるんじゃないかな。
mandatory dependency で、insider risk を軽減するための”必須の依存関係”だって聞いたよ。だから、まずなくならないね。たぶん、”問題点を早期に発見するため”とか言って、さらに遅いロールアウトを強制するようになるんじゃない?
CEO が”すぐになくす”って言ってたよ。
Sub-processor ページって、そういうの確認するのに簡単だよ。Cloudflare のサービス向け Sub-processor ページはこれ。
https://www.cloudflare.com/gdpr/subprocessors/cloudflare-ser…
似たようなこと書いたわ。今後のためになったぜ。
ってことは、一部のサービスでGCP使ってんの?
Googleは停止なんてしてないって言ってるぜ。ホラここ↓
https://x.com/Google/status/1933246051512644069
https://nitter.net/Google/status/1933246051512644069
そう言いたい気持ちはわかるけど、顧客ならみんな嘘だって知ってるよな。
これっていつもの”顧客の3%にとっては100%ダウン”ってやつ?
Google Cloudのステータス見ろよ↓
https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1S…
まじかよ、停止してたって明確に書いてある公式ダッシュボードじゃなくて、4時間も前のツイートなんかリンクしてんのかよ。
SLAとかSLOの支払いから逃げようとしてんだろ。
Downdetector見ると、GoogleとかCloudflare、AWSとか大手で軒並み停止してるぞ。
噂じゃあ、これ全部BGPルーティングの問題らしいな。
確かにありそうだな。前にこういうの見かけた時、BGPが原因でトラフィックがイランとか中国経由になったことあった気がする。
そういやもっと前の中国関連の事例もあったな。これ↓
https://www.cyberdefensemagazine.com/experts-detailed-how-ch…
なんか昔似た件あったっけなー。でも今回はこんなにいっぱいサービスに影響した感じじゃなかったかも。てかさ、個人的には何もダウンしてるの気づいてないんだよね。俺ヨーロッパにいるけど。
これがその件ね [1]。なんか単一の /24 を狙ったみたい。だからそんなに大事にならなかったのかもね。[1] https://bishopfox.com/blog/bgp-hijacking-technical-post-mort…
「Internet Health Report」ってとこがさ、「表示するデータなし」って言ってるよ。[1] https://www.ihr.live/
Anthropic もダウンしてるか、なんか調子悪いっぽい。もう散歩行こうかな。
GCP もダウンしてるってさ。 https://news.ycombinator.com/item?id=44260810
変な偶然だねー。CloudflareってGCP使ってんのかな?
Googleの停止状況見る感じだと、たぶん認証のインフラが原因っぽいよ。
これってどういう意味?Googleの停止ってほとんどのGCPサービスに影響する広範囲な停止のことだけど。
Googleは原因が一部の中心的IAMサービスにあるって言ってるよ。それが他のサービスにカスケード影響してるんだって。
その情報どこで見たの?SNSかな?
インシデントレポートの影響サービスリストにIAMサービスがあるのは確かに見たよ。
ここ見て。
https://status.cloud.google.com/incidents/ow5i3PPK96RduMcb1S…
Identity and Access Management Service Issueのせいで複数のGCP製品が影響受けてるって書いてある。
上を見てごらんよ。このHNコメント欄の上のほうに高評価されて載ってるじゃん。
もっとコメントを表示(1)
俺がその返信を投稿した時にはまだそうじゃなかったんだよ。お前が俺の投稿に返信してるのって、俺が投稿してから2時間後だし。
そのコメントは自分で意味がわかるものだったし、いや、広範囲なGCP停止じゃなかったんだ。GCSとfirebase以外はほとんど動いてたし、その後でIdentity関連がカスケード問題を引き起こし始めたけど、このコメントが投稿された時点ではそうじゃなかった。
>広範囲なGCP停止じゃなかった
これが広範囲じゃないなら何が広範囲なんだよ?
API Gateway, …, Vertex AI Search
これだけのサービスが影響受けてるインシデントだぞ。
うちのGCPのインフラ全体は全然大丈夫だったよ、ただ何も管理できなかっただけだけど。なんて言えばいいか分かんないや。お前がリストアップしたものの多くは全然止まってなかったし。
お前んとこで止まってなかったからってみんなが大丈夫だったわけじゃないんだよ、ほとんどみんながダメだった可能性もある。
Googleも誰も影響受けてないならサービスを停止リストに入れないはずだろ。
「俺には動いてた」から「みんなに動いてたはず」って決めつけちゃダメだよ。
元SREとして、この手の仕組みはよく知ってる。記事に挙げられてるようなのが本当に広範囲で止まってたら、もっとずっとひどかったはずだ。
言ってること意味わかんないんだけど? GCP自身のステータスページでも障害って書いてたじゃん? うちの上流のプロバイダー(GCP使ってる)は確かに影響受けてたし止まってたよ。
元SREとして、「広範囲な障害」ってのは、一般人にはステータスページ見てもわからない特別な分類なの? それともどういう意味?
Google自身がこれを障害としてリストアップしてるのに、議論するってすごい変だね。
向こうのKVストアは確実に止まってたね。
うん、これは問題になるね。こんなに多くのサービスにわたって広範囲な問題は久しぶりに見たよ。
みんなが一握りの場所に全部集めるせいで、今はこれが半ば定期的になってるみたいだね。
言わせてもらうと、こういうこと起こるの、ちょっといいんだよね…プロバイダーから顧客まで、みんな仕事がなんか一時停止する。
なんか国民の休日みたいに感じて、影響受けてるクラウドの下流にいる人たちは、何もできないからただ座ってリラックスできるんだよ。
自分のところで障害が起きたら、全員出動パニックモードだけど、ネットの半分が止まってるなら、もう自分の問題じゃないって感じ、笑
どのくらいのダウンタイムが許容されるかは、会社次第だね。Cloudflareみたいに(うまく対応してた)なら、これをサードパーティプロバイダーに対するフォールトトレランスを構築するきっかけにする。
もし君のアプリがミッションクリティカルなら、ダウンタイムは休日どころじゃない。
当ててみようか、誰かが悪いBGP設定をデプロイしたんだろ?
この規模で広範囲な障害なら、それが主犯であるはずだね。
「ネットをどう救ったか」って大げさなブログ記事がきっとすぐ出るよ😉
今は落ちてるけど、参考までにこの記事を見てね: https://blog.cloudflare.com/the-ddos-that-almost-broke-the-i…
「あなたが人間か確認します」ってダイアログとWorkers機能にも影響出てるみたいだよ。
うん、KVもダメだね。KVに依存してるWorkersは全部エラー出てるよ。ダッシュボードには入れたけど、めちゃ遅い。UTC 18:00頃からエラー率がかなり上がったみたい。
追記: CFのステータスページでも多くのサービスで広範囲な障害だって認めたよ: https://www.cloudflarestatus.com/incidents/25r9t0vz99rp
何度か試したら俺もダッシュボードに入れたけど、使い物にならないね。エラーポップアップがずっと出てるよ。
そうなんだ。でも、なんでいつもCloudflareからこういうダイアログが出るのに、Akamaiからは全然出ないんだろうね?
このコメントを低評価したり投稿を報告したりしても、この深刻な問題は解決しないよ。この認証ダイアログのせいでインターネットが使えなくなるんだ。
apnews.comのスレッドで文句言ったんだ。apnews.comの認証自体もウザいのに、今回は全く動かなかったからさ。それは全然関係なくないでしょ。
タイトルが「広範囲なCloudflareサービス停止」に変わったよ。
東京で18:00 UTCから予定メンテしてて、問題が18:19 UTCに始まったって偶然?
関係ないよ。CloudflareにはダウンしてるGCPに依存してるサービスがあるから。でも、東京でメンテしてた人たちは、自分たちのせいかと思って顔面蒼白になっただろうね…
ポストモーテムで原因が分かるだろうね。こういう時こそ学びがあって、良い報告書を読むのが楽しみなんだよ。
そうだよ。Cloudflareは業界でもトップクラスの良いポストモーテムを書いてて、読むのがすごく楽しいんだ。URL:https://blog.cloudflare.com/tag/post-mortem/
こういう透明性や責任を持つ姿勢は本当にすごいと思う。誰だって失敗するけど、多くの会社は間違いを隠そうとするんだよね。Cloudflareのやり方を見ると、もっと信頼できるって感じるよ。
>これって公開されるの?
うん、そうだよ。
あのページにはいつも予定メンテが載ってるから、僕の経験からすると、それはあまり当てにならないサインだよ。
Cloudflareのラバランプが暗くなってるみたい。
もっとコメントを表示(2)
このポストモーテムが待ちきれないよ。Google Cloudの停止がCloudflareのサービスをダウンさせるって、なんだか変な感じ。
インシデント情報が更新されたって。
影響は認証だけじゃないらしいよ。
Workersアプリは動くようになったよ。
追記:USはOKだけどEUの顧客はまだダウンしてるって。
追記:EUの顧客からも大丈夫になったって報告きてる。
分散システムってのは壊れるもんだろ、それが普通。
大事なのはどれだけ早く被害を抑えて、エンドユーザーにバレないか。
KVがauthとかUIとかWorkers全部巻き込んでるなら、障害分離ができてない証拠。
復旧はいいけど、ローカルの問題直すのに全体で連携しなきゃいけないのは設計がイマイチ。
完璧な稼働時間じゃなくていいけど、復旧後はもっとスムーズに感じなきゃ。
今はシステムは助かったけど、インターフェースがダメだった感じだね。
Cloudflareの認証もGoogleのIDシステムも昨日けっこう長い時間止まったね。
これってなんか技術的な繋がりがあるのかな?
Cloudflareははっきり言ってないけど、ブログにはこう書いてあったよ。
「今回の障害原因はWorkers KVサービスの基盤ストレージインフラの障害。これは多くのCloudflare製品の重要な依存関係で、設定とか認証とかアセット配信に使われてるんだ。
このインフラの一部はサードパーティのクラウドプロバイダーが提供してて、そいつが今日停止してKVサービスに直接影響したんだ。」
Workers KVがもう30分以上止まってる。マジで深刻な影響が出てるよ。
APIもダメだ。
あれだけ冗長性あるのに、こんな風に全体に影響するなんて信じられないね。
インシデントページ(https://www.cloudflarestatus.com/incidents/25r9t0vz99rp)によるとね、
「Cloudflareの重要なWorkers KVサービスは、キーとなる依存関係であるサードパーティサービスの停止でオフラインになった」って。
このサードパーティってGCPじゃないかと俺は見てるね。
Cloudflareのデータセンターで動くってめちゃくちゃ売りにしてたんだから、冗長性のためにWorkers KV使ってたCloudflareの顧客だったら相当キレると思うわ。
CDNとWAFは大丈夫みたいだね。
Cloudflareは古いサービスとかコアサービスほど信頼性高くない新しいサービスを急いで出しすぎたんだと思うよ。
プロキシはだいたい大丈夫みたい。
たぶんWorkers関連のローカルな問題だね。
Identity access rulesでZT tunnel通してる俺のサイトの一つだけが影響受けてるからさ。
もしかして太陽フレアが原因?
いやいや、記事はCloudflareが止まったって話でしょ。
今回の停止を引き起こしたプロンプト(もしAI関連なら)も公開してくれるといいんだけどな。
ポストモーテム(事後検証)はもうAIにやらせちゃえばいいんじゃね?
彼らはただ”速く動いて色々ぶっ壊す”を100倍の速さでやってるだけだろ。コードの中身なんてどうでもいい、全部ノリと勢いで乗り切れってかw /s