GCPで障害発生中！認証システムが原因か、影響は他サービスにも？

GCPで障害発生中！認証システムが原因か、影響は他サービスにも？

引用元：https://news.ycombinator.com/item?id=44260810

rvnx 2025/06/12 18:42:08

Googleの「Chemist」って中央サービスが原因かもね。それがプロジェクト状態とかポリシーとかチェックしてるから、「visibility check failed」とか「cannot load policy」みたいなエラーや広範な影響も納得だわ。→https://cloud.google.com/service-infrastructure/docs/service…
追記：Googleは原因を「Identity and Access Management Service Issue」だって言ってるよ。

VWWHFSfQ 2025/06/12 18:48:08

GCPだけじゃなくて、他のネットサービスも落ちてるみたいだね。もしかしたらこの「Chemist」サービスが特に外部から影響受けやすくて、それがGCPの内部サービスにまで広がったのかも。

rvnx 2025/06/12 18:50:05

それも十分あり得るね。でも変なのはCloudflareの状況。https://www.cloudflarestatus.com/
最初は「Access authentication to fail」から始まったんだって。これってGoogleの障害後に認証とかquotaがおかしくなった説を裏付けるかも？でもその後どうなったの？！ただの雪だるま式？！なんか変だよな。

terom 2025/06/12 20:02:45

Cloudflareのインシデント報告によるとね、「Workers KV」って重要なサービスが、主要な依存関係である「3rd party service」の障害でオフラインになったらしいよ。だから、KVサービスに依存してる一部のCloudflare製品が使えなくなったって。
Googleの障害がCloudflareに広がるなんて意外だけど、あり得なくはないか。

whatevertrevor 2025/06/12 19:00:55

Cloudflareって自前でインフラ持ってるはずなのに、GCPと一緒にこんなに広い範囲で落ちてるなんてビックリだな。

voytec 2025/06/12 20:18:37

「3rd party serviceの障害」ってことはさ、CloudflareってGCPに依存してて冗長性がないってこと？まあ、「key dependency」って書いてるし、そう読めるよね。

tibbar 2025/06/12 22:57:51

じゃあどうするっての？インフラを別のクラウドで複数作って自動でfail-overさせる？そんなの無理ゲーだし、どう考えても問題が増えるだけだと思うけどなー。modern devopsでもそこまでは難しくない？

cyberpunk 2025/06/12 19:06:41

そう思うよなー。DownDetectorではAzureとかOracle Cloudも落ちてるって報告されてるけど、さすがにGoogleには依存してないだろ。DownDetectorも全部が正しいわけじゃないんだろうな。https://ocistatus.oraclecloud.com/#/
https://azure.status.microsoft/en-gb/status
公式ステータスは両方グリーンだよ。

derefr 2025/06/12 20:58:49

Cloudflareって、ふつうのcloudじゃなくてCDNなんだよね。得意なのはエッジPOPで賢いことすること。だから、自社のcontrol planeみたいなedgeじゃない部分のcomputeは、GCPみたいな「competitor」cloudに置いちゃってる可能性高いと思うよ。
そこはrevenue centerじゃないし、OpExを最適化するほどでもないからね。

arccy 2025/06/12 23:04:34

彼らって自分たちでdata centerを運営してるcompanyなのに、public cloudが落ちたときに一緒におかしくなるとは思わないよね。

smoe 2025/06/12 20:10:13

Cloudflareの最新のステータス更新見ると、システムがGCPに依存してるってことがほぼ確定みたいだよ。
「Cloudflareの重要なWorkers KVサービスが、主要な依存先であるサードパーティサービスの停止によってオフラインになった。その結果、KVサービスに情報を保存・配信するCloudflareの一部の製品が利用できなくなった」って言ってるね。

whatevertrevor 2025/06/12 21:21:44

でもさ、もしコントロールプレーンが単一のクラウドプロバイダーに依存してるなら、こういう大きな問題に晒されることになるよね？
特にインターネット全体のReverse ProxyやCDNになりたい会社（Cloudflareのことかな？）なら、なおさらじゃない？

hplk 2025/06/12 23:32:01

正直、すごく驚いたよ。
他社のクラウドサービスに依存すること自体、一般的になっちゃったけど、やっぱりリスクはあると思うんだよね。
でも、Cloudflareがこんなに依存してるなんて思ってもみなかったな。

mrGomesDev 2025/06/12 18:49:09

俺、通知にはExpoの仲介を使ってるんだけど、今回のGoogle関連の状況を考えると、FCMも影響受けてるんじゃないかなって思うんだよね。
それってありえる？

mandevil 2025/06/12 19:32:30

Down Detectorは、クラウド全体がダウンするような状況だと問題があるんだよね。
予期せぬ依存関係ってやつ。
問題ないクラウドで動いてるアプリがおかしいって Down Detectorに報告しても、そのクラウド自体は大丈夫だったりする。
実際には、そのアプリが、問題のクラウドで動いてる別のSaaSプロバイダーに依存してて、そっちのせいで死んでるってことがよくあるんだよ。
例えば、「本来あるべきBackpressure（処理しきれないデータが溜まること）を受けて、処理キューが閾値を超えたからユーザーにエラーを返したんだけど、実はそれはSaaS Xからのタイムアウト待ちが遅すぎてキューが溜まったせいだった」とかね（こういうので何回も痛い目見てる）。

ProAm 2025/06/12 23:47:43

Googleって、Tech CompanyじゃなくてAdvertising Companyだからね。
広告収入に関係ないクリティカルなことを、Googleに頼るのはやめた方がいいよ。

whatevertrevor 2025/06/12 21:19:39

あー、俺も今それ見たよ。
面白いね、Cloudflareがこれだけ大きな外部依存の表面を持ってるってのは、確かにちょっと驚きかな。

rvnx 2025/06/12 18:51:20

可能性はかなり高いね。
Firebase Authは確実にダウンしてる（まだ公式発表されてないけど）。
だから、FCMも多分そうだろうね。

snowwrestler 2025/06/12 22:36:12

CloudflareのビジネスモデルはB2Bで、全部のネットをCDNするわけじゃないんだ。
コスト削減できるならGoogleとかのクラウドに依存するのも普通じゃない？

smoe 2025/06/12 21:29:04

大手クラウドと競合してるCloudflareの製品が、GCPにこんなに依存してるなんてビックリしたわ。

praveen4463 2025/06/16 15:32:33

Firebase全体が完全にダウンしてたよ。

ghshephard 2025/06/13 00:35:37

世界に主要なIaaSプロバイダーは20～25社くらいあるけど、互いに依存すべきじゃないよね。
Cloudflareはそう思ってたはずだし、今回の障害で対策するんじゃね？

mbreese 2025/06/12 22:39:37

確かにそうだけど、こんな障害って頻繁に起きる？
GoogleがダメならCloudflareも期待できないし、サービスも復旧したみたいだね。
滅多に起きないならGCPに依存しても大した問題ないんじゃない？
自前でフル構築するよりコスト安いしね。

arccy 2025/06/12 23:06:29

CloudflareはWorkersをコンピュートプラットフォームとして推してるけど、過去の障害報告
（https://blog.cloudflare.com/major-data-center-power-failure-in-sjc/）
見ると、やっぱり自前のDCを持つべきだと思うな。

voytec 2025/06/13 01:50:49

「代替策は？」じゃないだろ。
Cloudflareは「唯一の」冗長性・CDNプロバイダーとして宣伝してんだから、文句言わずにバックエンドのインフラをきっちり整備しろって話だよ。

craigseeman 2025/06/13 12:24:56

数週間前のこのインタビュー
（https://youtu.be/C5-741uQPVU?t=1726s）
でも、ちょっとだけ触れてたんだよね。
あれ、驚いたわ。

atonse 2025/06/12 18:20:20

Claude Sonnet 4 (Cursor)とかGemini Proでエラー出まくりだよ。
うわー、また自分の脳みそだけでコード書かなきゃいけないのかよ。
2024年12月の原始人コーダーに戻るのか…

burntalmonds 2025/06/12 18:36:02

俺も同じだよ。AI Studioでさ、「コンテンツ生成失敗：割り当て量オーバーだって。後でやれ」って出るんだよね。

bicx 2025/06/12 18:27:39

俺さ、Cloud Storageにファイルアップロードのテストしてた最中だったんだ。
だから、まあ、散歩にでも行くのにちょうどいいタイミングかなって。

matsemann 2025/06/12 19:46:42

エラー処理を追加する良い口実になるな。
普段つい忘れがちだから、へへ。

もっとコメントを表示（1）

robin-a 2025/06/12 20:07:03

CursorのAuto Agentモードでもエラー出てるよ、俺も。

cryptonector 2025/06/12 19:40:27

2025年6月12日より前のDevたち：「AI？プッ、幻覚ばっかじゃん。俺の代わりになんてなれないね！」
2025年6月12日のGCP障害中のDevたち：「AI無いのかよ？！俺を奴隷だと思ってんのか？！」
皮肉効いててウケるね。

atonse 2025/06/12 20:11:28

マジそれな…。
障害待ってる間にJIRAのタスク整理でもしようかと思ったけど、AI使ってバックログ掃除するのに慣れすぎて、いちいちチケット開くのがすげーめんどくさい。
たった2ヶ月でこんなにツールに依存するなんて、良い wake-up call だわ。

tough 2025/06/12 22:08:10

ローカルのLLMなら動いたかもね。

sva_ 2025/06/12 20:48:21

Devって一括りにするのは違うでしょ。

crocowhile 2025/06/12 18:43:33

openrouter.ai も落ちてるわ。

ashu1461 2025/06/12 18:39:55

GPTはエージェントモードで動いてる。
ClaudeはGoogle、GPTはMSFTサーバーか自己ホストって感じかな。

kenhwang 2025/06/12 20:29:43

ClaudeがGCPでホストされてることの確実な情報ならこれだよ。
https://www.anthropic.com/news/anthropic-partners-with-googl…

mkl 2025/06/13 01:26:39

あれ、もう2年半も前の話なんだ。この業界だと永遠くらい昔だね。内容は今でも本当かもしれないけど、あの記事は良い根拠にはならないよ。

scottmf 2025/06/12 20:49:13

俺の知る限り、ClaudeはAWSで動いてるよ。OAIはAzureだね。
追記：あー、もしかしたらGCPでも動いてるのかもね。でも個人的にはClaude Codeを使うのに問題ないんだけど。

Xavez 2025/06/12 19:23:22

Appleのローカルモデル、日を追うごとに良く見えてくるね:’)

nolist_policy 2025/06/12 19:31:54

Googleのローカルモデルもね（Gemini Nano/Gemma 3n）。

ilc 2025/06/12 19:34:54

Gemma 3nってどうやってローカルで動かすの？

n0mer 2025/06/12 21:23:05

https://github.com/google-ai-edge/gallery/releases/tag/1.0.3

ipsum2 2025/06/12 18:49:15

Cloudflareもダウンしてるみたい。https://www.cloudflarestatus.com によると：更新情報 - 一部のサービスで断続的な障害が発生してるよ。調査を続けていて、各サービスの影響を評価したらリストを更新するってさ。
影響が出てるサービス：
Access
WARP
Durable Objects (SQLite backed Durable Objectsだけ)
Workers KV
Realtime
Workers AI
Stream
Cloudflare dashboardの一部
2025年6月12日 - 18:48 UTC
追記：https://news.ycombinator.com/item?id=44261064

0xy 2025/06/12 21:11:50

CloudflareがGCPを主要な依存先として使ってたら、マジで何やってんだって感じだよね。

a2128 2025/06/12 22:44:16

いつかCloudflareがGCPに依存して、GCPがCloudflareに依存して、AWSはそのどちらかが動いてることに頼って、CloudflareもAWSに依存する、なんて日が来るかもね。
そうなったら、インターネット全体がダウンして、誰も直し方を知らなくなるよ。

IX-103 2025/06/12 23:25:24

Google社内でも似たようなことが起きたらしいよ。
頻繁に読む小さな設定用の分散データストアと、めったに読まない大きな設定用の別データストアがあってね。
小さな方は、大きな方に依存してるサービスに依存してて、その大きな方がまた小さな方に依存してたんだって。
システムを「コールドスタート」させる計画はあるらしいけど、僕が知る限り、実際に試されたことはないみたい。

__turbobrew__ 2025/06/13 04:00:56

その秘訣は、関連する設定を定期的にディスクにシリアライズしておくことだね。
で、システム起動する時はディスク上の設定を使うんだ。
多分、めったに読まれない設定のサービスについてはこれをやっておけば、頻繁に読まれる設定のサービスは、めったに読まれない方のサービスがなくても起動できるはずだよ。

syllogism 2025/06/13 08:33:28

入力用のバックアップジェネレーターみたいなもんか。
なるほど、理にかなってるね。

__turbobrew__ 2025/06/14 00:07:42

そうそう、僕もシステムを起動する時はそう設定してるよ。
例えば、サービスディスカバリシステムは、ピアの情報を定期的にディスクに保存しておくんだ。
それで、もし全部落ちちゃっても、特定のノードのIPアドレスは固定にしておけば、サービスディスカバリシステムは最後に知ってたピアのIPを使って自分で復旧できるんだよ。

solardev 2025/06/13 09:54:38

Workers KVに入れとけばいいじゃん…
あ、そっか（皮肉）。

lysace 2025/06/12 23:11:16

それはIRCの出番だね。
（ちなみに、そのフィンランド人の発明者は、https:＼＼en.wikipedia.org＼wiki＼Jarkko_Oikarinen によると、偶然にもGoogleのストックホルムで働いてるらしいよ。）

ipsum2 2025/06/12 18:59:03

動くはずだけど、トップページにも載ってるよ。

0xffany 2025/06/12 18:43:31

18:43 UTC時点で全部ダメっぽいな… ここ見てみ？ https://downdetector.com/

voytec 2025/06/12 20:16:54

なんかGoogleの人と話しててさぁ、「AWSも落ちてる」って言われて、確認もしないで「BGP攻撃か？」とか言っちゃったんだよね。恥ずかしいわ。

toast0 2025/06/12 20:42:58

BGPの問題っぽくなかったな。サービスはすぐエラーになったし、だらだら落ちる感じじゃなかったんだ。

yard2010 2025/06/12 21:11:56

こういうフェイクニュース好きだわぁ。なんかScary Movieの変なシーンみたいでウケる:’）

deepsun 2025/06/12 20:10:53

たぶんGoogleが最初に報告したんじゃない？

plateng000 2025/06/12 19:34:49

「ずっと前からそうだよ」

もっとコメントを表示（2）

AdamJacobMuller 2025/06/12 20:03:41

Googleのステータスページだよ。
https://status.cloud.google.com/regional/americas

paxys 2025/06/12 20:08:18

Googleだけじゃなくて、AWSとかMicrosoft、Cloudflare、GCPとかもっと広い範囲の問題っぽいね。全部がGoogleのインフラに依存してるわけじゃないし。

ikiris 2025/06/12 20:48:38

あー、やっぱりそうだった。
CloudflareがマジでGCPの問題だったんだね。
他のサービスもCloudflareとか適当なGoogleのものに依存してたんだろう。
DiscordとかもアップデートでGCS使ってたし。

patapong 2025/06/12 18:53:51

たぶんさー、障害の検知システム自体がGoogle Cloudで動いてたりしてね /s

throitallaway 2025/06/12 19:17:05

Downdetectorってさ、ユーザーの報告を表示してるだけだと思うよ。

brentm 2025/06/12 19:45:49

うん、間違いないね。
サービスが落ちてるかチェックしてたら、それは実質的に「落ちてるよ！」って投票してるようなもんだから。

lysace 2025/06/12 20:13:37

DowndetectorとSpeedtestをやってるOoklaにとっては、ちょっと機会損失だったかもね。
世界中のISPでソフト動かしてるのにさ。
https://help.speedtest.net/hc/en-us/articles/360039164793-How-do-I-setup-a-Speedtest-server-at-my-ISP-
まぁ、障害の検知って簡単じゃないけどね。

peanut-walrus 2025/06/12 21:43:51

こういう障害の時は、Downdetectorは完全に誤情報だよ。

peanut-walrus 2025/06/12 22:38:08

Downdetectorはサービスを監視してるわけじゃなくて、SNSとかからのユーザー報告をまとめてるだけなんだ。
大規模な障害だと報告がノイズだらけになって、ほぼ全部ダウンしてるみたいに見えちゃうんだよ。

記事一覧へ

著者

海外テックの反応まとめ

暇つぶしがてらに読むだけで海外のテックニュースに詳しくなれるまとめサイトです。