これはほぼ間違いなく機器の故障が原因だね。データセンターの冷却は、他のすべてと同じように過剰にも不足にもなってる。大きな熱交換ユニットはN+1(または非常に重要で小さい負荷の施設では2N/3N)で過剰に設計されてるんだ。これは、定期的にメンテナンスのために停止させる必要があるからで、従来のDCコンポーネントに比べて故障率が高く、専門的な労働が必要な機械修理が必要なんだ。大きな施設では、Nが大きくなると冷却がN+3以上になることも珍しくない。常に何かをメンテナンスしているか、ブロワーアセンブリを待っている状態だから。これがもう存在しない部品で、機械工が旋盤で作らなきゃいけないから、全ユニットを交換するよりも安く済むんだ。システムは過剰に設計されている一方で、もし施設内のすべての計算能力が突然平均の電力消費から100%に上がったら、冷却能力がオーバーロードすることもあるし、電気や他の経路でもオーバーロードすることがよくある。過剰設計は業界の性質なんだ。一般的には、これらの問題は本当の問題にはならない。計算負荷は100%にはならないし、もしそうなっても長くは続かないから、誰も冷却や電力容量のギリギリで施設を作らない。問題は、複数のイベントが交差したときに起こる。冷却システムを平均負荷の200%に設計しているから、メンテナンスや停電のための余裕がたくさんある。修理の人が火曜日にユニットの作業に来て、悪いベアリングを見つけたら、隣の州から取り寄せなきゃいけないから、そのユニットを一晩オフにしておく。そうすると、隣の冷却ユニットが少しだけ頑張って補うことになるけど、そのうちの一つもモーターがちょっと不均衡だったり、ヒューズが緩んで温まってたりして、負荷が増えたことで、何年も問題なかったのに壊れちゃう。これでN+2の施設でユニットが2つ減っちゃった。まあ、200%の平均負荷に設計してるから、そんなにひどくはない。最初に壊れたユニットの反対側にある3つ目のユニットも、今はもっと負荷がかかっていて、故障が出る。これでN+2の施設でユニットが3つ減っちゃった。まだ致命的ではないけど、200%の平均負荷に設計してるからね。問題は、今は午前4時で、現場のオペレーションの人がこれらの故障を修理できなくて、ベンダーに電話しなきゃいけない。ベンダーは午前7時まで起きないし、午前9時まで現場には来ない。負荷が上がり始める。これらのことは、アメリカのどこかのデータセンターで毎日起こってる。おそらく、すべてのデータセンターで年に一度は起こる。次に起こるのは、ニュースになるようなイベントの交差だ。大きな顧客の一つが、今が巨大なバッチ処理ジョブを始める絶好のタイミングだと決める。あるフィンテック企業が市場が開く前に大きなモデルを動かしたいとか、ある石油会社が新しいフィールドの迅速な分析をしたいとか。彼らは1万台の新しいVMを立ち上げる。通常なら問題ないけど、余裕があるからね。でも、平均冷却能力の200%を計画してたことを思い出して。これは、忙しいけどそんなに忙しくないノードじゃなくて、最大の電力を引き出して、最大の廃熱を排出するような、集中的に最適化された数値計算をしているノードなんだ。機械の総数が急増しただけでなく、廃熱の影響も平均して大きくなる。バン!カスケード故障が起こって、冷却がN-4になっちゃう。サーバーファンが早く回り始めて、もっと電力を消費する。冷却がN-5に。アラームが鳴り響く。冷却ユニットの安全装置がトリップし始めて、負荷を超えて冷媒圧が上昇する。冷却がN-6に。冷却がN-7に。冷却が0になっちゃう。