2010年3月10日水曜日

2/24にGoogleで障害、Google AppEngineが2時間ダウン: 今回はネットワーク障害ではなく、単なる電力障害

2/24Googleで起きた障害は、およそ2時間にわたるGoogle AppEngineのサービス停止であったが、過去に起きた(2009年の59月)障害の原因がルータとネットワーク許容量の問題が起因していたのに対して、今回の問題の原因は主要データセンターでの電力障害である、と報告されている。 

 

さらに問題を大きくしたのは、内部の関係者の障害対策手順が徹底していなかったことも指摘されている。  電力障害自体は、30分程度で回復したが、データセンタ内の一部サーバー群が再起動をうまく出来なかったことが回復の遅れを誘っており、関係部隊内に、手順の認識にズレがあったことを認めている。 

 

大きな障害時には、別のデータセンタへのFail Overと称してサービス要求をすべて移行する方法がとられる事になっているが、このあたりの詳細の手続きを記載したドキュメントに問題があったらしい。  

 

ドキュメントの解釈が異なっていたために、Googleのエンジニア内で、別のサイトに移行すべきか、主要データセンタの早期回復を図るか、という所で判断出来なかった、との事。 

 

2/24に起きた問題の一部始終は下記のサイトで細かく解説ざれている。 

https://groups.google.com/group/google-appengine/browse_thread/thread/a7640a2743922dcf?pli=1

 

 

自動化が大きな柱になっているクラウドコンピューティングの世界ではあるが、障害対策においては、未だに人間に頼るところが多く、担当する障害対策部隊の日頃からの訓練、ケーススタディ等が非常に重要な要件である、という事が改めて認識される事件である。  また、対策にあたっては、事後での報告であっても、詳細に報告し、その対策についても明確に発表することによってビジネスの透明性をを出すことが重要であることも関係者の間で議論されている。

 

Googleが発表した対策案とは下記の通り。

 

·     Google will schedule additional drills by all oncall staff to review production procedures, including those for "rare and complicated procedures." All members of the team will be required to complete the drills before joining the oncall rotation.

·     The company will also implement a regular bi-monthly audit of operations docs, and ensure that all out-of-date docs are properly marked "Deprecated."

·     The company will "establish a clear policy framework to assist oncall staff to quickly and decisively make decisions about taking intrusive, user-facing actions during failures. This will allow them to act confidently and without delay in emergency situations."

·     Google said it will make a major infrastructural change in App Engine, which currently provides a "one-size-fits-all" Datastore. In
the wake of the Feb. 24 outage, Google says it will offer two different Datastore configurations: the current option of low-latency and lower availability during unexpected failures, and a new option for higher availability using synchronous replication
for reads and writes, "at the cost of significantly higher latency."