Amazon EC2のインスタンス障害に遭遇した

iPhone Console for Amazon EC2


現在、Amazon EC2のインスタンス(仮想サーバ)を10台前後、運用しています。

運用し始めて、10ヶ月程度なのですが、先日初めて障害に遭遇しました。
なかなか、こういう事象の情報って、日本ではかなり少ないと思うので、そのときの状況をログとしてこのエントリに残す。


それは、2009/01/19の14:40に、Amazon EC2のインスタンス上で稼動しているサービスのHTTP応答がなくなりました。
(監視サーバからのメールを受けて気付きました。監視サーバでは5分おきに死活確認をしていますので、14:35〜14:40のどこかで障害が発生した模様。)

で、そうこうしているうちに、14:44にそのEC2のインスタンスがリブートされ、サービスは無事復旧。
約5分ほどサービスが停止した以外は、データがロストすることもなく大きな影響はありませんでした。

# "Terminate"ではなく"Reboot"された様でした。


推測するに、おそらくインスタンスが稼動していたハードウェアで何らかの障害が発生し、停止してしまったため、他のハードウェアで自動で復旧してきたのかしら。基盤がXenであることを考えると十分に可能ですね。
VMwareで言うと"VMware HA"、Virtual Ironで言うと"Live Recovery"みたいなイメージです。


インスタンス上で動いているOSのログを確認してみましたが、何も手がかりにつながるようなログは残されていませんでした。残念。


ちょっと、これ以上の現象の詳細については不明です。
おそらく"雲の向こう側"では、自動でH/W障害が検知され、自動で復旧したみたいで、その仕組みはよくできている印象を受けましたが、エンジニア視点では何が起こっているのか分からないので少し不安です。
まぁ、隠蔽されすぎている「クラウド」のリスク面に直面した感じですね。


今のところ、Amazonからのアナウンスはありません。Amazon EC2にとって、部分障害過ぎるのか、日常茶飯事の出来事なのかはわかりませんが。


5分以上アクセス不可能かつ、リクエストが発生した場合は"ダウンタイム"と認められるようなので、こういったログは残しておかないといけないですね。
場合によっては、ログを提出しなければいけないようですから。(Amazon Compute Service Level Agreement 参照)




まとめ

クラウドAMAZON EC2/S3のすべて (ITpro BOOKs)

クラウドAMAZON EC2/S3のすべて (ITpro BOOKs)