初めてのメモリエラーと、あれこれ思ったこと

メモリが逝った事象には初めて遭遇した。
会社で運用しているサーバ(IBM x3250)のメモリ1本がお亡くなりになられたようです。


https://farm4.static.flickr.com/3147/2478722780_63d0e3a04e.jpg

5/2の夕方にx3250システムエラーLEDが点灯していることを確認。


https://farm3.static.flickr.com/2298/2478722882_9c36eccb64.jpg https://farm3.static.flickr.com/2201/2478722986_df59f349ed.jpg

もう1つ上のグレードであるx3550というサーバだと、フロントパネルで、どの部分に以上があるか確認できるのだけど、x3250といった廉価モデルだと、筐体の蓋を開けてやらないと、どこに異常があるのかがわからない。
開けてみると、4枚挿しているメモリの1つがエラー。


ちなみに動かしたまま開けてみました。(良い子は真似しないように!)
もちろん、開けても大丈夫かある程度下調べをした上でだし、サーバ機は空気の流れをによる冷却を計算した上で設計されているので、特にラックマウント型のサーバは長い間開けたまま稼動させると冷却効率が下がり、稼動に影響が出るので要注意!!


平日9:00-17:00の保守サポート(そしてオンサイトではなくCRU方式)にしか入ってなかったので、GW明けの5/7にIBMへ連絡。その翌日には交換部品を送ってきてくれたので、本日無事交換。



以下は余談で、もちろん場合によっては、の話だけど。


今やサーバ機は1万円台で買える時代。HPのアレなんかはNon-ECCのメモリだって載せれるし、CPU換装も簡単だから、下手したら3万円も出せば、デュアルコアCPU+4GBメモリ+RAID1構成のディスクの、まぁまぁ高性能でそこそこ堅牢なサーバが手に入る。


何万円もするような保守サポートを付けて修理するより、新しいサーバを投入したほうが安上がりでかつ迅速な復旧が出来るやんという話。

# そのかわり、地球に優しくないけど。グリーンITなんてもっての他。


ミッションクリティカルなものでもない限り、激安サーバを並列に並べるだけで、かなりの可用性が得られると思うんですが。

で、故障時に代替サーバを投入して迅速に復旧させるためには、効率的にソフトウェア構成を作り上げる or 複製するための技術が必要になる。


そういう意味で、PuppetとかFuncとか、運用管理まわりのツールはきっちり抑えておきたいなぁ、と。・・・ん?


あ、あれか、これからはHaaSというかクラウド・コンピューティングの時代だから、もうこんなことは考えなくても良い可能性が高いって事ですか。そうですか。