メモリエラー

昨今のメモリの値崩れで山ほどメモリを積んだPCが欲しくなってきたのだけど、これほど大量のメモリを搭載するとエラー発生率とかどうなんだろうと気になってくる。
Soft Error and PAGE_NOT_ZERO stop - NyaRuRuが地球にいたころという記事にWindowsVistaのベータテスト中に収集されたBSODの原因調査について言及されている。これによるとドライバやハードウェアのバグと比して5倍もの量のメモリエラーに起因するクラッシュが報告されているとのこと。
この記事が参照している記事を同じく引用させてもらうと、以下の割合ぐらいで宇宙線由来のビット化けが生じるらしい。

[Tezzaron] によれば, 2004 年の時点では 1,000 から 5,000 FIT/Mbit 程度のエラー発生率が妥当な数値であったとされている。この 1,000 FIT/Mbit とは,実際にどの程度の発生率なのだろうか? 例えば 256Mbit のメモリを搭載した携帯電話ならば,半年に 1 回程度の確率でソフトエラーを引き起こすことになる。これが 1GB のメモリを搭載した PC になると, 5 日に 1 回の確率にまで高まる。更に飛行機の中などになると,約 100 倍の 100,000 FIT/Mbit 程度にまで高まると考えられるから, 512MB のメモリを搭載したノート PC を持ち込んだとして, 2.4 時間に 1 回の確率でソフトエラーを引き起こすという勘定になる。

http://www.radiumsoftware.com/0607.html#060712

地上でも1GBで5日に1回の割合で発生する、というのは考えていたよりずっと頻度が高い。もちろんメモリ中のコード部分とデータ部分では後者の方が大きいケースが多いので、実際にビット化けが即クラッシュに繋がるわけではないだろうが、ECC無しなら原因不明のクラッシュのうちどれぐらいがこの原因によるのかと心配になってくる。エラーの発生頻度は単純に搭載量に比例するようだし、最近のDRAMは更にプロセスルールが進んでいるのでこの論文よりも発生率が高まっている可能性もあるんじゃないだろうか。
先日IIJとSUNなどが地下にDCを作るという話を発表していたが、案外、宇宙線対策としても効果があるのかも*1

*1:もちろんDCで運用するサーバはECC付きのメモリを使っているのが普通だが