Oracle client libraryのバグではまる
解析
問題が発生した日の周辺でアプリケーションを触った形跡はない。
ライブラリに同梱されていたsqlplusも動かない。breakは効いて終了はできる。ループに嵌ると妙にsystemのCPU時間が長い。
sqlplusをstraceしてみるとtimes(2)を呼びまくっている様子。それらしいキーワードでググると、どうもOracleのクライアントライブラリ自体が持つバグで、稼働プラットフォームのuptimeに起因するものであるようだ。しかし、問題が発生する閾値となる値は報告者によってまちまちで140日ぐらいで起こると言っているケースから200数十日で発生すると言っているものまでマチマチ。この辺の詳細はソースが見ることが出来ないので確定的な事は言えないが、問題があることは確かなようだ。ちなみに、今回問題となったサーバでは丁度200日を越えた程度だった。
根本対策のパッチは探すとしても、とりあえずの対応としてリブート。直る、うわーん。