HDD交換でサーバ機止まる。


うちのサーバはメイン機とバックアップ機があって、毎晩差分バックアップを取る構成を取っています。
今回バックアップ機の入れ替えをしたんですが、結局メイン機まで影響が出てしまいました。


まずは、何が起こったか、メモだけ残しときます。

日曜(6/14)

  • バックアップ機のHDDを追加。
  • バックアップ機の旧HDDから新HDDにrsyncでコピーしようとするが、エラーを吐いて止まる。
    • エラーメッセージは、error in rsync protocol data stream (code 12) みたいな感じでした。
    • なんかデータサイズが大きいファイルがあることが原因らしい。
  • 仕方ないので、「次のバックアップ時間まで待つか」、と思いバックアップ機を再起動しておく。

月曜(6/15)

  • 2:00 バックアップ開始(バックアップ機のマウントが失敗していて、実際はメイン機が固まる)
  • 7:00 トップページが見れないよ、と言われ、症状に気づいてメイン機を強制リブート・・・でもうまく動かない。
    • トップページ以外のページはちゃんと見れた。
  • ここで、バックアップ機のマウント状況をチェックすると、新HDDをマウントできていなかった。
    • nfsのmount失敗に気づく。
  • 新HDDをmountしたら、バックアッププロセスが今さら動き出す・・・でもトップページは表示できない。
  • 「ひょっとしてDB壊れたか?」
  • DBチェックをしてみる。
    • # mysqlcheck -h localhost -u root -p -a -o -A
  • 原因が分からないので、怪しいブロックも外してみる ⇒ とりあえず表示できた。

(しばらく様子見)

  • やっぱり表示できない。でもたまに表示されるので、違う気がしてきた。
  • プロセスをtopで見てみる。⇒ Dで止まってるhttpdプロセスが大量にある・・・
  • statusのDって何かと調べたら、IOWaitで止まっているプロセスのことらしい。
  • 「あ、よく考えたらバックアップ動かしたままだ。」と気づく。
  • バックアップを止めてみる。 ⇒ ちゃんと動いているみたい。

火曜(6/16)

  • 仕方がないのでcpio使って、バックアップ機のHDD間でコピー開始

って状況です。
早く終わらないかな・・・。