Motoharu Kubo
mkubo****@3ware*****
2015年 2月 17日 (火) 13:34:26 JST
あきやまさん 久保と申します。 corosyncのログのメッセージに関して山内さんが指摘されましたが、DRBDの挙動 の面からも、何らかの通信障害が起こったように見受けられます。 ネットワークの挙動を詳細にチェックする必要がありそうです。もしも仮想環境 なら、他のゲストOSが高負荷になってしわ寄せを受けた可能性もレビューされる といいかと思います。 なお、貼り付けていただいたログの範囲内では、スプリットブレインは起こって いません。単に一時的にネットワーク障害か何かの原因で、レプリケーションが 途切れただけです。 プライマリ側のmessagesログについて、DRBDからの特徴的なメッセージを抜き出 して、注釈を書いてみました。 > Feb 16 18:00:05 server1 kernel: block drbd0: short read expecting header > on sock: r=-110 不完全なデータしか読み込めなかったという通信障害を検出。 > Feb 16 18:00:05 server1 kernel: block drbd0: receiver terminated DRBDはコネクションを切断 > Feb 16 18:00:05 server1 kernel: block drbd0: Restarting drbd0_receiver DRBDは新たな接続を開始しようとした 次のメッセージとの間に23秒ほどブランクがあります。通常DRBDはただちに再接 続を試みるので、このブランクは少々不可解です。 > Feb 16 18:00:28 server1 kernel: block drbd0: Handshake successful: > Agreed network protocol version 97 セカンダリ側とのコネクションを再度確立した。レプリケーション再開のための 初期の手続きをこれから開始する > Feb 16 18:00:28 server1 kernel: block drbd0: meta connection shut down > by peer. 初期手続き中に相手からコネクションを切断された。これも通信障害に相当 > Feb 16 18:00:30 server1 kernel: block drbd0: receiver terminated コネクションを切断 > Feb 16 18:00:30 server1 kernel: block drbd0: Restarting drbd0_receiver DRBDは新たな接続を開始しようとした -- ---------------------------------------------------------------------- 久保 元治 (株)サードウェア