[Linux-ha-jp] DRBDスプリットブレインの発生原因に関して

アーカイブの一覧に戻る

Motoharu Kubo mkubo****@3ware*****
2015年 2月 17日 (火) 13:34:26 JST


あきやまさん

久保と申します。

corosyncのログのメッセージに関して山内さんが指摘されましたが、DRBDの挙動
の面からも、何らかの通信障害が起こったように見受けられます。

ネットワークの挙動を詳細にチェックする必要がありそうです。もしも仮想環境
なら、他のゲストOSが高負荷になってしわ寄せを受けた可能性もレビューされる
といいかと思います。

なお、貼り付けていただいたログの範囲内では、スプリットブレインは起こって
いません。単に一時的にネットワーク障害か何かの原因で、レプリケーションが
途切れただけです。

プライマリ側のmessagesログについて、DRBDからの特徴的なメッセージを抜き出
して、注釈を書いてみました。

> Feb 16 18:00:05 server1 kernel: block drbd0: short read expecting header
> on sock: r=-110

不完全なデータしか読み込めなかったという通信障害を検出。

> Feb 16 18:00:05 server1 kernel: block drbd0: receiver terminated

DRBDはコネクションを切断

> Feb 16 18:00:05 server1 kernel: block drbd0: Restarting drbd0_receiver

DRBDは新たな接続を開始しようとした

次のメッセージとの間に23秒ほどブランクがあります。通常DRBDはただちに再接
続を試みるので、このブランクは少々不可解です。

> Feb 16 18:00:28 server1 kernel: block drbd0: Handshake successful:
> Agreed network protocol version 97

セカンダリ側とのコネクションを再度確立した。レプリケーション再開のための
初期の手続きをこれから開始する

> Feb 16 18:00:28 server1 kernel: block drbd0: meta connection shut down
> by peer.

初期手続き中に相手からコネクションを切断された。これも通信障害に相当

> Feb 16 18:00:30 server1 kernel: block drbd0: receiver terminated

コネクションを切断

> Feb 16 18:00:30 server1 kernel: block drbd0: Restarting drbd0_receiver

DRBDは新たな接続を開始しようとした

-- 
----------------------------------------------------------------------
久保  元治             (株)サードウェア





Linux-ha-japan メーリングリストの案内
アーカイブの一覧に戻る