[Linux-ha-jp] heartbeatでMigratingした原因に関して

アーカイブの一覧に戻る

nemo****@zuku***** nemo****@zuku*****
2012年 8月 30日 (木) 12:59:28 JST


根本と申します。

今日の0:17頃に Heartbeat がmigrateし、その原因を調査しております。
以前にも、似たような質問をしたと思いますが、今回は違う原因かと思い質問させて頂きました。


[環境]
OS : CentOS 6.2(正確には、Openvz Kernelです)
# uname -a
Linux 03c.ss.jp 2.6.32-042stab057.1 #1 SMP Thu Jul 5 19:44:26 JST 2012 x86_64 x86_64 x86_64 GNU/Linux


DRBD:8.3.10
# modinfo drbd
filename:       /lib/modules/2.6.32-042stab057.1/kernel/drivers/block/drbd/drbd.ko
alias:          block-major-147-*
license:        GPL
version:        8.3.10
description:    drbd - Distributed Replicated Block Device v8.3.10
author:         Philipp Reisner <phil****@linbi*****>, Lars Ellenberg <lars****@linbi*****>
srcversion:     A52DAA74FC64F74BC4127FD
depends:
vermagic:       2.6.32-042stab057.1 SMP mod_unload modversions
parm:           minor_count:Maximum number of drbd devices (1-256) (uint)
parm:           disable_sendpage:bool
parm:           allow_oos:DONT USE! (bool)
parm:           cn_idx:uint
parm:           proc_details:int
parm:           enable_faults:int
parm:           fault_rate:int
parm:           fault_count:int
parm:           fault_devs:int
parm:           usermode_helper:string


pacemaker-1.0.12-1.el6.x86_64(Linux-HA Japan提供)
DRBD領域を2つ用意して、お互いがPrimary且つSecondaryにしています。
# cat /proc/drbd
version: 8.3.10 (api:88/proto:86-96)
GIT-hash: 5c0b0469666682443d4785d90a2c603378f9017b build by phil @ fat-tyre, 2011-01-28 12:17:35

 1: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate C r-----
    ns:758420124 nr:0 dw:546406936 dr:243441777 al:40874 bm:13087 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
 2: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r-----
    ns:0 nr:566938428 dw:566938428 dr:0 al:0 bm:13113 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0



添付してあるログ(ha-log.log)を見る限り、Aug 30 00:17:39にres_vip_03c.ss.jpの監視スクリプトがタイムアウトを起こしたのが原因のみたいなのですが
このリソースエージェントは、IPaddr2の仮想NICを使っており、その監視部分見る限り ip コマンドでIPアドレスをgrepして抽出しているだけの様な気がす
るのですが、この処理で20000ms以上も時間を要するとは考えにくいのですが、なにか情報をお持ちでないでしょうか。
該当時刻のサーバの負荷状況は、そこそこ高い程度ではありましたが、この程度のスクリプトがタイムアウトする程は高く無かったと思います。

また、同事象の少し前まで、LVMのスナップショットでDRBD領域のバックアップを取得していたので、そのあたりが若干怪しいと睨んでいます。
DRBD領域のI/O負荷が高かった場合、これらのリソースエージェントがタイムアウトする事ってありますでしょうか。


以上です。よろしくお願い言い致します。



━━━━━━━━━━━━━━━━━━━━━━━━
  根本 稔也
  E-mail          nemo****@zuku*****
━━━━━━━━━━━━━━━━━━━━━━━━
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: ha-log.log
型:         application/octet-stream
サイズ:     103553 バイト
説明:       無し
ダウンロード 



Linux-ha-japan メーリングリストの案内
アーカイブの一覧に戻る