[Linux-ha-jp] corosync.confにwatchdog_timeoutを設定する方法について

アーカイブの一覧に戻る
renay****@ybb***** renay****@ybb*****
2019年 5月 17日 (金) 21:17:44 JST


今泉さん

こんばんは、山内です。

watchdog_timeoutの設定、うまくいったようで何よりです。
また、何かありましたら、MLの方へご投稿ください。

以上、宜しくお願いいたします。



----- Original Message -----
>From: Imaizumi Satoshi <sa.im****@gmail*****>
>To: linux****@lists***** 
>Date: 2019/5/16, Thu 21:50
>Subject: Re: [Linux-ha-jp]     corosync.confにwatchdog_timeoutを設定する方法について
> 
>
>山内さん
>
>
>いろいろと情報下さり、大変ありがとうございます。
>本番環境から取得した疑似環境で、watchdog_timeoutの値を
>オフライン・オンラインの状態で変更することができることを
>確認させていただきました。
>
>
>・オフライン設定
>下記追加し、corosync起動するとcorosync-cmapctl で与えた値と
>なっていることを確認できました。(corosync-cmapctl -n resources.watchdog_timeout)
>何も与えていない場合は、デフォルトの6秒となることも確認させていただきました。
>
>
>corosync.confにresourcesセクションを追加
>resources {
>   watchdog_timeout:  任意の秒数
>}
>
>・オンライン設定
>corosync-cmapctl -s  resources.watchdog_timeout u32 任意の秒数 
>
>⇒corosync-cmapctl -n resources.watchdog_timeoutで与えた値となっていることを確認できました。
>
>
>疑似環境はミニマムな環境に変更していますので、完全に本番と同じものではありませんが
>値を変更して再現するか、確認したいと思います。
>
>
>また、最適な値を確認するためしばらく様子を見たいと考えております。
>
>
>本件は一端クローズとさせてください。
>共有できそうな情報がありましたら、改めて共有させていただきます。
>
>
>今回は非常に助かりました。
>では、失礼いたします。
>
>
>
>
>>----------------------------------------------------------------------
>>
>>Message: 1
>>Date: Thu, 9 May 2019 06:23:07 +0900 (JST)
>>From: renay****@yahoo*****
>>To: "renay****@ybb*****" <renay****@ybb*****>,
>>        "linux****@lists*****" <linux****@lists*****>,
>>        "linux****@lists*****" <linux****@lists*****>
>>Subject: Re: [Linux-ha-jp]
>>        corosync.confにwatchdog_timeoutを設定する方法について
>>Message-ID:
>>        <14629****@jws80*****>
>>
>>Content-Type: text/plain; charset=UTF-8
>>
>>今泉さん
>>
>>山内です。
>>
>>corosync.confは、WDサービスの設定で可能なはずです。
>>
>>確か不具合があるバージョン(設定しても反映されない)がありましたが、2.3.6以降は治っているようです。
>>
>>https://github.com/corosync/corosync/commit/2ef086bd9befd64ac14e3f8b4e0b7bf303a1ec2a
>>https://github.com/corosync/corosync/commit/39cd6b3d1de6bc88d5b2c0b47ef1888a1da78867#diff-8e7a92510bf28243288b2bfa1c96abbc
>>
>>設定方法については、失念していますので、確認してみます。
>>
>>以上、宜しくお願いします。
>>
>>
>>----- Original Message -----
>>> From: "renay****@ybb*****" <renay****@ybb*****>
>>> To: "linux****@lists*****" <linux****@lists*****>
>>> Cc: 
>>> Date: 2019/5/9, Thu 06:06
>>> Subject: Re: [Linux-ha-jp]  corosync.confにwatchdog_timeoutを設定する方法について
>>> 
>>> 今泉さん
>>> 
>>> おはようございます。山内です。
>>> 
>>>>  corosyncが原因か切り分けを進めるため、corosyncのwatchdogタイムアウト時間を
>>>>  
>>>>  増減させたいと考えているのですが、corosync.confへの記載方法が見つけられないため
>>>>  
>>>>  皆様のお知恵をお借りできませんでしょうか。
>>>>  
>>>>  (1.1.16-1.1 以前は"ExecStartPre=/sbin/modprobe softdog 
>>> soft_margin=XX"で
>>>>  
>>>>  設定していた部分となります。)
>>> 
>>> 
>>> 確か・・・この部分は1.1.17でも同じだっと記憶していますが・・・勘違いかも知れません。
>>> 
>>> 同じような仮想基盤環境があるので、確認してみます。
>>> 
>>> 以上、宜しくお願いいたします。
>>> 
>>> 
>>> 
>>> 
>>> ----- Original Message -----
>>>>  From: Imaizumi Satoshi <sa.im****@gmail*****>
>>>>  To: linux****@lists*****
>>>>  Cc: 
>>>>  Date: 2019/5/8, Wed 19:17
>>>>  Subject: [Linux-ha-jp] corosync.confにwatchdog_timeoutを設定する方法について
>>>> 
>>>>  お世話になります。今泉と申します。
>>>> 
>>>> 
>>>>  掲題の件について、ご相談となります。
>>>> 
>>>>  Linux-HA Japanで提供されている1.1.17-1.1リポジトリを使用して
>>>> 
>>>>  冗長環境(Active-Standby)を構成した下記環境を利用しているのですが、
>>>> 
>>>>  意図しないタイミングでStandby側のOS再起動が発生しました。
>>>> 
>>>>  (事象発生時には、特に作業を行っていません。)
>>>> 
>>>> 
>>>>  <環境>
>>>> 
>>>>  RHEL7.4(vSphere6.5上のVM×2)
>>>> 
>>>>  pacemaker-1.1.17-1
>>>> 
>>>>  corosync-2.4.2-2.el7
>>>> 
>>>>  PG-REX9.6でpostgres9.6をストリーミングレプリケーション
>>>> 
>>>>  原因調査の切り分けを行ったところ、Standbyのcorosyncで/dev/watchdogアクセスが
>>>> 
>>>>  実行されておらず、watchdogタイムアウトによるOS再起動が実行されたところまでは
>>>> 
>>>>  確認できました。(Active側からみると、Standby機はOS再起動されるまでofflineに
>>>>  なりませんでした。)
>>>> 
>>>> 
>>>>  corosyncが原因か切り分けを進めるため、corosyncのwatchdogタイムアウト時間を
>>>> 
>>>>  増減させたいと考えているのですが、corosync.confへの記載方法が見つけられないため
>>>> 
>>>>  皆様のお知恵をお借りできませんでしょうか。
>>>> 
>>>>  (1.1.16-1.1 以前は"ExecStartPre=/sbin/modprobe softdog 
>>> soft_margin=XX"で
>>>> 
>>>>  設定していた部分となります。)
>>>> 
>>>> 
>>>> 
>>>>  補足となりますが、下記切り分けした事項となります。
>>>> 
>>>>  ・仮想基盤(vSphere)
>>>> 
>>>>  イベントやログにはネットワーク切断・ストレージエラーなどのログなし
>>>> 
>>>> 
>>>>  ・OS(RHEL7.4)
>>>> 
>>>>  syslog、pacemakerログに異常なメッセージ無し
>>>> 
>>>>  kdumpや、coreの出力なし
>>>> 
>>>>  sarログから、リソース(CPU,MEM,LoadAverage,Disk I/O)不足なし(10分間隔のため、正確ではありません)
>>>> 
>>>>  事象発生の時間帯はcron等のジョブ実行なし
>>>> 
>>>>  どうぞよろしくお願いいたします。
>>>>  _______________________________________________
>>>>  Linux-ha-japan mailing list
>>>>  Linux****@lists*****
>>>>  https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>>>> 
>>> 
>>> _______________________________________________
>>> Linux-ha-japan mailing list
>>> Linux****@lists*****
>>> https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>>> 
>>
>>
>>------------------------------
>>
>>Message: 2
>>Date: Thu, 9 May 2019 07:42:38 +0900 (JST)
>>From: renay****@ybb*****
>>To: linux****@lists*****
>>Subject: Re: [Linux-ha-jp]
>>        corosync.confにwatchdog_timeoutを設定する方法について
>>Message-ID:
>>        <93697****@jws80*****>
>>
>>Content-Type: text/plain; charset=UTF-8
>>
>>今泉さん
>>
>>山内です。
>>
>>corosync,confに次のように設定を追加してください。
>>
>>resources {
>>   watchdog_timeout:  30
>>}
>>
>>秒数単位で指定可能です。
>>
>>また、起動後はcorosync-cmapctlコマンドでオンラインでも変更出来ます。
>>
>>corosync-cmapctl -s  resources.watchdog_timeout u32 40
>>
>>以上です
>>
>>
>>------------------------------
>>
>>Subject: まとめ読みフッタ
>>
>>_______________________________________________
>>Linux-ha-japan mailing list
>>Linux****@lists*****
>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>>
>>
>>------------------------------
>>
>>以上: Linux-ha-japan まとめ読み, 135 巻, 2 号
>>******************************************************
>>
>_______________________________________________
>Linux-ha-japan mailing list
>Linux****@lists*****
>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>
>
>



Linux-ha-japan メーリングリストの案内
アーカイブの一覧に戻る