[Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定

アーカイブの一覧に戻る

renay****@ybb***** renay****@ybb*****
2018年 10月 1日 (月) 17:30:22 JST


高瀬さん

こんばんは、山内です。


了解いたしました。

実際にUbuntuのKVM上で、CentOS69のゲストを単ノード起動(1.1.16の同じリポジトリパッケージ)で確認してみました。


まずは、corosyncの起動のログを確認して頂ければと思います。
念の為、/etc/sysconfig/pacemakerのfail_fastの設定(「yes」)があれば、コメントにして頂いて、start pacmaker.combinedを実行していただきたいです。

corosyncは内部的にWDサービスとしてwatchdogを利用している為、正常にwatchdogを認識していれば、起動時に以下のようなログが出ているはずです。


Oct  1 17:19:45 cent69-01 corosync[2194]:  [WD    ] Watchdog /dev/watchdog is now been tickled by corosync.
Oct  1 17:19:45 cent69-01 corosync[2194]:  [WD    ] no resources configured.

この時、エラーが出ていれば、何らかの問題があると思います。
※もしくは、WDサービスのログが出ていないなど。。。

ちなみに、起動後、softdogが組み込まれたかは?以下で確認出来ます。

[root @ cent69-01 ~]# lsmod |grep softdog
softdog                 4320  2 


手元の単ノードで起動後、corosyncをKILLすると数秒後にwatchdogにより再起動が発生しました。

[root @ cent69-01 ~]# ps -ef |grep coro
root      2078     1  2 17:27 ?        00:00:01 corosync
root      2107  2048  0 17:28 pts/0    00:00:00 grep coro
[root @ cent69-01 ~]# kill -9 2078



上記のWDサービスの起動ログなどの確認をお願いします。
以上です。

----- Original Message -----
>From: 高瀬智大 <tomoh****@kccs*****>
>To: renay****@ybb*****; linux****@lists***** 
>Date: 2018/10/1, Mon 11:09
>Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> 
>
>山内さん
>
>
>こんにちは
>高瀬です。
>
>
>返信頂きありがとうございます。
>
>
>1. 起動は、initctlで行っているかどうか? 
> →はい。pacemakerの起動・停止はinitictrlにて実施しています。
> 2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか? 
>
> →はい。有効になっています。
>3. /dev/watchdogが認識されているかどうか? 
> →以下コマンドにて表示(認識)されている事を確認しています。
>  ls -l  /dev/watchdog 
>
>  watchdogが正しく動作すれば、上記デバイスファイルの時間は更新されるのでしょうか。
>  watchdogの処理が失敗しているのか、そもそもwatchdogが動作していないのか切り分けたく、お聞きしております。
>
>
>設定等でも特に誤って記載している箇所等はないのですが、watchdogによるOS再起動が動作していない状態となります。
>
>
>以上です。
>よろしくお願い致します。
>
>
>
>2018年9月30日(日) 3:01 <renay****@ybb*****>:
>
>高瀬さん
>>
>>こんばんは、山内です。
>>
>>Linux-ha-japanのリポジトリパッケージを利用されていると思いますので、corosyncのwatchdogは有効になっている
>>パッケージが入っていると思いますので、設定が正しければwatchdogが動作すると思います。
>>
>>以下の点を確認して頂くのが良いと思います。
>>
>>
>>1. 起動は、initctlで行っているかどうか?
>>2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
>> - https://linux-ha.osdn.jp/wp/archives/4618#51_corosync
>>3. /dev/watchdogが認識されているかどうか?
>>
>>該当のログは、corosyncがダウンした事をPacemakerプロセスが検知して出力しているので問題はありませんが、
>>本来は、このログが出るか出ないかくらいで、watchdogが発動してOS再起動となります。
>>
>>先に書いた3つあたりを確認していただければ良いかと思います。
>>
>>以上です。
>>
>>----- Original Message -----
>>>From: 高瀬智大 <tomoh****@kccs*****>
>>>To: linux****@lists***** 
>>>Date: 2018/9/29, Sat 16:18
>>>Subject: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
>>> 
>>>
>>>お世話になっております。
>>>
>>>
>>>現在、corosync+pacemakerにてHA構成を組んでおります。
>>>
>>>
>>>corosyncプロセスをKILL(コマンド「kill -9 プロセスID」)した際に切り替わる事+watchdogが動作し、OS再起動が発生する事を確認したいのですが、
>>>
>>>うまく動作していない状況です。
>>>
>>>
>>>何か情報があればご教示ください。
>>>
>>>
>>>環境、詳細な事象は以下となります。
>>>
>>>
>>>【使用ソフト】
>>>CentOS 6.9 64bit
>>>
>>>Pacemaker 1.1.16-1
>>>
>>>pacemaker-repo 1.1.16-1.1
>>>
>>>corosync 2.4.2-1
>>>
>>>
>>>
>>>【構成】
>>>2台でHA構成のActive-Standby構成
>>>
>>>
>>>【事象】
>>>①corosyncプロセスをKILLした際に切替が発生しない。
>>> →Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。
>>>  この後にActive側にてwatchdogが動作しOS再起動され切替が発生する想定だったが、以下②の事象が発生し
>>>  OS再起動がされない。
>>>
>>>
>>>②corosyncをKILLしたが、以下エラーメッセージが出力され、watchdogが動作しない。
>>> ----------
>>> hostname stonith-ng:    error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2)
>>> hostname stonith-ng:    error: stonith_peer_cs_destroy:Corosync connection terminated
>>> hostname pacemakerd:    error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2) 
>>> hostname  pacemakerd:    error: mcp_cpg_destroy:Connection destroyed
>>> hostname       crmd:    error: crmd_quorum_destroy:connection terminated
>>> hostname         cib:    error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2)
>>> hostname         cib:    error: cib_cs_destroy:Corosync connection lost!  Exiting.
>>> hostname       attrd:    error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2)
>>> ---------- 
>>> 
>>>
>>>以上、よろしくお願い致します。
>>>
>>>
>>>_______________________________________________
>>>Linux-ha-japan mailing list
>>>Linux****@lists*****
>>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>>>
>>>
>>>
>>
>>_______________________________________________
>>Linux-ha-japan mailing list
>>Linux****@lists*****
>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
>>
>
>
>-- 
>
>=====================================
>京セラコミュニケーションシステム株式会社
>プラットフォーム事業部 
>ITインフラソリューション部
>東京ITインフラソリューション1課
>東京ITインフラソリューション1A
>高瀬 智大(タカセ トモヒロ)
>
>
>
>〒108-8605
>
>東京都港区三田3-11-34(センチュリー三田ビル)
>E-mail:tomoh****@kccs*****
>=====================================
>
>
>
>
>




Linux-ha-japan メーリングリストの案内
アーカイブの一覧に戻る