renay****@ybb*****
renay****@ybb*****
2018年 10月 1日 (月) 17:30:22 JST
高瀬さん こんばんは、山内です。 了解いたしました。 実際にUbuntuのKVM上で、CentOS69のゲストを単ノード起動(1.1.16の同じリポジトリパッケージ)で確認してみました。 まずは、corosyncの起動のログを確認して頂ければと思います。 念の為、/etc/sysconfig/pacemakerのfail_fastの設定(「yes」)があれば、コメントにして頂いて、start pacmaker.combinedを実行していただきたいです。 corosyncは内部的にWDサービスとしてwatchdogを利用している為、正常にwatchdogを認識していれば、起動時に以下のようなログが出ているはずです。 Oct 1 17:19:45 cent69-01 corosync[2194]: [WD ] Watchdog /dev/watchdog is now been tickled by corosync. Oct 1 17:19:45 cent69-01 corosync[2194]: [WD ] no resources configured. この時、エラーが出ていれば、何らかの問題があると思います。 ※もしくは、WDサービスのログが出ていないなど。。。 ちなみに、起動後、softdogが組み込まれたかは?以下で確認出来ます。 [root @ cent69-01 ~]# lsmod |grep softdog softdog 4320 2 手元の単ノードで起動後、corosyncをKILLすると数秒後にwatchdogにより再起動が発生しました。 [root @ cent69-01 ~]# ps -ef |grep coro root 2078 1 2 17:27 ? 00:00:01 corosync root 2107 2048 0 17:28 pts/0 00:00:00 grep coro [root @ cent69-01 ~]# kill -9 2078 上記のWDサービスの起動ログなどの確認をお願いします。 以上です。 ----- Original Message ----- >From: 高瀬智大 <tomoh****@kccs*****> >To: renay****@ybb*****; linux****@lists***** >Date: 2018/10/1, Mon 11:09 >Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定 > > >山内さん > > >こんにちは >高瀬です。 > > >返信頂きありがとうございます。 > > >1. 起動は、initctlで行っているかどうか? > →はい。pacemakerの起動・停止はinitictrlにて実施しています。 > 2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか? > > →はい。有効になっています。 >3. /dev/watchdogが認識されているかどうか? > →以下コマンドにて表示(認識)されている事を確認しています。 > ls -l /dev/watchdog > > watchdogが正しく動作すれば、上記デバイスファイルの時間は更新されるのでしょうか。 > watchdogの処理が失敗しているのか、そもそもwatchdogが動作していないのか切り分けたく、お聞きしております。 > > >設定等でも特に誤って記載している箇所等はないのですが、watchdogによるOS再起動が動作していない状態となります。 > > >以上です。 >よろしくお願い致します。 > > > >2018年9月30日(日) 3:01 <renay****@ybb*****>: > >高瀬さん >> >>こんばんは、山内です。 >> >>Linux-ha-japanのリポジトリパッケージを利用されていると思いますので、corosyncのwatchdogは有効になっている >>パッケージが入っていると思いますので、設定が正しければwatchdogが動作すると思います。 >> >>以下の点を確認して頂くのが良いと思います。 >> >> >>1. 起動は、initctlで行っているかどうか? >>2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか? >> - https://linux-ha.osdn.jp/wp/archives/4618#51_corosync >>3. /dev/watchdogが認識されているかどうか? >> >>該当のログは、corosyncがダウンした事をPacemakerプロセスが検知して出力しているので問題はありませんが、 >>本来は、このログが出るか出ないかくらいで、watchdogが発動してOS再起動となります。 >> >>先に書いた3つあたりを確認していただければ良いかと思います。 >> >>以上です。 >> >>----- Original Message ----- >>>From: 高瀬智大 <tomoh****@kccs*****> >>>To: linux****@lists***** >>>Date: 2018/9/29, Sat 16:18 >>>Subject: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定 >>> >>> >>>お世話になっております。 >>> >>> >>>現在、corosync+pacemakerにてHA構成を組んでおります。 >>> >>> >>>corosyncプロセスをKILL(コマンド「kill -9 プロセスID」)した際に切り替わる事+watchdogが動作し、OS再起動が発生する事を確認したいのですが、 >>> >>>うまく動作していない状況です。 >>> >>> >>>何か情報があればご教示ください。 >>> >>> >>>環境、詳細な事象は以下となります。 >>> >>> >>>【使用ソフト】 >>>CentOS 6.9 64bit >>> >>>Pacemaker 1.1.16-1 >>> >>>pacemaker-repo 1.1.16-1.1 >>> >>>corosync 2.4.2-1 >>> >>> >>> >>>【構成】 >>>2台でHA構成のActive-Standby構成 >>> >>> >>>【事象】 >>>①corosyncプロセスをKILLした際に切替が発生しない。 >>> →Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。 >>> この後にActive側にてwatchdogが動作しOS再起動され切替が発生する想定だったが、以下②の事象が発生し >>> OS再起動がされない。 >>> >>> >>>②corosyncをKILLしたが、以下エラーメッセージが出力され、watchdogが動作しない。 >>> ---------- >>> hostname stonith-ng: error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2) >>> hostname stonith-ng: error: stonith_peer_cs_destroy:Corosync connection terminated >>> hostname pacemakerd: error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2) >>> hostname pacemakerd: error: mcp_cpg_destroy:Connection destroyed >>> hostname crmd: error: crmd_quorum_destroy:connection terminated >>> hostname cib: error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2) >>> hostname cib: error: cib_cs_destroy:Corosync connection lost! Exiting. >>> hostname attrd: error: pcmk_cpg_dispatch:Connection to the CPG API failed: Library error (2) >>> ---------- >>> >>> >>>以上、よろしくお願い致します。 >>> >>> >>>_______________________________________________ >>>Linux-ha-japan mailing list >>>Linux****@lists***** >>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan >>> >>> >>> >> >>_______________________________________________ >>Linux-ha-japan mailing list >>Linux****@lists***** >>https://lists.osdn.me/mailman/listinfo/linux-ha-japan >> > > >-- > >===================================== >京セラコミュニケーションシステム株式会社 >プラットフォーム事業部 >ITインフラソリューション部 >東京ITインフラソリューション1課 >東京ITインフラソリューション1A >高瀬 智大(タカセ トモヒロ) > > > >〒108-8605 > >東京都港区三田3-11-34(センチュリー三田ビル) >E-mail:tomoh****@kccs***** >===================================== > > > > >