[Linux-ha-jp] Pacemakerのフェールオーバーの失敗について

アーカイブの一覧に戻る
辻 真吾 tsuji****@ryobi*****
2022年 12月 21日 (水) 10:59:07 JST


お世話になります。辻と申します。

DBサーバ(PostgreSQLレプリケーション構成)を
Pacemaker+Corosyncを使用してHAクラスタ構成としています。

クラスタ構成において、フェールオーバーを発生させたところ、
スレーブが昇格後にdemoteされ停止状態になる事象が発生しています。
(結果的に両系が停止状態になっています)

promoteからdemotoまでの間には以下のログが出力されており、
このメッセージが事象発生の原因ではないかと推測しています。
このメッセージで何か原因等、思い当たることはないでしょうか?

【pacemakerログの抜粋】
pacemaker-execd     [6023] (log_finished) 	info: r_pgsql promote (call 20, PID 16180) exited with status 0 (execution time 11.809s)
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error: Entity: line 4: parser error : attributes construct error
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error: 1:30:12 UTC]  16681[2] [] [] HINT:  Future log output will appear in directory "
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error:                                                                                ^
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error: Entity: line 4: parser error : Couldn't find end of Start Tag lrmd_notify line 1
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error: 1:30:12 UTC]  16681[2] [] [] HINT:  Future log output will appear in directory "
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error:                                                                                ^
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error: Entity: line 4: parser error : Extra content at the end of the document
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error: 1:30:12 UTC]  16681[2] [] [] HINT:  Future log output will appear in directory "
pacemaker-controld  [6026] (log_xmllib_err) 	error: XML Error:                                                                                ^
pacemaker-controld  [6026] (string2xml) 	warning: Parsing failed (domain=1, level=3, code=5): Extra content at the end of the document
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+000]: <lrmd_notify lrmd_origin="send_cmd_complete_notify" lrmd_timeout="9000000" lrmd_
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+080]: rsc_interval="0" lrmd_rsc_start_delay="0" lrmd_exec_rc="0" lrmd_exec_op_status="
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+160]: 0" lrmd_callid="20" lrmd_rsc_deleted="0" lrmd_run_time="1671499800" lrmd_rcchang
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+240]: e_time="0" lrmd_exec_time="11809" lrmd_queue_time="0" lrmd_op="lrmd_rsc_exec" lr
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+320]: md_rsc_id="r_pgsql" lrmd_rsc_action="promote" lrmd_rsc_userdata_str="8:11:0:361e
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+400]: 9c4f-4247-4e71-9cb9-23ac268ec2f5" lrmd_rsc_output="サーバー停止処理の��
pacemaker-controld  [6026] (string2xml) 	warning: Parse error[+480]: �了を待っています......完了
・・・
pacemaker-controld  [6026] (do_lrm_rsc_op) 	notice: Requesting local execution of demote operation for r_pgsql on D-RDB-C12 | transition_key=4:12:0:361e9c4f-4247-4e71-9cb9-23ac268ec2f5 op_key=r_pgsql_demote_0
pacemaker-based     [6021] (cib_process_request) 	info: Forwarding cib_modify operation for section status to all (origin=local/crmd/21)
pacemaker-execd     [6023] (log_execute) 	info: executing - rsc:r_pgsql action:demote call_id:23


なお、今回の検証環境でのみ発生しており、以前別の環境で同じ設定/手順を実施した際には
このような事象は発生しませんでした。

○今回の環境
OS:RockyLinux8.6
corosync-3.1.5-2.el8.x86_64
pacemaker-2.1.4-5.el8_7.2.x86_64
pcs-0.10.14-5.el8.x86_64
resource-agents-4.9.0-29.el8_7.2.x86_64

○以前の環境
OS:Almalinux8.6
corosync-3.1.5-2.el8.x86_64 
pacemaker-2.1.2-4.el8_6.2.x86_64 
pcs-0.10.12-6.el8_6.2.alma.x86_64  
resource-agents-4.9.0-16.el8.x86_64  

よろしくお願いいたします。
以上



Linux-ha-japan メーリングリストの案内
アーカイブの一覧に戻る