renay****@ybb*****
renay****@ybb*****
2011年 5月 25日 (水) 03:46:03 JST
高橋さん お疲れさまです。山内です。 > monitorの設定をよく理解せず設定しておりました。 > monitorとは別にLinuxのシェルにてpostgresのサービスを監視するものを作成しておりました。 > postgresのサービスが起動されてない場合は、heartbeatのプロセスを消す処理を行い、 > フェイルオーバを実装するようにしておりました。 リソースのモニターとプロセスの管理は、heartbeatに任せてリソースの管理をされた方が良いと思います。 > 下記の処理が行われた時点でノードが起動できなくなるということでしょうか? 以下の処理が行われるのは、DCノードと言われるクラスタを構成するノードの1ノードのみになります。 今回の場合、DCノードがフェイルオーバー先になりますが、DCノードでは以下のログのような状態遷移(リソースの移動)を計算してリソースをDCノードで起動しようとします。 しかし、DCノードでのリソース起動は行えないと判断したのでリソースが起動しなくなります。 #判断した理由は、前のメールでもご説明したとおり、pgsqlのモニターのタイムアウトが起きて、stonithが設定されていない為です。 > > ptest[8477]: 2011/05/24_11:17:16 WARN: cluster_option: Using deprecated name 'default_resource_stickiness' for cluster option 'default-resource-stickiness' > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_operation: Specifying on_fail=fence and stonith-enabled=false makes no sense ★このメッセージが出たので、on-failはstopに変更されています。 > > ptest[8477]: 2011/05/24_11:17:16 WARN: unpack_rsc_op: Processing failed op pgsql0_monitor_30000 on xxx-ech-db01: Timed Out > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_rsc_op: Making sure pgsql0 doesn't come up again ★このメッセージが出たので、pgsql0はどのノードでも起動できなくなったといっています。 > > 処理が行われる前にheartbeatのプロセスを消した場合は、ノードは起動できる状態なのでしょうか? postgreSQLを起動していたノードでheartbeatプロセスを消した場合でも(逆に消さない場合でも)、今回のcib.xmlの設定(on_fail="fence"で、STONITHなし)でpostgreSQLのモニタータイムアウトが発生した場合は、では同様の状態遷移が作成されますので、リソースは起動(フェイルオーバー)されません。 #ただし、確認していませんが、モニタータイムアウトが起きなければ、リソースは起動すると思われます。 以上、よろしくお願いいたします。 --- On Tue, 2011/5/24, takahasi hideo <hideo_tk960****@hotma*****> wrote: > 山内さん > > お疲れ様です。高橋です。 > > monitorの設定をよく理解せず設定しておりました。 > monitorとは別にLinuxのシェルにてpostgresのサービスを監視するものを作成しておりました。 > postgresのサービスが起動されてない場合は、heartbeatのプロセスを消す処理を行い、 > フェイルオーバを実装するようにしておりました。 > > 下記の処理が行われた時点でノードが起動できなくなるということでしょうか? > > ptest[8477]: 2011/05/24_11:17:16 WARN: cluster_option: Using deprecated name 'default_resource_stickiness' for cluster option 'default-resource-stickiness' > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_operation: Specifying on_fail=fence and stonith-enabled=false makes no sense ★このメッセージが出たので、on-failはstopに変更されています。 > > ptest[8477]: 2011/05/24_11:17:16 WARN: unpack_rsc_op: Processing failed op pgsql0_monitor_30000 on xxx-ech-db01: Timed Out > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_rsc_op: Making sure pgsql0 doesn't come up again ★このメッセージが出たので、pgsql0はどのノードでも起動できなくなったといっています。 > > 処理が行われる前にheartbeatのプロセスを消した場合は、ノードは起動できる状態なのでしょうか? > > お手数をおかけしますが、よろしくお願いします。 > > > > Date: Tue, 24 May 2011 11:32:54 +0900 > > From: renay****@ybb***** > > To: renay****@ybb*****; linux****@lists***** > > Subject: Re: [Linux-ha-jp] heartbeatのフェイルオーバー時postgres起動について > > > > 高橋さん > > > > お疲れ様です。山内です。 > > > > 頂いたbzファイルから現象を確認しました。 > > > > 以下、今回の事象について確認内容を記載します。 > > > > ①今回のpgsql故障は、monitor処理のタイムアウトが発生している。 > > ②pgsqlのmonitorのon_failは"fence"に設定されていますが、stonithが有効でない為に、stopとして処理されます。 > > ③よって、FO処理で、IPaddr,FilesystemはFOしますが、pgsqlはstopで処理されるため、FOしません。 > > > > on-fail="fence"設定時は、有効なstonith設定を行われた方が良いです。 > > #ちなみに、HB2.1.4あたりでは、on-fail="fence"でstonithを設定していないと、リソースの起動すら出来なかったと記憶しています。 > > > > また、HB2.1.3あたりは問題をかなり持っているバージョンのはずですので、出来れば、Pacemaker+Heartbeatの構成への移行も検討されることを推奨します。 > > > > 念の為、bzファイルからの状態遷移処理の先頭の該当する部分を以下に添付しておきます。 > > > > ptest[8477]: 2011/05/24_11:17:16 notice: main: Required feature set: 2.0 > > ptest[8477]: 2011/05/24_11:17:16 WARN: cluster_option: Using deprecated name 'default_resource_stickiness' for cluster option 'default-resource-stickiness' > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_operation: Specifying on_fail=fence and stonith-enabled=false makes no sense ★このメッセージが出たので、on-failはstopに変更されています。 > > ptest[8477]: 2011/05/24_11:17:16 WARN: unpack_rsc_op: Processing failed op pgsql0_monitor_30000 on xxx-ech-db01: Timed Out > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_rsc_op: Making sure pgsql0 doesn't come up again ★このメッセージが出たので、pgsql0はどのノードでも起動できなくなったといっています。 > > > > ptest[8477]: 2011/05/24_11:17:16 notice: clone_print: Master/Slave Set: ms-drbd0 > > ptest[8477]: 2011/05/24_11:17:16 notice: native_print: drbd0:0 (heartbeat::ocf:drbd): Stopped > > ptest[8477]: 2011/05/24_11:17:16 notice: native_print: drbd0:1 (heartbeat::ocf:drbd): Started xxx-ech-db02 > > ptest[8477]: 2011/05/24_11:17:16 notice: group_print: Resource Group: postDb > > ptest[8477]: 2011/05/24_11:17:16 notice: native_print: iPaddr (heartbeat::ocf:IPaddr): Stopped > > ptest[8477]: 2011/05/24_11:17:16 notice: native_print: fs0 (heartbeat::ocf:Filesystem): Stopped > > ptest[8477]: 2011/05/24_11:17:16 notice: native_print: pgsql0 (heartbeat::ocf:pgsql): Stopped > > ptest[8477]: 2011/05/24_11:17:16 WARN: native_color: Resource drbd0:0 cannot run anywhere > > ptest[8477]: 2011/05/24_11:17:16 notice: DemoteRsc: xxx-ech-db02 Demote drbd0:1 > > ptest[8477]: 2011/05/24_11:17:16 notice: NoRoleChange: Leave resource drbd0:1 (xxx-ech-db02) > > ptest[8477]: 2011/05/24_11:17:16 notice: PromoteRsc: xxx-ech-db02 Promote drbd0:1 > > ptest[8477]: 2011/05/24_11:17:16 notice: DemoteRsc: xxx-ech-db02 Demote drbd0:1 > > ptest[8477]: 2011/05/24_11:17:16 notice: NoRoleChange: Leave resource drbd0:1 (xxx-ech-db02) > > ptest[8477]: 2011/05/24_11:17:16 notice: PromoteRsc: xxx-ech-db02 Promote drbd0:1 > > ptest[8477]: 2011/05/24_11:17:16 WARN: native_color: Resource pgsql0 cannot run anywhere > > ptest[8477]: 2011/05/24_11:17:16 notice: StartRsc: xxx-ech-db02 Start iPaddr > > ptest[8477]: 2011/05/24_11:17:16 notice: StartRsc: xxx-ech-db02 Start fs0 > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_operation: Specifying on_fail=fence and stonith-enabled=false makes no sense > > ptest[8477]: 2011/05/24_11:17:16 ERROR: unpack_operation: Specifying on_fail=fence and stonith-enabled=false makes no sense > > (snip) > > > > > > 以上です。 > > > > > > > > > > > > > > --- On Tue, 2011/5/24, renay****@ybb***** <renay****@ybb*****> wrote: > > > > > 高橋さん > > > > > > おはようございます。山内です。 > > > > > > bzファイルの中身、ありがとうございます。 > > > 本日中に確認して、ご連絡します。 > > > > > > 以上です。 > > > > > > > > > --- On Mon, 2011/5/23, takahasi hideo <hideo_tk960****@hotma*****> wrote: > > > > > > > 高橋です。 > > > > xxx_ech_db02のvar/lib/heartbeat/pengine/pe-warn-25.bz2のファイルの中身となります。 > > > > > > > > ほかに必要な情報はございますでしょうか? > > > > 以上 よろしくお願いします > > > > > > > > <cib generated="true" admin_epoch="0" have_quorum="true" ignore_dtd="false" num_peers="2" cib_feature_revision="2.0" crm_feature_set="2.0" epoch="106" num_updates="53" cib-last-written="Wed May 18 05:06:16 2011" ccm_transition="2" dc_uuid="xxxxxxxx-fb58-4b77-8755-aee23da6a63d"> > > > > <configuration> > > > > <crm_config> > > > > <cluster_property_set id="cib-bootstrap-options"> > > > > <attributes> > > > > <nvpair id="cib-bootstrap-options-dc-version" name="dc-version" value="2.1.4-fb84f606a422 tip"/> > > > > </attributes> > > > > </cluster_property_set> > > > > <cluster_property_set id="default_cluster_properties" score="10"> > > > > <attributes> > > > > <nvpair id="default-sticky" name="default_resource_stickiness" value="INFINITY"/> > > > > </attributes> > > > > </cluster_property_set> > > > > </crm_config> > > > > <nodes> > > > > <node id="xxxxxxxx-ff8a-429a-81c2-db36ebb522e7" uname="xxx-ech-db01" type="normal"/> > > > > <node id="xxxxxxxx-fb58-4b77-8755-aee23da6a63d" uname="xxx-ech-db02" type="normal"/> > > > > </nodes> > > > > <resources> > > > > <master_slave id="ms-drbd0"> > > > > <meta_attributes id="ma-ms-drbd0"> > > > > <attributes> > > > > <nvpair id="ma-ms-drbd0-1" name="clone_max" value="2"/> > > > > <nvpair id="ma-ms-drbd0-2" name="clone_node_max" value="1"/> > > > > <nvpair id="ma-ms-drbd0-3" name="master_max" value="1"/> > > > > <nvpair id="ma-ms-drbd0-4" name="master_node_max" value="1"/> > > > > <nvpair id="ma-ms-drbd0-5" name="notify" value="yes"/> > > > > <nvpair id="ma-ms-drbd0-6" name="globally_unique" value="false"/> > > > > </attributes> > > > > </meta_attributes> > > > > <primitive id="drbd0" class="ocf" provider="heartbeat" type="drbd"> > > > > <instance_attributes id="ia-drbd0"> > > > > <attributes> > > > > <nvpair id="ia-drbd0-1" name="drbd_resource" value="drbd0"/> > > > > </attributes> > > > > </instance_attributes> > > > > </primitive> > > > > </master_slave> > > > > <group id="postDb"> > > > > <primitive class="ocf" provider="heartbeat" type="IPaddr" id="iPaddr"> > > > > <instance_attributes id="ia_ipaddr"> > > > > <attributes> > > > > <nvpair id="ia_ipaddr" name="ip" value="192.168.22.110"/> > > > > </attributes> > > > > </instance_attributes> > > > > </primitive> > > > > <primitive class="ocf" provider="heartbeat" type="Filesystem" id="fs0"> > > > > <meta_attributes id="ma-fs0"> > > > > <attributes/> > > > > </meta_attributes> > > > > <instance_attributes id="ia-fs0"> > > > > <attributes> > > > > <nvpair id="ia-fs0-1" name="fstype" value="ext3"/> > > > > <nvpair id="ia-fs0-2" name="directory" value="/data"/> > > > > <nvpair id="ia-fs0-3" name="device" value="/dev/drbd0"/> > > > > </attributes> > > > > </instance_attributes> > > > > </primitive> > > > > <primitive class="ocf" provider="heartbeat" type="pgsql" id="pgsql0"> > > > > <instance_attributes id="ia-pgsql0"> > > > > <attributes> > > > > <nvpair id="ia-pgsql0-1" name="pgctl" value="/usr/local/pgsql/bin/pg_ctl"/> > > > > <nvpair id="ia-pgsql0-2" name="psql" value="/usr/local/pgsql/bin/psql"/> > > > > <nvpair id="ia-pgsql0-3" name="pgdata" value="/data/pgsql/data/"/> > > > > <nvpair id="ia-pgsql0-4" name="pgdba" value="postgres"/> > > > > <nvpair id="ia-pgsql0-6" name="logfile" value="/var/log/postgresql/postgresql_log"/> > > > > </attributes> > > > > </instance_attributes> > > > > <operations> > > > > <op id="apPostgreSQLDB_start" name="start" timeout="60s" on_fail="fence"/> > > > > <op id="apPostgreSQLDB_monitor" name="monitor" interval="30s" timeout="60s" on_fail="fence"/> > > > > <op id="apPostgreSQLDB_stop" name="stop" timeout="60s" on_fail="fence"/> > > > > </operations> > > > > </primitive> > > > > </group> > > > > </resources> > > > > <constraints> > > > > <rsc_location id="rsc_location_group_1" rsc="ms-drbd0"> > > > > <rule id="prefered_location_group_1" role="Master" score="100"> > > > > <expression id="prefered_location_group_1_expr" attribute="#uname" operation="eq" value="xxx-ECH-DB01"/> > > > > </rule> > > > > </rsc_location> > > > > <rsc_order id="drbd0_before_fs0" from="postDb" action="start" to="ms-drbd0" to_action="promote"/> > > > > <rsc_colocation id="fs0_on_drbd0" to="ms-drbd0" to_role="Master" from="postDb" score="infinity"/> > > > > </constraints> > > > > </configuration> > > > > <status> > > > > <node_state id="xxxxxxxx-fb58-4b77-8755-aee23da6a63d" uname="xxx-ech-db02" crmd="online" crm-debug-origin="do_update_resource" shutdown="0" in_ccm="true" ha="active" join="member" expected="member"> > > > > <lrm id="xxxxxxxx-fb58-4b77-8755-aee23da6a63d"> > > > > <lrm_resources> > > > > <lrm_resource id="iPaddr" type="IPaddr" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="iPaddr_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="10:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;10:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="3" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="ffb115a07fbaa6a44930965c97b2f3a8"/> > > > > </lrm_resource> > > > > <lrm_resource id="fs0" type="Filesystem" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="fs0_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="11:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;11:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="4" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="5d00981b951ad0fd957d03da4e84ffc2"/> > > > > </lrm_resource> > > > > <lrm_resource id="drbd0:1" type="drbd" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="drbd0:1_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="9:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;9:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="2" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_start_0" operation="start" crm-debug-origin="do_update_resource" transition_key="7:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;7:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="6" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_post_notify_start_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="52:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;52:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="7" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_pre_notify_promote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="56:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;56:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="10" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_post_notify_promote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="62:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;62:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="9" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_pre_notify_demote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="58:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;58:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="11" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_post_notify_demote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="59:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;59:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="12" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_pre_notify_stop_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="54:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;54:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="13" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:1_post_notify_stop_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="55:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;55:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="14" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > </lrm_resource> > > > > <lrm_resource id="pgsql0" type="pgsql" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="pgsql0_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="12:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;12:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="5" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="a226d5fbaf160cd1ef6c3af58be26a6b"/> > > > > </lrm_resource> > > > > </lrm_resources> > > > > </lrm> > > > > <transient_attributes id="xxxxxxxx-fb58-4b77-8755-aee23da6a63d"> > > > > <instance_attributes id="status-xxxxxxxx-fb58-4b77-8755-aee23da6a63d"> > > > > <attributes> > > > > <nvpair id="status-xxxxxxxx-fb58-4b77-8755-aee23da6a63d-probe_complete" name="probe_complete" value="true"/> > > > > </attributes> > > > > </instance_attributes> > > > > <instance_attributes id="master-xxxxxxxx-fb58-4b77-8755-aee23da6a63d"> > > > > <attributes> > > > > <nvpair id="status-master-drbd0:1-xxxxxxxx-fb58-4b77-8755-aee23da6a63d" name="master-drbd0:1" value="10"/> > > > > </attributes> > > > > </instance_attributes> > > > > </transient_attributes> > > > > </node_state> > > > > <node_state id="xxxxxxxx-ff8a-429a-81c2-db36ebb522e7" uname="xxx-ech-db01" crmd="online" crm-debug-origin="do_update_resource" in_ccm="true" ha="active" join="member" expected="down" shutdown="1305662762"> > > > > <lrm id="xxxxxxxx-ff8a-429a-81c2-db36ebb522e7"> > > > > <lrm_resources> > > > > <lrm_resource id="iPaddr" type="IPaddr" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="iPaddr_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="5:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;5:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="3" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="ffb115a07fbaa6a44930965c97b2f3a8"/> > > > > <lrm_rsc_op id="iPaddr_start_0" operation="start" crm-debug-origin="do_update_resource" transition_key="36:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;36:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="11" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="ffb115a07fbaa6a44930965c97b2f3a8"/> > > > > <lrm_rsc_op id="iPaddr_stop_0" operation="stop" crm-debug-origin="do_update_resource" transition_key="36:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;36:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="18" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="ffb115a07fbaa6a44930965c97b2f3a8"/> > > > > </lrm_resource> > > > > <lrm_resource id="fs0" type="Filesystem" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="fs0_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="6:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;6:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="4" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="5d00981b951ad0fd957d03da4e84ffc2"/> > > > > <lrm_rsc_op id="fs0_start_0" operation="start" crm-debug-origin="do_update_resource" transition_key="37:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;37:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="12" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="5d00981b951ad0fd957d03da4e84ffc2"/> > > > > <lrm_rsc_op id="fs0_stop_0" operation="stop" crm-debug-origin="do_update_resource" transition_key="38:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;38:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="17" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="5d00981b951ad0fd957d03da4e84ffc2"/> > > > > </lrm_resource> > > > > <lrm_resource id="drbd0:0" type="drbd" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="drbd0:0_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="4:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;4:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="2" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_start_0" operation="start" crm-debug-origin="do_update_resource" transition_key="5:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;5:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="6" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_post_notify_start_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="49:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;49:2:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="7" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_pre_notify_promote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="53:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;53:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="8" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_promote_0" operation="promote" crm-debug-origin="do_update_resource" transition_key="8:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;8:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="9" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_post_notify_promote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="54:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;54:3:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="10" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_pre_notify_demote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="50:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;50:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="16" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_demote_0" operation="demote" crm-debug-origin="do_update_resource" transition_key="5:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;5:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="19" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_post_notify_demote_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="51:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;51:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="20" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_pre_notify_stop_0" operation="notify" crm-debug-origin="do_update_resource" transition_key="49:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;49:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="21" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > <lrm_rsc_op id="drbd0:0_stop_0" operation="stop" crm-debug-origin="do_update_resource" transition_key="6:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;6:6:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="22" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="1243523f1dae58b4aafa2650a7f3d441"/> > > > > </lrm_resource> > > > > <lrm_resource id="pgsql0" type="pgsql" class="ocf" provider="heartbeat"> > > > > <lrm_rsc_op id="pgsql0_monitor_0" operation="monitor" crm-debug-origin="do_update_resource" transition_key="7:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:7;7:0:7:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="5" crm_feature_set="2.0" rc_code="7" op_status="0" interval="0" op_digest="a226d5fbaf160cd1ef6c3af58be26a6b"/> > > > > <lrm_rsc_op id="pgsql0_start_0" operation="start" crm-debug-origin="do_update_resource" transition_key="38:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;38:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="13" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="a226d5fbaf160cd1ef6c3af58be26a6b"/> > > > > <lrm_rsc_op id="pgsql0_monitor_30000" operation="monitor" crm-debug-origin="do_update_resource" transition_key="39:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="2:-2;39:4:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="14" crm_feature_set="2.0" rc_code="-2" op_status="2" interval="30000" op_digest="e7361475ed22fe3e9bf0cfb14da69f2e"/> > > > > <lrm_rsc_op id="pgsql0_stop_0" operation="stop" crm-debug-origin="do_update_resource" transition_key="2:5:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" transition_magic="0:0;2:5:0:69c1e75a-51c8-4a00-a8c4-26ad8b6a447c" call_id="15" crm_feature_set="2.0" rc_code="0" op_status="0" interval="0" op_digest="a226d5fbaf160cd1ef6c3af58be26a6b"/> > > > > </lrm_resource> > > > > </lrm_resources> > > > > </lrm> > > > > <transient_attributes id="xxxxxxxx-ff8a-429a-81c2-db36ebb522e7"> > > > > <instance_attributes id="status-xxxxxxxx-ff8a-429a-81c2-db36ebb522e7"> > > > > <attributes> > > > > <nvpair id="status-xxxxxxxx-ff8a-429a-81c2-db36ebb522e7-probe_complete" name="probe_complete" value="true"/> > > > > <nvpair id="status-xxxxxxxx-ff8a-429a-81c2-db36ebb522e7-fail-count-pgsql0" name="fail-count-pgsql0" value="1"/> > > > > </attributes> > > > > </instance_attributes> > > > > <instance_attributes id="master-xxxxxxxx-ff8a-429a-81c2-db36ebb522e7"> > > > > <attributes/> > > > > </instance_attributes> > > > > </transient_attributes> > > > > </node_state> > > > > </status> > > > > </cib> > > > > > > > > > > > > > > > > > > > > > Date: Mon, 23 May 2011 10:32:52 +0900 > > > > > From: renay****@ybb***** > > > > > To: linux****@lists***** > > > > > Subject: Re: [Linux-ha-jp] heartbeatのフェイルオーバー時postgres起動について > > > > > > > > > > 高橋さん > > > > > > > > > > こんにちは、メイトリックスの山内です。 > > > > > > > > > > postgreSQL自体にstartがかかっている気配がないまま、リソースの移動処理(状態遷移)が終わっていますので、何かcib情報に問題があると思われます。 > > > > > > > > > > /var/lib/heartbeat/pengine/pe-warn-25.bz2 > > > > > > > > > > のファイルがあると少しわかるかも知れません。 > > > > > > > > > > Heartbeatバージョンが2.1.3と古めなので、状態遷移の作成にxxx_ech_db01サーバの消失(ログでいうLOST)が関連しているかも知れません。 > > > > > > > > > > 以上、よろしく御願いいたします。 > > > > > > > > > > > > > > > --- On Fri, 2011/5/20, takahasi hideo <hideo_tk960****@hotma*****> wrote: > > > > > > > > > > > 高橋と申します。 > > > > > > > > > > > > heartbeat、DRBD、postgresqlを使用して、 > > > > > > データベースクラスタサーバを構築しております > > > > > > > > > > > > xxx_ech_db01サーバ (master)障害が発生時、 > > > > > > xxx_ech_db02サーバ(slave)にフェイルオーバーを行うように設定しております。 > > > > > > > > > > > > xxx_ech_db01サーバ障害(postgresにて処理に負荷が発生し、postgresのサービスが異常終了)が発生した時に、 > > > > > > xxx_ech_db02サーバにフェイルオーバーされていたのですが(masterにはなっており、mountもされていました) > > > > > > がpostgresのサービスが起動しておりませんでした。 > > > > > > > > > > > > サーバ構成は以下になります。 > > > > > > 2台とも同じものとなっております > > > > > > OS RedHat ES4.0 > > > > > > > > > > > > ◆カーネルバージョン: > > > > > > Linux 2.6.9-67.ELsmp #1 SMP Wed Nov 7 13:56:44 EST 2007 x86_64 x86_64 x86_64 GNU/Linux > > > > > > heartbest 2.1.3 > > > > > > DRBD 0.7.2 > > > > > > postgres8.2.3 > > > > > > > > > > > > 前々回にもxxx_ech_db01サーバに障害(postgresにて処理に負荷が発生し、postgresのサービスが異常終了)が発生した時は、 > > > > > > xxx_ech_db02サーバにフェイルオーバーが、 > > > > > > 実行され、postgresのサービスも正常に起動しておりました。 > > > > > > > > > > > > syslogを確認いたしましたところ、 > > > > > > 前々回は以下のログが出力されておりましたが、 > > > > > > 今回のログには出力されておりませんでした。 > > > > > > > > > > > > tengine: [5011]: info: send_rsc_command: Initiating action 34: start pgsql0_start_0 on ech-db02 > > > > > > crmd: [18567]: info: do_lrm_rsc_op: Performing op=pgsql0_start_0 key=34:0:0:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx) > > > > > > lrmd: [18564]: info: rsc:pgsql0: start > > > > > > > > > > > > 原因が分からず困っております。 > > > > > > ほかに必要な情報はございますでしょうか? > > > > > > > > > > > > cib.xmlのファイル設定は以下となります。 > > > > > > <cib generated="true" admin_epoch="0" have_quorum="true" ignore_dtd="false" num_peers="2" cib_feature_revision="2.0" crm_feature_set="2.0" epoch="106" num_updates="3" cib-last-written="Fri Mar 18 04:25:44 2011" ccm_transition="2" dc_uuid="xxxxxx-fb58-4b77-8755-aee23da6a63d"> > > > > > > <configuration> > > > > > > <crm_config> > > > > > > <cluster_property_set id="cib-bootstrap-options"> > > > > > > <attributes> > > > > > > <nvpair id="cib-bootstrap-options-dc-version" name="dc-version" value="2.1.4-fb84f606a422 tip"/> > > > > > > </attributes> > > > > > > </cluster_property_set> > > > > > > <cluster_property_set id="default_cluster_properties" score="10"> > > > > > > <attributes> > > > > > > <nvpair id="default-sticky" name="default_resource_stickiness" value="INFINITY"/> > > > > > > </attributes> > > > > > > </cluster_property_set> > > > > > > </crm_config> > > > > > > <nodes> > > > > > > <node id="XXXXXXXX-ff8a-429a-81c2-db36ebb522e7" uname="xxx-ech-db01" type="normal"/> > > > > > > <node id="XXXXXXXX-fb58-4b77-8755-aee23da6a63d" uname="xxx-ech-db02" type="normal"/> > > > > > > </nodes> > > > > > > <resources> > > > > > > <master_slave id="ms-drbd0"> > > > > > > <meta_attributes id="ma-ms-drbd0"> > > > > > > <attributes> > > > > > > <nvpair id="ma-ms-drbd0-1" name="clone_max" value="2"/> > > > > > > <nvpair id="ma-ms-drbd0-2" name="clone_node_max" value="1"/> > > > > > > <nvpair id="ma-ms-drbd0-3" name="master_max" value="1"/> > > > > > > <nvpair id="ma-ms-drbd0-4" name="master_node_max" value="1"/> > > > > > > <nvpair id="ma-ms-drbd0-5" name="notify" value="yes"/> > > > > > > <nvpair id="ma-ms-drbd0-6" name="globally_unique" value="false"/> > > > > > > </attributes> > > > > > > </meta_attributes> > > > > > > <primitive id="drbd0" class="ocf" provider="heartbeat" type="drbd"> > > > > > > <instance_attributes id="ia-drbd0"> > > > > > > <attributes> > > > > > > <nvpair id="ia-drbd0-1" name="drbd_resource" value="drbd0"/> > > > > > > </attributes> > > > > > > </instance_attributes> > > > > > > </primitive> > > > > > > </master_slave> > > > > > > <group id="postDb"> > > > > > > <primitive class="ocf" provider="heartbeat" type="IPaddr" id="iPaddr"> > > > > > > <instance_attributes id="ia_ipaddr"> > > > > > > <attributes> > > > > > > <nvpair id="ia_ipaddr" name="ip" value="192.168.XX.XXX"/> > > > > > > </attributes> > > > > > > </instance_attributes> > > > > > > </primitive> > > > > > > <primitive class="ocf" provider="heartbeat" type="Filesystem" id="fs0"> > > > > > > <meta_attributes id="ma-fs0"> > > > > > > <attributes/> > > > > > > </meta_attributes> > > > > > > <instance_attributes id="ia-fs0"> > > > > > > <attributes> > > > > > > <nvpair id="ia-fs0-1" name="fstype" value="ext3"/> > > > > > > <nvpair id="ia-fs0-2" name="directory" value="/data"/> > > > > > > <nvpair id="ia-fs0-3" name="device" value="/dev/drbd0"/> > > > > > > </attributes> > > > > > > </instance_attributes> > > > > > > </primitive> > > > > > > <primitive class="ocf" provider="heartbeat" type="pgsql" id="pgsql0"> > > > > > > <instance_attributes id="ia-pgsql0"> > > > > > > <attributes> > > > > > > <nvpair id="ia-pgsql0-1" name="pgctl" value="/usr/local/pgsql/bin/pg_ctl"/> > > > > > > <nvpair id="ia-pgsql0-2" name="psql" value="/usr/local/pgsql/bin/psql"/> > > > > > > <nvpair id="ia-pgsql0-3" name="pgdata" value="/data/pgsql/data/"/> > > > > > > <nvpair id="ia-pgsql0-4" name="pgdba" value="postgres"/> > > > > > > <nvpair id="ia-pgsql0-6" name="logfile" value="/var/log/postgresql/postgresql_log"/> > > > > > > </attributes> > > > > > > </instance_attributes> > > > > > > <operations> > > > > > > <op id="apPostgreSQLDB_start" name="start" timeout="60s" on_fail="fence"/> > > > > > > <op id="apPostgreSQLDB_monitor" name="monitor" interval="30s" timeout="60s" on_fail="fence"/> > > > > > > <op id="apPostgreSQLDB_stop" name="stop" timeout="60s" on_fail="fence"/> > > > > > > </operations> > > > > > > </primitive> > > > > > > </group> > > > > > > </resources> > > > > > > <constraints> > > > > > > <rsc_location id="rsc_location_group_1" rsc="ms-drbd0"> > > > > > > <rule id="prefered_location_group_1" role="Master" score="100"> > > > > > > <expression id="prefered_location_group_1_expr" attribute="#uname" operation="eq" value="xxx-ECH-DB01"/> > > > > > > </rule> > > > > > > </rsc_location> > > > > > > <rsc_order id="drbd0_before_fs0" from="postDb" action="start" to="ms-drbd0" to_action="promote"/> > > > > > > <rsc_colocation id="fs0_on_drbd0" to="ms-drbd0" to_role="Master" from="postDb" score="infinity"/> > > > > > > </constraints> > > > > > > </configuration> > > > > > > </cib> > > > > > > > > > > > > 以上 よろしくお願いします。 > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > _______________________________________________ > > > > > Linux-ha-japan mailing list > > > > > Linux****@lists***** > > > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > > > _______________________________________________ > > > Linux-ha-japan mailing list > > > Linux****@lists***** > > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan >