hirame023
hiram****@gmail*****
2011年 9月 29日 (木) 18:09:52 JST
池田様 千田です。 暫定対処まで教えていただきありがとうございます。 # Pacemaker 1.0.11のバグなのですね。。。 migrateコマンドに関しても正常にF/Oしていなかったので情報ありがとうございます。 先にResourceGroupをmigrateし、その後Master/SlaveSetをmigrateという 二度手間な手順で対処していました。 # unmigrateの場合も同じ とりあえず最新版の1.0.11を使用して検証していましたが、 1.0.10も考慮したほうが良さそうですね。 リリースノート等をみて最終的にどちらで行うか判断したいと思います。 以上、よろしくお願いいたします。 > 千田様 > > NTTデータ先端技術の池田です。 > 本事象はPacemaker 1.0.11のバグです。 > # Pacemaker 1.0.10では発生しません。 > > 次期バージョン(1.0.12)での動作改善も検討中ですが > 暫定対処として下記の設定を追加してください。 > > colocation co1 inf: rg1 ms_drbd0:Master > order o1 inf: ms_drbd0:promote rg1:start > --- 追加ここから --- > location rsc_location-1 ms_drbd0 \ > rule role=master -inf: defined fail-count-res_fs \ > rule role=master -inf: defined fail-count-res_vip \ > rule role=master -inf: defined fail-count-res_apache \ > rule role=master -inf: defined fail-count-res_tomcat > --- 追加ここまで --- > > primitiveリソースのフェイルカウントが増加した場合は > Masterリソースを強制的に他ノードへ移動させます。 > > 参考情報 > http://www.gossamer-threads.com/lists/linuxha/pacemaker/74734 > > なお、migrate(=move)コマンドによるリソースの移動についても > groupを指定したリソースの移動ができません。 > migrateコマンドには、groupの最終リソース > (今回の設定例ではres_tomcat)を指定してください。 > > 実行例 > # crm resource migrate res_tomcat <移動先ノード名> force > > リソースの移動が完了したことをcrm_monコマンドなどで確認した後に > 移動処理のために追加された制約を解除してください。 > # crm resource unmigrate res_tomcat > > 参考情報 > http://linux-ha.sourceforge.jp/wp/archives/1809/3 > > 以上よろしくお願いいたします。 > > 池田淳子 > > 2011年9月29日15:21 hirame023 <hiram****@gmail*****>: > > 千田と申します。 > > > > heartbeat-3.0.5-1.1.el5とpacemaker-1.0.11-1.2.el5で検証をしています。 > > > > Master/Slave+Group構成時に特定箇所のRAを停止させた場合、期待通りにF/Oが行われません。 > > この現象の原因/回避方法等分かる方はいらっしゃいますでしょうか? > > > > 以下、挙動と構成です。 > > > > ■挙動 > > Online: [ node01 node02 ] > > > > Master/Slave Set: ms_drbd0 > > Masters: [ node01 ] > > Slaves: [ node02 ] > > Resource Group: rg1 > > res_fs (ocf::heartbeat:Filesystem): Started node01 > > res_vip (ocf::heartbeat:IPaddr2): Started node01 > > res_apache (ocf::heartbeat:apache): Started node01 > > res_tomcat (ocf::heartbeat:tomcat): Started node01 > > > > 1.res_vipに障害が起こったと仮定しnode01側でifdown eth0などのコマンドを実行しFAILEDを発生させる > > 2.migration-threshold="1"、monitorのon-failがrestartなのでF/Oが実施 > > 3.res_tomcat、res_apache、res_vipの順で停止するが、res_vipが停止までで処理が終了しF/Oされない > > # 上記構成で全てのRAが起動状態の時にres_apacheやres_tomcatを単体で停止させた場合は、期待通りにF/Oされます。 > > # Group内でres_vipとres_apacheを入れ替えた場合、res_apacheが同様の挙動を起こします。 > > > > ■crm > > primitive res_apache ocf:heartbeat:apache \ > > params configfile="/etc/httpd/conf/httpd.conf" port="80" \ > > op start interval="0" \ > > op monitor interval="10s" \ > > op stop on-fail="block" interval="0" > > primitive res_drbd0 ocf:linbit:drbd \ > > params drbd_resource="r0" drbdconf="/etc/drbd.conf" \ > > op start interval="0" timeout="240s" \ > > op monitor interval="10s" role="Master" timeout="30s" \ > > op monitor interval="20s" role="Slave" timeout="30s" \ > > op stop on-fail="block" interval="0" > > primitive res_fs ocf:heartbeat:Filesystem \ > > params device="/dev/drbd0" fstype="ext3" directory="/data" \ > > op start interval="0" timeout="60s" \ > > op monitor interval="10s" timeout="40s" \ > > op stop on-fail="block" interval="0" timeout="60s" > > primitive res_tomcat ocf:heartbeat:tomcat \ > > params catalina_base="/usr/local/tomcat" > > catalina_home="/usr/local/tomcat" catalina_pid="tomcat" > > java_home="/usr/local/java" tomcat_user="tomcat" > > statusurl="http://127.0.0.1:8080" \ > > op start interval="0" \ > > op monitor interval="10s" timeout="60s" \ > > op stop on-fail="block" interval="0" timeout="120s" > > primitive res_vip ocf:heartbeat:IPaddr2 \ > > params ip="192.168.100.100" cidr_netmask="24" nic="eth0" \ > > op start interval="0" timeout="60s" \ > > op monitor interval="10s" timeout="60s" \ > > op stop on-fail="block" interval="0" timeout="60s" > > group rg1 res_fs res_vip res_apache res_tomcat \ > > meta target-role="Started" > > ms ms_drbd0 res_drbd0 \ > > meta master-max="1" master-node-max="1" clone-max="2" > > clone-node-max="1" notify="true" target-role="Master" > > colocation co1 inf: rg1 ms_drbd0:Master > > order o1 inf: ms_drbd0:promote rg1:start > > property $id="cib-bootstrap-options" \ > > dc-version="1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87" \ > > cluster-infrastructure="Heartbeat" \ > > no-quorum-policy="ignore" \ > > stonith-enabled="false" \ > > startup-fencing="false" \ > > last-lrm-refresh="1316995556" > > rsc_defaults $id="rsc-options" \ > > resource-stickiness="INFINITY" \ > > migration-threshold="1" > > op_defaults $id="op-options" \ > > timeout="120s" \ > > on-fail="restart" > > > > 以上、よろしくお願いいたします。 > > > > > > _______________________________________________ > > Linux-ha-japan mailing list > > Linux****@lists***** > > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > > > > > > ------------------------------ > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan > > > 以上: Linux-ha-japan まとめ読み, 46 巻, 27 号 > *********************************************