<div dir="ltr">Hi Dejan,<div><br></div><div>Thanks a lot for your input!</div><div><br></div><div>I cherry picked this commit &amp; this solves the problem. I will raise a ubuntu launchpad bug for them to pull this correction in trusty stable. Thanks!</div><div><br></div><div>--Shyam</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Oct 15, 2015 at 1:21 PM, Dejan Muhamedagic <span dir="ltr">&lt;<a href="mailto:dejanmm@fastmail.fm" target="_blank">dejanmm@fastmail.fm</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<div><div class="h5"><br>
On Wed, Oct 14, 2015 at 10:31:40PM +0530, Shyam wrote:<br>
&gt; Hi all,<br>
&gt;<br>
&gt; We were previously using Pacemaker 1.1.6 on Ubuntu Precise. We are shifting<br>
&gt; to Ubuntu Trusty &amp; it has Pacemaker 1.1.10.<br>
&gt;<br>
&gt; We have our own STONITH resource &amp; with the pacemaker upgrade this is<br>
&gt; broken. The problem that I am hitting is not something new &amp; is exactly<br>
&gt; that was reported in<br>
&gt; <a href="http://clusterlabs.org/pipermail/users/2015-June/000686.html" rel="noreferrer" target="_blank">http://clusterlabs.org/pipermail/users/2015-June/000686.html</a><br>
&gt;<br>
&gt; Basically Hearbeat + Pacemaker stack suffers this problem (even with the<br>
&gt; github mainline code) &amp; since a lot of people are using corosync I think<br>
&gt; the problem is not felt with.<br>
&gt;<br>
&gt; The basic problem is this. Between Pacemaker 1.1.6 to 1.1.10, the following<br>
&gt; change was done<br>
&gt;<br>
&gt; fencing/remote.c<br>
&gt;<br>
&gt; static void remote_op_done(remote_fencing_op_t * op, xmlNode * data, int<br>
&gt; rc, int dup)<br>
&gt;<br>
&gt;     if (dup == FALSE &amp;&amp; safe_str_neq(subt, &quot;broadcast&quot;)) {<br>
&gt;         /* Defer notification until the bcast message arrives */<br>
&gt;         bcast_result_to_peers(op, rc);<br>
&gt;         goto remote_op_done_cleanup;<br>
&gt;<br>
&gt; remote_op_done() previously used to send a direct reply. Now it was changed<br>
&gt; that it does a broadcast of the result &amp; this broadcast is supposed to come<br>
&gt; back to the same fencing agent upon which finishes the operation. However<br>
&gt; this broadcast that is being sent by stonithd doesnt reach back itself.<br>
&gt; This causes eventually crmd to timeout on stonith_async_timeout_handler()<br>
&gt; to be triggered &amp; keep retrying STONITH. so essentially STONITH is broken.<br>
<br>
</div></div>I can vaguelly recall some stonith/heartbeat issue which got<br>
fixed by Lars:<br>
<br>
commit cc34288a7b2276aa238546f4aa92fa79b8cbcf88<br>
Author: Lars Ellenberg &lt;<a href="mailto:lars.ellenberg@linbit.com">lars.ellenberg@linbit.com</a>&gt;<br>
Date:   Tue Dec 9 10:48:33 2014 +0100<br>
<br>
Sounds like the same problem.<br>
<br>
Thanks,<br>
<br>
Dejan<br>
<div><div class="h5"><br>
<br>
&gt; I tried setting up bcast in /etc/ha.d/<a href="http://ha.cf" rel="noreferrer" target="_blank">ha.cf</a>, but it doesnt help. To confirm<br>
&gt; the issue, I removed the above flow for bcast_result_to_peers() &amp; then<br>
&gt; STONITH works perfectly fine. Any pointers/help appreciated on how to<br>
&gt; resolve this issue in the right way?<br>
&gt;<br>
&gt;<br>
&gt; From logs<br>
&gt;<br>
&gt; CRMD issues STONITH reboot to stonith-ng<br>
&gt;<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG: Dumping message with<br>
&gt; 19 fields<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[0] :<br>
&gt; [__name__=stonith_command]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[1] :<br>
&gt; [__name__=stonith_command]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[2] : [t=stonith-ng]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[3] :<br>
&gt; [st_async_id=617dce02-057f-42b8-9df2-33bc4e64780d]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[4] : [st_op=st_fence]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[5] : [st_callid=2]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[6] : [st_callopt=0]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[7] :<br>
&gt; [st_remote_op=617dce02-057f-42b8-9df2-33bc4e64780d]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[8] : [st_target=node1]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[9] :<br>
&gt; [st_device_action=reboot]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[10] : [st_origin=node0]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[11] :<br>
&gt; [st_clientid=346fea6b-a55d-4873-b630-14287d5bc71e]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[12] :<br>
&gt; [st_clientname=crmd.14483]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[13] : [st_timeout=90]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[14] : [st_mode=smart]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[15] : [dest=node0]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[16] : [oseq=2]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[17] :<br>
&gt; [from_id=stonith-ng]<br>
&gt; Oct 14 14:57:01 node0 heartbeat: [14463]: debug: MSG[18] :<br>
&gt; [to_id=stonith-ng]<br>
&gt;<br>
&gt;<br>
&gt; stonith-ng successfully finishes the STONITH<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:   notice: log_operation: Operation<br>
&gt; &#39;reboot&#39; [14657] (call 2 from crmd.14483) for host &#39;node1&#39; with device<br>
&gt; &#39;Z-FENCE:0&#39; returned: 0 (OK)<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug:<br>
&gt; stonith_send_async_reply: Directed reply to node0<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: send_ha_message:<br>
&gt; outbound   &lt;st-reply st_origin=&quot;node0&quot; t=&quot;stonith-ng&quot; st_op=&quot;st_fence&quot;<br>
&gt; st_device_id=&quot;Z-FENCE:0&quot;<br>
&gt; st_remote_op=&quot;617dce02-057f-42b8-9df2-33bc4e64780d&quot;<br>
&gt; st_clientid=&quot;346fea6b-a55d-4873-b630-14287d5bc71e&quot;<br>
&gt; st_clientname=&quot;crmd.14483&quot; st_target=&quot;node1&quot; st_device_action=&quot;reboot&quot;<br>
&gt; st_callid=&quot;2&quot; st_callopt=&quot;0&quot; st_rc=&quot;0&quot; st_output=&quot;Performing: stonith -t<br>
&gt; external/zstonith -T reset node1\nsuccess: node1 0\n&quot;/&gt;<br>
&gt;<br>
&gt;<br>
&gt; &amp; stonith-ng sends a self message for st-reply<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG: Dumping message with<br>
&gt; 18 fields<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[0] :<br>
&gt; [__name__=st-reply]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[1] : [st_origin=node0]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[2] : [t=stonith-ng]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[3] : [st_op=st_fence]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[4] :<br>
&gt; [st_device_id=Z-FENCE:0]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[5] :<br>
&gt; [st_remote_op=617dce02-057f-42b8-9df2-33bc4e64780d]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[6] :<br>
&gt; [st_clientid=346fea6b-a55d-4873-b630-14287d5bc71e]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[7] :<br>
&gt; [st_clientname=crmd.14483]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[8] : [st_target=node1]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[9] :<br>
&gt; [st_device_action=reboot]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[10] : [st_callid=2]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[11] : [st_callopt=0]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[12] : [st_rc=0]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[13] :<br>
&gt; [st_output=Performing: stonith -t external/zstonith -T reset<br>
&gt; node1#012success: node1 0#012]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[14] : [dest=node0]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[15] : [oseq=3]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[16] :<br>
&gt; [from_id=stonith-ng]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[17] :<br>
&gt; [to_id=stonith-ng]<br>
&gt;<br>
&gt;<br>
&gt; As part of this stonith-ng does a broadcast<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: stonith_command:<br>
&gt; Processing st_fence reply 0 from node0 (               0)<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: remote_op_done:<br>
&gt; Broadcasting result<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: send_ha_message:<br>
&gt; outbound   &lt;st-reply t=&quot;st_notify&quot; subt=&quot;broadcast&quot; st_op=&quot;st_notify&quot;<br>
&gt; count=&quot;1&quot;&gt;<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: send_ha_message:<br>
&gt; outbound     &lt;st_calldata&gt;<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: send_ha_message:<br>
&gt; outbound       &lt;st_notify_fence state=&quot;2&quot; st_rc=&quot;0&quot; st_target=&quot;node1&quot;<br>
&gt; st_device_action=&quot;reboot&quot; st_delegate=&quot;node0&quot;<br>
&gt; st_remote_op=&quot;617dce02-057f-42b8-9df2-33bc4e64780d&quot; st_origin=&quot;node0&quot;<br>
&gt; st_clientid=&quot;346fea6b-a55d-4873-b630-14287d5bc71e&quot;<br>
&gt; st_clientname=&quot;crmd.14483&quot;/&gt;<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: send_ha_message:<br>
&gt; outbound     &lt;/st_calldata&gt;<br>
&gt; Oct 14 14:57:03 node0 stonith-ng[14481]:    debug: send_ha_message:<br>
&gt; outbound   &lt;/st-reply&gt;<br>
&gt;<br>
&gt;<br>
&gt; that is realized at hearbeat<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG: Dumping message with<br>
&gt; 8 fields<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[0] :<br>
&gt; [__name__=st-reply]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[1] : [t=st_notify]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[2] : [subt=broadcast]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[3] : [st_op=st_notify]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[4] : [count=1]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[5] :<br>
&gt; [st_calldata=&lt;st_calldata&gt;&lt;st_notify_fence state=&quot;2&quot; st_rc=&quot;0&quot;<br>
&gt; st_target=&quot;node1&quot; st_device_action=&quot;reboot&quot; st_delegate=&quot;node0&quot;<br>
&gt; st_remote_op=&quot;617dce02-057f-42b8-9df2-33bc4e64780d&quot; st_origin=&quot;node0&quot;<br>
&gt; st_clientid=&quot;346fea6b-a55d-4873-b630-14287d5bc71e&quot;<br>
&gt; st_clientname=&quot;crmd.14483&quot;/&gt;&lt;/st_calldata&gt;]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[6] :<br>
&gt; [from_id=stonith-ng]<br>
&gt; Oct 14 14:57:03 node0 heartbeat: [14463]: debug: MSG[7] : [to_id=stonith-ng]<br>
&gt;<br>
&gt; but then on nothing really happens.<br>
&gt;<br>
&gt; eventually crmd gives up on timeout<br>
&gt; Oct 14 14:59:48 node0 crmd[14483]:    error: stonith_async_timeout_handler:<br>
&gt; Async call 2 timed out after 168000ms<br>
&gt;<br>
&gt; Thanks.<br>
&gt;<br>
&gt; --Shyam<br>
<br>
</div></div>&gt; _______________________________________________<br>
&gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; <a href="http://clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://clusterlabs.org/mailman/listinfo/users</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
<br>
<br>
_______________________________________________<br>
Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
<a href="http://clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://clusterlabs.org/mailman/listinfo/users</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
</blockquote></div><br></div>