<div dir="ltr">I&#39;m so lucky :) thanks for your help!<div><br></div><div>Gerard</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Oct 19, 2017 at 12:04 AM, Ken Gaillot <span dir="ltr">&lt;<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Wed, 2017-10-18 at 16:58 +0200, Gerard Garcia wrote:<br>
&gt; I&#39;m using version 1.1.15-11.el7_3.2-e174ec8. As far as I know the<br>
&gt; latest stable version in Centos 7.3<br>
&gt;<br>
&gt; Gerard<br>
<br>
</span>Interesting ... this was an undetected bug that was coincidentally<br>
fixed by the recent fail-count work released in 1.1.17. The bug only<br>
affected cloned resources where one clone&#39;s name ended with the<br>
other&#39;s.<br>
<br>
FYI, CentOS 7.4 has 1.1.16, but that won&#39;t help this issue.<br>
<div class="HOEnZb"><div class="h5"><br>
&gt;<br>
&gt; On Wed, Oct 18, 2017 at 4:42 PM, Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
&gt; wrote:<br>
&gt; &gt; On Wed, 2017-10-18 at 14:25 +0200, Gerard Garcia wrote:<br>
&gt; &gt; &gt; So I think I found the problem. The two resources are named<br>
&gt; &gt; forwarder<br>
&gt; &gt; &gt; and bgpforwarder. It doesn&#39;t matter if bgpforwarder exists. It is<br>
&gt; &gt; &gt; just that when I set the failcount to INFINITY to a resource<br>
&gt; &gt; named<br>
&gt; &gt; &gt; bgpforwarder (crm_failcount -r bgpforwarder -v INFINITY) it<br>
&gt; &gt; directly<br>
&gt; &gt; &gt; affects the forwarder resource. <br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; If I change the name to forwarderbgp, the problem disappears. So<br>
&gt; &gt; it<br>
&gt; &gt; &gt; seems that the problem is that Pacemaker mixes the bgpforwarder<br>
&gt; &gt; and<br>
&gt; &gt; &gt; forwarder names. Is it a bug?<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Gerard<br>
&gt; &gt;<br>
&gt; &gt; That&#39;s really surprising. What version of pacemaker are you using?<br>
&gt; &gt; There were a lot of changes in fail count handling in the last few<br>
&gt; &gt; releases.<br>
&gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Tue, Oct 17, 2017 at 6:27 PM, Gerard Garcia &lt;<a href="mailto:gerard@talaia.io">gerard@talaia.io</a>&gt;<br>
&gt; &gt; &gt; wrote:<br>
&gt; &gt; &gt; &gt; That makes sense. I&#39;ve tried copying the anything resource and<br>
&gt; &gt; &gt; &gt; changed its name and id (which I guess should be enough to make<br>
&gt; &gt; &gt; &gt; pacemaker think they are different) but I still have the same<br>
&gt; &gt; &gt; &gt; problem.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; After more debugging I have reduced the problem to this:<br>
&gt; &gt; &gt; &gt; * First cloned resource running fine<br>
&gt; &gt; &gt; &gt; * Second cloned resource running fine<br>
&gt; &gt; &gt; &gt; * Manually set failcount to INFINITY to second cloned resource<br>
&gt; &gt; &gt; &gt; * Pacemaker triggers an stop operation (without monitor<br>
&gt; &gt; operation<br>
&gt; &gt; &gt; &gt; failing) for the two resources in the node where the failcount<br>
&gt; &gt; has<br>
&gt; &gt; &gt; &gt; been set to INFINITY.<br>
&gt; &gt; &gt; &gt; * Reset failcount starts the two resources again<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; Weirdly enough the second resource doesn&#39;t stop if I set the<br>
&gt; &gt; the<br>
&gt; &gt; &gt; &gt; the first resource failcount to INFINITY (not even the first<br>
&gt; &gt; &gt; &gt; resource stops...). <br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; But:<br>
&gt; &gt; &gt; &gt; * If I set the first resource as globally-unique=true it does<br>
&gt; &gt; not<br>
&gt; &gt; &gt; &gt; stop so somehow this breaks the relation.<br>
&gt; &gt; &gt; &gt; * If I manually set the failcount to 0 in the first resource<br>
&gt; &gt; that<br>
&gt; &gt; &gt; &gt; also breaks the relation so it does not stop either. It seems<br>
&gt; &gt; like<br>
&gt; &gt; &gt; &gt; the failcount value is being inherited from the second resource<br>
&gt; &gt; &gt; &gt; when it does not have any value. <br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; I must have something wrongly configuration but I can&#39;t really<br>
&gt; &gt; see<br>
&gt; &gt; &gt; &gt; why there is this relationship...<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; Gerard<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; On Tue, Oct 17, 2017 at 3:35 PM, Ken Gaillot &lt;kgaillot@redhat.c<br>
&gt; &gt; om&gt;<br>
&gt; &gt; &gt; &gt; wrote:<br>
&gt; &gt; &gt; &gt; &gt; On Tue, 2017-10-17 at 11:47 +0200, Gerard Garcia wrote:<br>
&gt; &gt; &gt; &gt; &gt; &gt; Thanks Ken. Yes, inspecting the logs seems that the<br>
&gt; &gt; failcount<br>
&gt; &gt; &gt; &gt; &gt; of the<br>
&gt; &gt; &gt; &gt; &gt; &gt; correctly running resource reaches the maximum number of<br>
&gt; &gt; &gt; &gt; &gt; allowed<br>
&gt; &gt; &gt; &gt; &gt; &gt; failures and gets banned in all nodes.<br>
&gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; What is weird is that I just see how the failcount for the<br>
&gt; &gt; &gt; &gt; &gt; first<br>
&gt; &gt; &gt; &gt; &gt; &gt; resource gets updated, is like the failcount are being<br>
&gt; &gt; mixed.<br>
&gt; &gt; &gt; &gt; &gt; In<br>
&gt; &gt; &gt; &gt; &gt; &gt; fact, when the two resources get banned the only way I have<br>
&gt; &gt; to<br>
&gt; &gt; &gt; &gt; &gt; make<br>
&gt; &gt; &gt; &gt; &gt; &gt; the first one start is to disable the failing one and clean<br>
&gt; &gt; the<br>
&gt; &gt; &gt; &gt; &gt; &gt; failcount of the two resources (it is not enough to only<br>
&gt; &gt; clean<br>
&gt; &gt; &gt; &gt; &gt; the<br>
&gt; &gt; &gt; &gt; &gt; &gt; failcount of the first resource) does it make sense?<br>
&gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; Gerard<br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; My suspicion is that you have two instances of the same<br>
&gt; &gt; service,<br>
&gt; &gt; &gt; &gt; &gt; and<br>
&gt; &gt; &gt; &gt; &gt; the resource agent monitor is only checking the general<br>
&gt; &gt; service,<br>
&gt; &gt; &gt; &gt; &gt; rather<br>
&gt; &gt; &gt; &gt; &gt; than a specific instance of it, so the monitors on both of<br>
&gt; &gt; them<br>
&gt; &gt; &gt; &gt; &gt; return<br>
&gt; &gt; &gt; &gt; &gt; failure if either one is failing.<br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; That would make sense why you have to disable the failing<br>
&gt; &gt; &gt; &gt; &gt; resource, so<br>
&gt; &gt; &gt; &gt; &gt; its monitor stops running. I can&#39;t think of why you&#39;d have to<br>
&gt; &gt; &gt; &gt; &gt; clean its<br>
&gt; &gt; &gt; &gt; &gt; failcount for the other one to start, though.<br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; The &quot;anything&quot; agent very often causes more problems than it<br>
&gt; &gt; &gt; &gt; &gt; solves ...<br>
&gt; &gt; &gt; &gt; &gt;  I&#39;d recommend writing your own OCF agent tailored to your<br>
&gt; &gt; &gt; &gt; &gt; service.<br>
&gt; &gt; &gt; &gt; &gt; It&#39;s not much more complicated than an init script.<br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; On Mon, Oct 16, 2017 at 6:57 PM, Ken Gaillot &lt;kgaillot@redh<br>
&gt; &gt; at.c<br>
&gt; &gt; &gt; &gt; &gt; om&gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; wrote:<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; On Mon, 2017-10-16 at 18:30 +0200, Gerard Garcia wrote:<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; Hi,<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; I have a cluster with two ocf:heartbeat:anything<br>
&gt; &gt; resources<br>
&gt; &gt; &gt; &gt; &gt; each<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; one<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; running as a clone in all nodes of the cluster. For<br>
&gt; &gt; some<br>
&gt; &gt; &gt; &gt; &gt; reason<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; when<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; one of them fails to start the other one stops. There<br>
&gt; &gt; is<br>
&gt; &gt; &gt; &gt; &gt; not any<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; constrain configured or any kind of relation between<br>
&gt; &gt; them. <br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; Is it possible that there is some kind of implicit<br>
&gt; &gt; relation<br>
&gt; &gt; &gt; &gt; &gt; that<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; I&#39;m<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; not aware of (for example because they are the same<br>
&gt; &gt; type?)<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; Thanks,<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; &gt; Gerard<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; There is no implicit relation on the Pacemaker side.<br>
&gt; &gt; However<br>
&gt; &gt; &gt; &gt; &gt; if the<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; agent returns &quot;failed&quot; for both resources when either one<br>
&gt; &gt; &gt; &gt; &gt; fails,<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; you<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; could see something like that. I&#39;d look at the logs on<br>
&gt; &gt; the DC<br>
&gt; &gt; &gt; &gt; &gt; and<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; see<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; why it decided to restart the second resource.<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; --<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_f" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_f</a><br>
&gt; &gt; rom_<br>
&gt; &gt; &gt; &gt; &gt; Scratc<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; h.pdf<br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; &gt; &gt; &gt; &gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; &gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt; &gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; &gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_fro" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_fro</a><br>
&gt; &gt; m_Sc<br>
&gt; &gt; &gt; &gt; &gt; ratch.<br>
&gt; &gt; &gt; &gt; &gt; &gt; pdf<br>
&gt; &gt; &gt; &gt; &gt; &gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; --<br>
&gt; &gt; &gt; &gt; &gt; Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; &gt; &gt; &gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; &gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_</a><br>
&gt; &gt; Scra<br>
&gt; &gt; &gt; &gt; &gt; tch.pdf<br>
&gt; &gt; &gt; &gt; &gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt; &gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; &gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; &gt; &gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; &gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scra" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scra</a><br>
&gt; &gt; tch.<br>
&gt; &gt; &gt; pdf<br>
&gt; &gt; &gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt; &gt; --<br>
&gt; &gt; Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
&gt; &gt;<br>
&gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; &gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt; &gt;<br>
&gt; &gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; &gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratc" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratc</a><br>
&gt; &gt; h.pdf<br>
&gt; &gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
&gt; &gt;<br>
&gt;<br>
&gt; ______________________________<wbr>_________________<br>
&gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
&gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
&gt;<br>
&gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch</a>.<br>
&gt; pdf<br>
&gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
--<br>
Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;<br>
<br>
______________________________<wbr>_________________<br>
Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>
<a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>
<br>
Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>
Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch.pdf</a><br>
Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>
</div></div></blockquote></div><br></div>