<div dir="ltr">Andrei and Klaus thanks for prompt reply and clarification!<div>As I understand, design and behavior of Pacemaker is tightly coupled with the stonith concept. But isn't it too rigid?</div><div><br></div><div>Is there a way to leverage self-monitoring or pingd rules to trigger isolated node to umount its FS? Like vSphere High Availability host isolation response.<br>Can resource-stickiness=off (auto-failback) decrease risk of corruption by unresponsive node coming back online?<br>Is there a quorum feature not for cluster but for resource start/stop? Got lock - is welcome to mount, unable to refresh lease - force unmount. <br>Can on-fail=ignore break manual failover logic (stopped will be considered as failed and thus ignored)?<br></div><div><br></div><div>best regards,</div><div>Artem</div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, 19 Dec 2023 at 17:03, Klaus Wenninger <<a href="mailto:kwenning@redhat.com">kwenning@redhat.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Tue, Dec 19, 2023 at 10:00 AM Andrei Borzenkov <<a href="mailto:arvidjaar@gmail.com" target="_blank">arvidjaar@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Tue, Dec 19, 2023 at 10:41 AM Artem <<a href="mailto:tyomikh@gmail.com" target="_blank">tyomikh@gmail.com</a>> wrote:<br>
...<br>
> Dec 19 09:48:13 <a href="http://lustre-mds2.ntslab.ru" rel="noreferrer" target="_blank">lustre-mds2.ntslab.ru</a> pacemaker-schedulerd[785107] (update_resource_action_runnable)    warning: OST4_stop_0 on lustre4 is unrunnable (node is offline)<br>
> Dec 19 09:48:13 <a href="http://lustre-mds2.ntslab.ru" rel="noreferrer" target="_blank">lustre-mds2.ntslab.ru</a> pacemaker-schedulerd[785107] (recurring_op_for_active)    info: Start 20s-interval monitor for OST4 on lustre3<br>
> Dec 19 09:48:13 <a href="http://lustre-mds2.ntslab.ru" rel="noreferrer" target="_blank">lustre-mds2.ntslab.ru</a> pacemaker-schedulerd[785107] (log_list_item)      notice: Actions: Stop       OST4        (     lustre4 )  blocked<br>
<br>
This is the default for the failed stop operation. The only way<br>
pacemaker can resolve failure to stop a resource is to fence the node<br>
where this resource was active. If it is not possible (and IIRC you<br>
refuse to use stonith), pacemaker has no other choice as to block it.<br>
If you insist, you can of course sert on-fail=ignore, but this means<br>
unreachable node will continue to run resources. Whether it can lead<br>
to some corruption in your case I cannot guess.<br></blockquote><div><br></div><div>Don't know if I'm reading that correctly but I understand what you had written</div><div>above that you try to trigger the failover by stopping the VM (lustre4) without</div><div>ordered shutdown.</div><div>With fencing disabled what we are seeing is exactly what we would expect:</div><div>The state of the resource is unknown - pacemaker tries to stop it - doesn't work</div><div>as the node is offline - no fencing configured - so everything it can do is wait</div><div>till there is info if the resource is up or not.</div><div>I guess the strange output below is because of fencing disabled - quite an</div><div>unusual - also not recommended - configuration and so this might not have </div><div>shown up too often in that way.</div><div><br></div><div>Klaus</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
> Dec 19 09:48:13 <a href="http://lustre-mds2.ntslab.ru" rel="noreferrer" target="_blank">lustre-mds2.ntslab.ru</a> pacemaker-schedulerd[785107] (pcmk__create_graph)         crit: Cannot fence lustre4 because of OST4: blocked (OST4_stop_0)<br>
<br>
That is a rather strange phrase. The resource is blocked because the<br>
pacemaker could not fence the node, not the other way round.<br>
_______________________________________________<br>
Manage your subscription:<br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
<br>
ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
</blockquote></div></div>
_______________________________________________<br>
Manage your subscription:<br>
<a href="https://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">https://lists.clusterlabs.org/mailman/listinfo/users</a><br>
<br>
ClusterLabs home: <a href="https://www.clusterlabs.org/" rel="noreferrer" target="_blank">https://www.clusterlabs.org/</a><br>
</blockquote></div>