<div dir="ltr">Thanks, your explanation is very helpful considering that it happens rarely and only on the first boot after VMs are created.<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, May 22, 2017 at 9:34 PM, Ken Gaillot <span dir="ltr">&lt;<a href="mailto:kgaillot@redhat.com" target="_blank">kgaillot@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On 05/19/2017 02:03 PM, Radoslaw Garbacz wrote:<br>
&gt; Hi,<br>
&gt;<br>
</span><span class="">&gt; I have some more information regarding this issue (pacemaker debug logs).<br>
&gt;<br>
&gt; Firstly, I have not mentioned probably important facts:<br>
&gt; 1) this happen rarely<br>
&gt; 2) this happen only on first boot<br>
&gt; 3) turning on debug in corosync/pacemaker significantly reduced<br>
&gt; frequency of this happening, i.e. without debug every ~7 cluster<br>
&gt; creation, with debug every ~66 cluster creation.<br>
&gt;<br>
&gt; This is a 3 nodes cluster on Azure Cloud and it does not seem like the<br>
&gt; resource agent is reporting an error, because all nodes logs proper &quot;not<br>
&gt; running&quot; results:<br>
&gt;<br>
&gt; The resource in question name is &quot;dbx_head_head&quot;.<br>
&gt;<br>
&gt; node1)<br>
&gt; May 19 13:15:41 [6872] olegdbx39-vm-0 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.32 to 2.5.31<br>
</span>&gt; <a href="http://head.ocf.sh" rel="noreferrer" target="_blank">head.ocf.sh</a> &lt;<a href="http://head.ocf.sh" rel="noreferrer" target="_blank">http://head.ocf.sh</a>&gt;(dbx_head_<wbr>head)[7717]:<br>
<span class="">&gt; 2017/05/19_13:15:42 DEBUG: head_monitor: return 7<br>
&gt; May 19 13:15:42 [6873] olegdbx39-vm-0       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_monitor_0:7717 - exited with rc=7<br>
&gt; May 19 13:15:42 [6873] olegdbx39-vm-0       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_monitor_0:7717:<wbr>stderr [ -- empty -- ]<br>
&gt; May 19 13:15:42 [6873] olegdbx39-vm-0       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_monitor_0:7717:<wbr>stdout [ -- empty -- ]<br>
&gt; May 19 13:15:42 [6873] olegdbx39-vm-0       lrmd:    debug:<br>
&gt; log_finished:    finished - rsc:dbx_head_head action:monitor call_id:14<br>
&gt; pid:7717 exit-code:7 exec-time:932ms queue-time:0ms<br>
&gt;<br>
&gt;<br>
&gt; node2)<br>
&gt; May 19 13:15:41 [6266] olegdbx39-vm000002 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.31 to 2.5.30<br>
</span>&gt; <a href="http://head.ocf.sh" rel="noreferrer" target="_blank">head.ocf.sh</a> &lt;<a href="http://head.ocf.sh" rel="noreferrer" target="_blank">http://head.ocf.sh</a>&gt;(dbx_head_<wbr>head)[6485]:<br>
<div><div class="h5">&gt; 2017/05/19_13:15:41 DEBUG: head_monitor: return 7<br>
&gt; May 19 13:15:41 [6267] olegdbx39-vm000002       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_monitor_0:6485 - exited with rc=7<br>
&gt; May 19 13:15:41 [6267] olegdbx39-vm000002       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_monitor_0:6485:<wbr>stderr [ -- empty -- ]<br>
&gt; May 19 13:15:41 [6267] olegdbx39-vm000002       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_monitor_0:6485:<wbr>stdout [ -- empty -- ]<br>
&gt; May 19 13:15:41 [6267] olegdbx39-vm000002       lrmd:    debug:<br>
&gt; log_finished:    finished - rsc:dbx_head_head action:monitor call_id:14<br>
&gt; pid:6485 exit-code:7 exec-time:790ms queue-time:0ms<br>
&gt; May 19 13:15:41 [6266] olegdbx39-vm000002 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.32 to 2.5.31<br>
&gt; May 19 13:15:41 [6266] olegdbx39-vm000002 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.33 to 2.5.32<br>
&gt;<br>
&gt;<br>
&gt; node3)<br>
&gt; ==  the logs here are different - there is no probing, just stop attempt<br>
&gt; (with proper exit code) ==<br>
&gt;<br>
&gt; == reporting not existing resource ==<br>
&gt;<br>
&gt; May 19 13:15:29 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_info operation from<br>
&gt; d2c8a871-410a-4006-be52-<wbr>ee684c0a5f38: rc=0, reply=0, notify=0<br>
&gt; May 19 13:15:29 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_exec operation from<br>
&gt; d2c8a871-410a-4006-be52-<wbr>ee684c0a5f38: rc=10, reply=1, notify=0<br>
&gt; May 19 13:15:29 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; log_execute:    executing - rsc:dbx_first_datas action:monitor call_id:10<br>
&gt; May 19 13:15:29 [6293] olegdbx39-vm000003       lrmd:     info:<br>
&gt; process_lrmd_get_rsc_info:    Resource &#39;dbx_head_head&#39; not found (2<br>
&gt; active resources)<br>
<br>
</div></div>FYI, this is normal. It just means the lrmd hasn&#39;t been asked to do<br>
anything with this resource before, so it&#39;s not found in the lrmd&#39;s memory.<br>
<span class=""><br>
&gt; May 19 13:15:29 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_info operation from<br>
&gt; d2c8a871-410a-4006-be52-<wbr>ee684c0a5f38: rc=0, reply=0, notify=0<br>
&gt; May 19 13:15:29 [6293] olegdbx39-vm000003       lrmd:     info:<br>
&gt; process_lrmd_rsc_register:    Added &#39;dbx_head_head&#39; to the rsc list (3<br>
&gt; active resources)<br>
&gt; May 19 13:15:40 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_register operation from<br>
&gt; d2c8a871-410a-4006-be52-<wbr>ee684c0a5f38: rc=0, reply=1, notify=1<br>
&gt; May 19 13:15:29 [6292] olegdbx39-vm000003 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.9 to 2.5.8<br>
&gt; May 19 13:15:40 [6292] olegdbx39-vm000003 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.10 to 2.5.9<br>
&gt; May 19 13:15:40 [6292] olegdbx39-vm000003 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.11 to 2.5.10<br>
&gt; May 19 13:15:40 [6292] olegdbx39-vm000003 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.12 to 2.5.11<br>
&gt; May 19 13:15:40 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_info operation from<br>
&gt; d2c8a871-410a-4006-be52-<wbr>ee684c0a5f38: rc=0, reply=0, notify=0<br>
&gt;<br>
&gt;<br>
&gt; == and much later it tries to stop the resource on node3, even though it<br>
&gt; has never been started, nor probed here ==<br>
<br>
</span>At any given time, one node in the cluster has been elected DC. The DC<br>
schedules all actions. So, the logs on the DC (not this node) will have<br>
the explanation for why there was no probe, and why there was a stop.<br>
<span class=""><br>
&gt;<br>
&gt; May 19 13:15:45 [6292] olegdbx39-vm000003 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.59 to 2.5.58<br>
&gt; May 19 13:15:45 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_info operation from<br>
&gt; 069e399c-6c10-47cf-b55f-<wbr>de46985562b3: rc=0, reply=0, notify=0<br>
&gt; May 19 13:15:45 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; process_lrmd_message:    Processed lrmd_rsc_exec operation from<br>
&gt; 069e399c-6c10-47cf-b55f-<wbr>de46985562b3: rc=77, reply=1, notify=0<br>
&gt; May 19 13:15:45 [6293] olegdbx39-vm000003       lrmd:     info:<br>
&gt; log_execute:    executing - rsc:dbx_head_head action:stop call_id:77<br>
</span>&gt; <a href="http://head.ocf.sh" rel="noreferrer" target="_blank">head.ocf.sh</a> &lt;<a href="http://head.ocf.sh" rel="noreferrer" target="_blank">http://head.ocf.sh</a>&gt;(dbx_head_<wbr>head)[7202]:<br>
<span class="">&gt; 2017/05/19_13:15:45 INFO: head_stop: Stopping resource<br>
</span>&gt; <a href="http://head.ocf.sh" rel="noreferrer" target="_blank">head.ocf.sh</a> &lt;<a href="http://head.ocf.sh" rel="noreferrer" target="_blank">http://head.ocf.sh</a>&gt;(dbx_head_<wbr>head)[7202]:<br>
<span class="">&gt; 2017/05/19_13:15:47 DEBUG: head_monitor: return 7<br>
</span>&gt; <a href="http://head.ocf.sh" rel="noreferrer" target="_blank">head.ocf.sh</a> &lt;<a href="http://head.ocf.sh" rel="noreferrer" target="_blank">http://head.ocf.sh</a>&gt;(dbx_head_<wbr>head)[7202]:<br>
<span class="">&gt; 2017/05/19_13:15:47 INFO: Resource is already stopped<br>
&gt; May 19 13:15:47 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_stop_0:7202 - exited with rc=0<br>
&gt; May 19 13:15:47 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_stop_0:7202:<wbr>stderr [ -- empty -- ]<br>
&gt; May 19 13:15:47 [6293] olegdbx39-vm000003       lrmd:    debug:<br>
&gt; operation_finished:    dbx_head_head_stop_0:7202:<wbr>stdout [ -- empty -- ]<br>
&gt; May 19 13:15:47 [6293] olegdbx39-vm000003       lrmd:     info:<br>
&gt; log_finished:    finished - rsc:dbx_head_head action:stop call_id:77<br>
&gt; pid:7202 exit-code:0 exec-time:1359ms queue-time:0ms<br>
&gt; May 19 13:15:47 [6292] olegdbx39-vm000003 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.60 to 2.5.59<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; node1)<br>
&gt; == reports an error on node3, even though the resource has never been<br>
&gt; even configured, probed nor started here ==<br>
&gt;<br>
&gt; The error is reported on node1 that it happened on node3 (acquired from<br>
&gt; &#39;crm_mon&#39;):<br>
&gt;<br>
&gt; Failed Actions:<br>
&gt; * dbx_head_head_monitor_0 on olegdbx39-vm000003 &#39;not configured&#39; (6):<br>
&gt; call=999999999, status=Error, exitreason=&#39;none&#39;,<br>
&gt;     last-rc-change=&#39;Fri May 19 13:15:40 2017&#39;, queued=0ms, exec=0ms<br>
<br>
</span>The combination of &#39;not configured&#39; and call=999999999 has only one<br>
possible source: the crmd could not register the resource with the lrmd.<br>
<br>
Usually this means the resource definition in the CIB is inherently<br>
invalid. However, it can also be reported when there is any kind of<br>
error in the communication between the two daemons: the connection<br>
dropped, the machine was out of memory, the communication timed out<br>
(e.g. due to high load), etc.<br>
<br>
The &quot;Added &#39;dbx_head_head&#39; to the rsc list&quot; message means that the lrmd<br>
did receive and complete the register request, so the problem occurred<br>
sometime between there and crmd getting the result back.<br>
<br>
This explains why you don&#39;t see a probe being executed. The crmd<br>
couldn&#39;t register the resource with the lrmd, so it immediately failed<br>
the probe on its side.<br>
<br>
The root cause is a mystery at this point, but hopefully that gives you<br>
some hints as to what to look for. Check the logs on the DC, and check<br>
the host&#39;s system logs for any signs of trouble at that time.<br>
<div class="HOEnZb"><div class="h5"><br>
&gt; == Node1 logs &quot;not configured&quot; even though all return codes logged<br>
&gt; earlier are OK, below are logs for thread, which reports this error: ==<br>
&gt;<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:     info:<br>
&gt; crm_xml_cleanup:    Cleaning up memory from libxml2<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:     info: main:<br>
&gt; Starting crm_mon<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; qb_rb_open_2:    shm size:524301; real_size:528384; rb-&gt;word_size:132096<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; qb_rb_open_2:    shm size:524301; real_size:528384; rb-&gt;word_size:132096<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; qb_rb_open_2:    shm size:524301; real_size:528384; rb-&gt;word_size:132096<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; cib_native_signon_raw:    Connection to CIB successful<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    STONITH timeout: 60000<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    STONITH of failed nodes is disabled<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    Concurrent fencing is disabled<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    Stop all active resources: false<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    Cluster is symmetric - resources can run anywhere by<br>
&gt; default<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    Default stickiness: 0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:   notice:<br>
&gt; unpack_config:    On loss of CCM Quorum: Ignore<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; unpack_config:    Node scores: &#39;red&#39; = -INFINITY, &#39;yellow&#39; = 0, &#39;green&#39; = 0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:     info:<br>
&gt; determine_online_status:    Node olegdbx39-vm000003 is online<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:     info:<br>
&gt; determine_online_status:    Node olegdbx39-vm-0 is online<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:     info:<br>
&gt; determine_online_status:    Node olegdbx39-vm000002 is online<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_head_head_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;not configured&#39; (6) instead of the expected value: &#39;not<br>
&gt; running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for dbx_head_head<br>
&gt; on olegdbx39-vm000003: not configured (6)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    error:<br>
&gt; unpack_rsc_op:    Preventing dbx_head_head from re-starting anywhere:<br>
&gt; operation monitor failed &#39;not configured&#39; (6)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_head_head_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;not configured&#39; (6) instead of the expected value: &#39;not<br>
&gt; running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for dbx_head_head<br>
&gt; on olegdbx39-vm000003: not configured (6)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    error:<br>
&gt; unpack_rsc_op:    Preventing dbx_head_head from re-starting anywhere:<br>
&gt; operation monitor failed &#39;not configured&#39; (6)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_bind_mounts_nodes on<br>
&gt; olegdbx39-vm000003 to dbx_bind_mounts_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_bind_mounts_nodes_monitor_<wbr>0 on<br>
&gt; olegdbx39-vm000003 returned &#39;unknown&#39; (189) instead of the expected<br>
&gt; value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_bind_mounts_nodes:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_bind_mounts_nodes_monitor_<wbr>0 on<br>
&gt; olegdbx39-vm000003 returned &#39;unknown&#39; (189) instead of the expected<br>
&gt; value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_bind_mounts_nodes:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_swap_nodes on<br>
&gt; olegdbx39-vm000003 to dbx_swap_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_swap_nodes_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_swap_nodes:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_nfs_nodes on<br>
&gt; olegdbx39-vm000003 to dbx_nfs_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_nfs_nodes_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_nfs_nodes:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_first_datas on<br>
&gt; olegdbx39-vm000003 to dbx_first_datas:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_first_datas_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_first_datas:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_first_datas_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_first_datas:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_first_head_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_first_head on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [6872] olegdbx39-vm-0 stonith-ng:    debug:<br>
&gt; xml_patch_version_check:    Can apply patch 2.5.47 to 2.5.46<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_first_head_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_first_head on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_mounts_nodes on<br>
&gt; olegdbx39-vm000003 to dbx_mounts_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_mounts_nodes_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_mounts_nodes:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_mounts_nodes_monitor_0 on olegdbx39-vm000003<br>
&gt; returned &#39;unknown&#39; (189) instead of the expected value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_mounts_nodes:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_nfs_mounts_datas on<br>
&gt; olegdbx39-vm000003 to dbx_nfs_mounts_datas:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; determine_op_status:    dbx_nfs_mounts_datas_monitor_0 on<br>
&gt; olegdbx39-vm000003 returned &#39;unknown&#39; (189) instead of the expected<br>
&gt; value: &#39;not running&#39; (7)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:  warning:<br>
&gt; unpack_rsc_op_failure:    Processing failed op monitor for<br>
&gt; dbx_nfs_mounts_datas:0 on olegdbx39-vm000003: unknown (189)<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_ready_primary on<br>
&gt; olegdbx39-vm000003 to dbx_ready_primary:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_first_datas on<br>
&gt; olegdbx39-vm-0 to dbx_first_datas:1<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_swap_nodes on<br>
&gt; olegdbx39-vm-0 to dbx_swap_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_mounts_nodes on<br>
&gt; olegdbx39-vm-0 to dbx_mounts_nodes:1<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_bind_mounts_nodes on<br>
&gt; olegdbx39-vm-0 to dbx_bind_mounts_nodes:1<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_nfs_mounts_datas on<br>
&gt; olegdbx39-vm-0 to dbx_nfs_mounts_datas:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_nfs_nodes on<br>
&gt; olegdbx39-vm-0 to dbx_nfs_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_ready_primary on<br>
&gt; olegdbx39-vm-0 to dbx_ready_primary:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_first_datas on<br>
&gt; olegdbx39-vm000002 to dbx_first_datas:1<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_swap_nodes on<br>
&gt; olegdbx39-vm000002 to dbx_swap_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_nfs_mounts_datas on<br>
&gt; olegdbx39-vm000002 to dbx_nfs_mounts_datas:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_mounts_nodes on<br>
&gt; olegdbx39-vm000002 to dbx_mounts_nodes:1<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_bind_mounts_nodes on<br>
&gt; olegdbx39-vm000002 to dbx_bind_mounts_nodes:1<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_nfs_nodes on<br>
&gt; olegdbx39-vm000002 to dbx_nfs_nodes:0<br>
&gt; May 19 13:15:42 [8114] olegdbx39-vm-0    crm_mon:    debug:<br>
&gt; find_anonymous_clone:    Internally renamed dbx_ready_primary on<br>
&gt; olegdbx39-vm000002 to dbx_ready_primary:0<br>
&gt; [...]<br>
&gt;<br>
&gt;<br>
&gt; Thanks in advance,<br>
&gt;<br>
&gt;<br>
&gt; On Thu, May 18, 2017 at 4:37 PM, Ken Gaillot &lt;<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a><br>
</div></div><div class="HOEnZb"><div class="h5">&gt; &lt;mailto:<a href="mailto:kgaillot@redhat.com">kgaillot@redhat.com</a>&gt;&gt; wrote:<br>
&gt;<br>
&gt;     On 05/17/2017 06:10 PM, Radoslaw Garbacz wrote:<br>
&gt;     &gt; Hi,<br>
&gt;     &gt;<br>
&gt;     &gt; I have a question regarding &#39;&lt;lrm_resource&gt;&lt;lrm_rsc_op&gt; &#39;op-status<br>
&gt;     &gt; attribute getting value 4.<br>
&gt;     &gt;<br>
&gt;     &gt; In my case I have a strange behavior, when resources get those &quot;monitor&quot;<br>
&gt;     &gt; operation entries in the CIB with op-status=4, and they do not seem to<br>
&gt;     &gt; be called (exec-time=0).<br>
&gt;     &gt;<br>
&gt;     &gt; What does &#39;op-status&#39; = 4 mean?<br>
&gt;<br>
&gt;     The action had an error status<br>
&gt;<br>
&gt;     &gt;<br>
&gt;     &gt; I would appreciate some elaboration regarding this, since this is<br>
&gt;     &gt; interpreted by pacemaker as an error, which causes logs:<br>
&gt;     &gt; crm_mon:    error: unpack_rsc_op:    Preventing dbx_head_head from<br>
&gt;     &gt; re-starting anywhere: operation monitor failed &#39;not configured&#39; (6)<br>
&gt;<br>
&gt;     The rc-code=&quot;6&quot; is the more interesting number; it&#39;s the result returned<br>
&gt;     by the resource agent. As you can see above, it means &quot;not configured&quot;.<br>
&gt;     What that means exactly is up to the resource agent&#39;s interpretation.<br>
&gt;<br>
&gt;     &gt; and I am pretty sure the resource agent was not called (no logs,<br>
&gt;     &gt; exec-time=0)<br>
&gt;<br>
&gt;     Normally this could only come from the resource agent.<br>
&gt;<br>
&gt;     However there are two cases where pacemaker generates this error itself:<br>
&gt;     if the resource definition in the CIB is invalid; and if your version of<br>
&gt;     pacemaker was compiled with support for reading sensitive parameter<br>
&gt;     values from a file, but that file could not be read.<br>
&gt;<br>
&gt;     It doesn&#39;t sound like your case is either one of those though, since<br>
&gt;     they would prevent the resource from even starting. Most likely it&#39;s<br>
&gt;     coming from the resource agent. I&#39;d look at the resource agent source<br>
&gt;     code and see where it can return OCF_ERR_CONFIGURED.<br>
&gt;<br>
&gt;     &gt; There are two aspects of this:<br>
&gt;     &gt;<br>
&gt;     &gt; 1) harmless (pacemaker seems to not bother about it), which I guess<br>
&gt;     &gt; indicates cancelled monitoring operations:<br>
&gt;     &gt; op-status=4, rc-code=189<br>
&gt;<br>
&gt;     This error means the connection between the crmd and lrmd daemons was<br>
&gt;     lost -- most commonly, that shows up for operations that were pending at<br>
&gt;     shutdown.<br>
&gt;<br>
&gt;     &gt;<br>
&gt;     &gt; * Example:<br>
&gt;     &gt; &lt;lrm_rsc_op id=&quot;dbx_first_datas_last_<wbr>failure_0&quot;<br>
&gt;     &gt; operation_key=&quot;dbx_first_<wbr>datas_monitor_0&quot; operation=&quot;monitor&quot;<br>
&gt;     &gt; crm-debug-origin=&quot;do_update_<wbr>resource&quot; crm_feature_set=&quot;3.0.12&quot;<br>
&gt;     &gt; transition-key=&quot;38:0:7:<wbr>c8b63d9d-9c70-4f99-aa1b-<wbr>e993de6e4739&quot;<br>
&gt;     &gt; transition-magic=&quot;4:189;38:0:<wbr>7:c8b63d9d-9c70-4f99-aa1b-<wbr>e993de6e4739&quot;<br>
&gt;     &gt; on_node=&quot;olegdbx61-vm000001&quot; call-id=&quot;10&quot; rc-code=&quot;189&quot; op-status=&quot;4&quot;<br>
&gt;     &gt; interval=&quot;0&quot; last-run=&quot;1495057378&quot; last-rc-change=&quot;1495057378&quot;<br>
&gt;     &gt; exec-time=&quot;0&quot; queue-time=&quot;0&quot;<br>
&gt;     op-digest=&quot;<wbr>f6bd1386a336e8e6ee25ecb651a9ef<wbr>b6&quot;/&gt;<br>
&gt;     &gt;<br>
&gt;     &gt;<br>
&gt;     &gt; 2) error level one (op-status=4, rc-code=6), which generates logs:<br>
&gt;     &gt; crm_mon:    error: unpack_rsc_op:    Preventing dbx_head_head from<br>
&gt;     &gt; re-starting anywhere: operation monitor failed &#39;not configured&#39; (6)<br>
&gt;     &gt;<br>
&gt;     &gt; * Example:<br>
&gt;     &gt; &lt;lrm_rsc_op id=&quot;dbx_head_head_last_<wbr>failure_0&quot;<br>
&gt;     &gt; operation_key=&quot;dbx_head_head_<wbr>monitor_0&quot; operation=&quot;monitor&quot;<br>
&gt;     &gt; crm-debug-origin=&quot;do_update_<wbr>resource&quot; crm_feature_set=&quot;3.0.12&quot;<br>
&gt;     &gt; transition-key=&quot;39:0:7:<wbr>c8b63d9d-9c70-4f99-aa1b-<wbr>e993de6e4739&quot;<br>
&gt;     &gt; transition-magic=&quot;4:6;39:0:7:<wbr>c8b63d9d-9c70-4f99-aa1b-<wbr>e993de6e4739&quot;<br>
&gt;     &gt; on_node=&quot;olegdbx61-vm000001&quot; call-id=&quot;999999999&quot; rc-code=&quot;6&quot;<br>
&gt;     &gt; op-status=&quot;4&quot; interval=&quot;0&quot; last-run=&quot;1495057389&quot;<br>
&gt;     &gt; last-rc-change=&quot;1495057389&quot; exec-time=&quot;0&quot; queue-time=&quot;0&quot;<br>
&gt;     &gt; op-digest=&quot;<wbr>60cdc9db1c5b77e8dba698d3d0c8cd<wbr>a8&quot;/&gt;<br>
&gt;     &gt;<br>
&gt;     &gt;<br>
&gt;     &gt; Could it be some hardware (VM hyperviser) issue?<br>
&gt;     &gt;<br>
&gt;     &gt;<br>
&gt;     &gt; Thanks in advance,<br>
&gt;     &gt;<br>
&gt;     &gt; --<br>
&gt;     &gt; Best Regards,<br>
&gt;     &gt;<br>
&gt;     &gt; Radoslaw Garbacz<br>
&gt;     &gt; XtremeData Incorporated<br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div>Best Regards,<br><br>Radoslaw Garbacz<br></div>XtremeData Incorporated<br></div></div></div></div>
</div>