<div dir="ltr">Cluster running centos 6.8 with pacemaker/corosync.    This config was running well for quite sometime. All of a sudden we see regular restarts of the monitored process where corosync thinks it has failed(even though it really has not failed).  I am showing the relevant logs and config below.  Any pointers appreciated as it is not clear why this would occur.<div><br></div><div>Thanks</div><div>Suresh</div><div><br></div><div><div>Dec 28 13:18:20 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: LogActions:  Leave   mycustomprog       (Started <a href="http://a.b.com">a.b.com</a>)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: process_lrm_event:   Operation mycustomprog_monitor_10000: not running (node=<a href="http://a.b.com">a.b.com</a>, call=29, rc=7, cib-update=1427, confirmed=false)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:   notice: process_lrm_event:   a.b.com-mycustomprog_monitor_10000:29 [ mycustomprogram (pid  15657) is running...\n ]</div><div>Dec 28 13:22:03 [2194] <a href="http://a.b.com">a.b.com</a>        cib:     info: cib_perform_op:      ++ /cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/lrm[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/lrm_resources/lrm_resource[@id=&#39;mycustomprog&#39;]:  &lt;lrm_rsc_op id=&quot;mycustomprog_last_failure_0&quot; operation_key=&quot;mycustomprog_monitor_10000&quot; operation=&quot;monitor&quot; crm-debug-origin=&quot;do_update_resource&quot; crm_feature_set=&quot;3.0.10&quot; transition-key=&quot;7:462:0:a9dbbd47-975b-4aee-8b4a-de56e0a8e7a7&quot; transition-magic=&quot;0</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: abort_transition_graph:      Transition aborted by mycustomprog_monitor_10000 &#39;create&#39; on <a href="http://a.b.com">a.b.com</a>: Old event (magic=0:7;7:462:0:a9dbbd47-975b-4aee-8b4a-de56e0a8e7a7, cib=0.48.2038786, source=process_graph_event:605, 1)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: update_failcount:    Updating failcount for mycustomprog on <a href="http://a.b.com">a.b.com</a> after failed monitor: rc=7 (update=value++, time=1482931323)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: process_graph_event: Detected action (462.7) mycustomprog_monitor_10000.29=not running: failed</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_trigger_update:        Sending flush op to all hosts for: fail-count-mycustomprog (1)</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_perform_update:        Sent update 18: fail-count-mycustomprog=1</div><div>Dec 28 13:22:03 [2194] <a href="http://a.b.com">a.b.com</a>        cib:     info: cib_perform_op:      ++ /cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a>&#39;]:  &lt;nvpair id=&quot;status-a.b.com-fail-count-mycustomprog&quot; name=&quot;fail-count-mycustomprog&quot; value=&quot;1&quot;/&gt;</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_trigger_update:        Sending flush op to all hosts for: last-failure-mycustomprog (1482931323)</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_perform_update:        Sent update 20: last-failure-mycustomprog=1482931323</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_perform_update:        Sent update 20: last-failure-mycustomprog=1482931323</div><div>Dec 28 13:22:03 [2194] <a href="http://a.b.com">a.b.com</a>        cib:     info: cib_perform_op:      ++ /cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a>&#39;]:  &lt;nvpair id=&quot;status-a.b.com-last-failure-mycustomprog&quot; name=&quot;last-failure-mycustomprog&quot; value=&quot;1482931323&quot;/&gt;</div><div>Dec 28 13:22:04 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: abort_transition_graph:      Transition aborted by status-a.b.com-fail-count-mycustomprog, fail-count-mycustomprog=1: Transient attribute change (create cib=0.48.2038787, source=abort_unless_down:329, path=/cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a></div><div>Dec 28 13:22:04 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: abort_transition_graph:      Transition aborted by status-a.b.com-last-failure-mycustomprog, last-failure-mycustomprog=1482931323: Transient attribute change (create cib=0.48.2038788, source=abort_unless_down:329, path=/cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;status-macshii00002-hva.gs.r11.</div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:  warning: unpack_rsc_op_failure:       Processing failed op monitor for mycustomprog on <a href="http://a.b.com">a.b.com</a>: not running (7)</div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: native_print:        mycustomprog       (lsb:mycustomprog):        FAILED <a href="http://a.b.com">a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: get_failcount_full:  mycustomprog has failed 1 times on <a href="http://a.b.com">a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: common_apply_stickiness:     mycustomprog can fail 999999 more times on <a href="http://a.b.com">a.b.com</a> before being forced off</div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: RecurringOp:  Start recurring monitor (10s) for mycustomprog on <a href="http://a.b.com">a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:   notice: LogActions:  Recover mycustomprog       (Started <a href="http://a.b.com">a.b.com</a>)</div><div>Dec 28 13:22:04 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:   notice: te_rsc_command:      Initiating action 5: stop mycustomprog_stop_0 on <a href="http://a.b.com">a.b.com</a> (local) </div><div>Dec 28 13:22:04 [2196] <a href="http://a.b.com">a.b.com</a>       lrmd:     info: cancel_recurring_action:     Cancelling lsb operation mycustomprog_status_10000Dec 28 13:18:20 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: LogActions:  Leave   mycustomprog       (Started <a href="http://a.b.com">a.b.com</a>)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: process_lrm_event:   Operation mycustomprog_monitor_10000: not running (node=<a href="http://a.b.com">a.b.com</a>, call=29, rc=7, cib-update=1427, confirmed=false)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:   notice: process_lrm_event:   a.b.com-mycustomprog_monitor_10000:29 [ mycustomprogram (pid  15657) is running...\n ]</div><div>Dec 28 13:22:03 [2194] <a href="http://a.b.com">a.b.com</a>        cib:     info: cib_perform_op:      ++ /cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/lrm[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/lrm_resources/lrm_resource[@id=&#39;mycustomprog&#39;]:  &lt;lrm_rsc_op id=&quot;mycustomprog_last_failure_0&quot; operation_key=&quot;mycustomprog_monitor_10000&quot; operation=&quot;monitor&quot; crm-debug-origin=&quot;do_update_resource&quot; crm_feature_set=&quot;3.0.10&quot; transition-key=&quot;7:462:0:a9dbbd47-975b-4aee-8b4a-de56e0a8e7a7&quot; transition-magic=&quot;0</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: abort_transition_graph:      Transition aborted by mycustomprog_monitor_10000 &#39;create&#39; on <a href="http://a.b.com">a.b.com</a>: Old event (magic=0:7;7:462:0:a9dbbd47-975b-4aee-8b4a-de56e0a8e7a7, cib=0.48.2038786, source=process_graph_event:605, 1)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: update_failcount:    Updating failcount for mycustomprog on <a href="http://a.b.com">a.b.com</a> after failed monitor: rc=7 (update=value++, time=1482931323)</div><div>Dec 28 13:22:03 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: process_graph_event: Detected action (462.7) mycustomprog_monitor_10000.29=not running: failed</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_trigger_update:        Sending flush op to all hosts for: fail-count-mycustomprog (1)</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_perform_update:        Sent update 18: fail-count-mycustomprog=1</div><div>Dec 28 13:22:03 [2194] <a href="http://a.b.com">a.b.com</a>        cib:     info: cib_perform_op:      ++ /cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a>&#39;]:  &lt;nvpair id=&quot;status-a.b.com-fail-count-mycustomprog&quot; name=&quot;fail-count-mycustomprog&quot; value=&quot;1&quot;/&gt;</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_trigger_update:        Sending flush op to all hosts for: last-failure-mycustomprog (1482931323)</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_perform_update:        Sent update 20: last-failure-mycustomprog=1482931323</div><div>Dec 28 13:22:03 [2197] <a href="http://a.b.com">a.b.com</a>      attrd:   notice: attrd_perform_update:        Sent update 20: last-failure-mycustomprog=1482931323</div><div>Dec 28 13:22:03 [2194] <a href="http://a.b.com">a.b.com</a>        cib:     info: cib_perform_op:      ++ /cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a>&#39;]:  &lt;nvpair id=&quot;status-a.b.com-last-failure-mycustomprog&quot; name=&quot;last-failure-mycustomprog&quot; value=&quot;1482931323&quot;/&gt;</div><div>Dec 28 13:22:04 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: abort_transition_graph:      Transition aborted by status-a.b.com-fail-count-mycustomprog, fail-count-mycustomprog=1: Transient attribute change (create cib=0.48.2038787, source=abort_unless_down:329, path=/cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a></div><div>Dec 28 13:22:04 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:     info: abort_transition_graph:      Transition aborted by status-a.b.com-last-failure-mycustomprog, last-failure-mycustomprog=1482931323: Transient attribute change (create cib=0.48.2038788, source=abort_unless_down:329, path=/cib/status/node_state[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/transient_attributes[@id=&#39;<a href="http://a.b.com">a.b.com</a>&#39;]/instance_attributes[@id=&#39;<a href="http://status-a.b.com">status-a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:  warning: unpack_rsc_op_failure:       Processing failed op monitor for mycustomprog on <a href="http://a.b.com">a.b.com</a>: not running (7)</div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: native_print:        mycustomprog       (lsb:mycustomprog):        FAILED <a href="http://a.b.com">a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: get_failcount_full:  mycustomprog has failed 1 times on <a href="http://a.b.com">a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: common_apply_stickiness:     mycustomprog can fail 999999 more times on <a href="http://a.b.com">a.b.com</a> before being forced off</div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:     info: RecurringOp:  Start recurring monitor (10s) for mycustomprog on <a href="http://a.b.com">a.b.com</a></div><div>Dec 28 13:22:04 [2198] <a href="http://a.b.com">a.b.com</a>    pengine:   notice: LogActions:  Recover mycustomprog       (Started <a href="http://a.b.com">a.b.com</a>)</div><div>Dec 28 13:22:04 [2199] <a href="http://a.b.com">a.b.com</a>       crmd:   notice: te_rsc_command:      Initiating action 5: stop mycustomprog_stop_0 on <a href="http://a.b.com">a.b.com</a> (local) </div><div>Dec 28 13:22:04 [2196] <a href="http://a.b.com">a.b.com</a>       lrmd:     info: cancel_recurring_action:     Cancelling lsb operation mycustomprog_status_10000</div></div><div><br></div><div><br></div><div><br></div><div>pcs config:</div><div><br></div><div><div>source settings.rc</div><div><br></div><div>pcs property set stonith-enabled=false</div><div>pcs property set no-quorum-policy=ignore</div><div>pcs resource create ClusterIP2 IPaddr2 ip=$MYVIP cidr_netmask=$NETMASKVIP1</div><div>pcs resource create ClusterIP3 IPaddr2 ip=$MYVIP2 cidr_netmask=$NETMASKVIP2</div><div>pcs resource create mycustomprog lsb:mycustomprog op monitor interval=&quot;10s&quot;</div><div>pcs constraint colocation add ClusterIP3 with ClusterIP2 INFINITY</div><div>pcs constraint colocation add mycustomprog with ClusterIP2 INFINITY</div><div>pcs property set start-failure-is-fatal=false</div><div>pcs resource defaults resource-stickiness=100</div><div>pcs constraint colocation add chkhealth with ClusterIP2 INFINITY</div></div><div><br></div></div>