<div dir="ltr"><div><div><div><div><div><div><div>Hello Andrei,<br><br></div>yes this fixes the issue. But is there a way to automate this process without a manual intervention?<br><br></div>Node1 fails.<br><br></div>Node2 takes over the vip_bad and ipsrcaddr.<br><br></div>Node1 is back online.<br><br></div>vip_bad and ipsrcaddr are moved back to Node1.<br><br></div>Node2 sets the correct default_gw and it&#39;s own source address again (configured via ip_bad_2 and vip_bad_2_location).<br></div>^- this happens if i execute the cleanup manually<br><div><div><div><div><div><div><div><div><div><div><br># crm resource cleanup default_gw_clone<br>Cleaning up default_gw:0 on fw-managed-01, removing fail-count-default_gw<br>Cleaning up default_gw:0 on fw-managed-02, removing fail-count-default_gw<br>Waiting for 2 replies from the CRMd.. OK<br><br># crm status<br>Last updated: Mon Jan 22 19:43:22 2018          Last change: Mon Jan 22 19:43:17 2018 by hacluster via crmd on fw-managed-01<br>Stack: corosync<br>Current DC: fw-managed-01 (version 1.1.14-70404b0) - partition with quorum<br>2 nodes and 6 resources configured<br><br>Online: [ fw-managed-01 fw-managed-02 ]<br><br>Full list of resources:<br><br> vip_managed    (ocf::heartbeat:IPaddr2):       Started fw-managed-01<br> vip_bad        (ocf::heartbeat:IPaddr2):       Started fw-managed-01<br> Clone Set: default_gw_clone [default_gw]<br>     Started: [ fw-managed-01 fw-managed-02 ]<br> src_address    (ocf::heartbeat:IPsrcaddr):     Started fw-managed-01<br> vip_bad_2      (ocf::heartbeat:IPaddr2):       Started fw-managed-02<br><br>Failed Actions:<br>* src_address_monitor_0 on fw-managed-02 &#39;unknown error&#39; (1): call=18, status=complete, exitreason=&#39;[/usr/lib/heartbeat/findif -C] failed&#39;,<br>    last-rc-change=&#39;Fri Jan 19 17:10:43 2018&#39;, queued=0ms, exec=75ms<br><br>root@fw-managed-02:~# ip r<br>default via 100.200.123.161 dev bad<br><a href="http://100.200.123.160/29">100.200.123.160/29</a> dev bad  proto kernel  scope link  src 100.200.123.165<br><a href="http://172.18.0.0/16">172.18.0.0/16</a> dev tun0  proto kernel  scope link  src 172.18.0.1<br><a href="http://172.30.40.0/24">172.30.40.0/24</a> dev managed  proto kernel  scope link  src 172.30.40.252<br>root@fw-managed-02:~# ping 8.8.8.8<br>PING 8.8.8.8 (8.8.8.8) 56(84) bytes of data.<br>64 bytes from <a href="http://8.8.8.8">8.8.8.8</a>: icmp_seq=1 ttl=60 time=3.57 ms<br>^C<br></div></div></div></div></div></div></div></div></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Jan 22, 2018 at 7:29 PM, Andrei Borzenkov <span dir="ltr">&lt;<a href="mailto:arvidjaar@gmail.com" target="_blank">arvidjaar@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">22.01.2018 20:54, brainheadz пишет:<br>

<div><div class="h5">&gt; Hello,<br>

&gt;<br>

&gt; I&#39;ve got 2 public IP&#39;s and 2 Hosts.<br>

&gt;<br>

&gt; Each IP is assigned to one host. The interfaces are not configured by the<br>

&gt; system, I am using pacemaker to do this.<br>

&gt;<br>

&gt; fw-managed-01: <a href="http://100.200.123.166/29" rel="noreferrer" target="_blank">100.200.123.166/29</a><br>

&gt; fw-managed-02: <a href="http://100.200.123.165/29" rel="noreferrer" target="_blank">100.200.123.165/29</a><br>

&gt;<br>

&gt; gateway: 100.200.123.161<br>

&gt;<br>

&gt; I am trying to get some form of active/passive cluster. fw-managed-01 is<br>

&gt; the active node. If it fails, fw-managed-02 has to take over the VIP and<br>

&gt; change it&#39;s IPsrcaddr. This works so far. But if fw-managed-01 comes back<br>

&gt; online, the default Gateway isn&#39;t set again on the node fw-managed-02.<br>

&gt;<br>

&gt; I&#39;m quite new to this topic. The Cluster would work that way, but the<br>

&gt; passive Node can never reach the internet cause of the missing default<br>

&gt; gateway.<br>

&gt;<br>

&gt; Can anyone explain to what I am missing or doing wrong here?<br>

&gt;<br>

&gt; Output<br>

&gt;<br>

&gt; # crm configure show<br>

&gt; node 1: fw-managed-01<br>

&gt; node 2: fw-managed-02<br>

&gt; primitive default_gw Route \<br>

&gt;         op monitor interval=10s \<br>

&gt;         params destination=default device=bad gateway=100.200.123.161<br>

&gt; primitive src_address IPsrcaddr \<br>

&gt;         op monitor interval=10s \<br>

&gt;         params ipaddress=100.200.123.166<br>

&gt; primitive vip_bad IPaddr2 \<br>

&gt;         op monitor interval=10s \<br>

&gt;         params nic=bad ip=100.200.123.166 cidr_netmask=29<br>

&gt; primitive vip_bad_2 IPaddr2 \<br>

&gt;         op monitor interval=10s \<br>

&gt;         params nic=bad ip=100.200.123.165 cidr_netmask=29<br>

&gt; primitive vip_managed IPaddr2 \<br>

&gt;         op monitor interval=10s \<br>

&gt;         params ip=172.30.40.254 cidr_netmask=24<br>

&gt; clone default_gw_clone default_gw \<br>

&gt;         meta clone-max=2 target-role=Started<br>

&gt; location cli-prefer-default_gw default_gw_clone role=Started inf:<br>

&gt; fw-managed-01<br>

<br>

</div></div>As far as I can tell this restricts clone to one node only. As it starts<br>

with cli- this was done using something like &quot;crm resource move&quot; or<br>

similar. Try<br>

<br>

crm resource clear default_gw_clone<br>

<div><div class="h5"><br>

&gt; location src_address_location src_address inf: fw-managed-01<br>

&gt; location vip_bad_2_location vip_bad_2 inf: fw-managed-02<br>

&gt; location vip_bad_location vip_bad inf: fw-managed-01<br>

&gt; order vip_before_default_gw inf: vip_bad:start src_address:start<br>

&gt; symmetrical=true<br>

&gt; location vip_managed_location vip_managed inf: fw-managed-01<br>

&gt; property cib-bootstrap-options: \<br>

&gt;         have-watchdog=false \<br>

&gt;         dc-version=1.1.14-70404b0 \<br>

&gt;         cluster-infrastructure=<wbr>corosync \<br>

&gt;         cluster-name=debian \<br>

&gt;         stonith-enabled=false \<br>

&gt;         no-quorum-policy=ignore \<br>

&gt;         last-lrm-refresh=1516362207 \<br>

&gt;         start-failure-is-fatal=false<br>

&gt;<br>

&gt; # crm status<br>

&gt; Last updated: Mon Jan 22 18:47:12 2018          Last change: Fri Jan 19<br>

&gt; 17:04:12 2018 by root via cibadmin on fw-managed-01<br>

&gt; Stack: corosync<br>

&gt; Current DC: fw-managed-01 (version 1.1.14-70404b0) - partition with quorum<br>

&gt; 2 nodes and 6 resources configured<br>

&gt;<br>

&gt; Online: [ fw-managed-01 fw-managed-02 ]<br>

&gt;<br>

&gt; Full list of resources:<br>

&gt;<br>

&gt;  vip_managed    (ocf::heartbeat:IPaddr2):       Started fw-managed-01<br>

&gt;  vip_bad        (ocf::heartbeat:IPaddr2):       Started fw-managed-01<br>

&gt;  Clone Set: default_gw_clone [default_gw]<br>

&gt;      default_gw (ocf::heartbeat:Route): FAILED fw-managed-02 (unmanaged)<br>

&gt;      Started: [ fw-managed-01 ]<br>

&gt;  src_address    (ocf::heartbeat:IPsrcaddr):     Started fw-managed-01<br>

&gt;  vip_bad_2      (ocf::heartbeat:IPaddr2):       Started fw-managed-02<br>

&gt;<br>

&gt; Failed Actions:<br>

&gt; * default_gw_stop_0 on fw-managed-02 &#39;not installed&#39; (5): call=26,<br>

&gt; status=complete, exitreason=&#39;Gateway address 100.200.123.161 is<br>

&gt; unreachable.&#39;,<br>

&gt;     last-rc-change=&#39;Fri Jan 19 17:10:43 2018&#39;, queued=0ms, exec=31ms<br>

&gt; * src_address_monitor_0 on fw-managed-02 &#39;unknown error&#39; (1): call=18,<br>

&gt; status=complete, exitreason=&#39;[/usr/lib/<wbr>heartbeat/findif -C] failed&#39;,<br>

&gt;     last-rc-change=&#39;Fri Jan 19 17:10:43 2018&#39;, queued=0ms, exec=75ms<br>

&gt;<br>

&gt;<br>

&gt; best regards,<br>

&gt; Tobias<br>

&gt;<br>

&gt;<br>

&gt;<br>

</div></div>&gt; ______________________________<wbr>_________________<br>

&gt; Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>

&gt; <a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>

&gt;<br>

&gt; Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>

&gt; Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch.pdf</a><br>

&gt; Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>

&gt;<br>

<br>

<br>

______________________________<wbr>_________________<br>

Users mailing list: <a href="mailto:Users@clusterlabs.org">Users@clusterlabs.org</a><br>

<a href="http://lists.clusterlabs.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.clusterlabs.org/<wbr>mailman/listinfo/users</a><br>

<br>

Project Home: <a href="http://www.clusterlabs.org" rel="noreferrer" target="_blank">http://www.clusterlabs.org</a><br>

Getting started: <a href="http://www.clusterlabs.org/doc/Cluster_from_Scratch.pdf" rel="noreferrer" target="_blank">http://www.clusterlabs.org/<wbr>doc/Cluster_from_Scratch.pdf</a><br>

Bugs: <a href="http://bugs.clusterlabs.org" rel="noreferrer" target="_blank">http://bugs.clusterlabs.org</a><br>

</blockquote></div><br></div>