<div dir="ltr"><div><br></div><div><span class="">&gt;&gt; Thread-482175::INFO::2016-06-14<br>&gt;&gt; 12:59:30,429::storage_backends::120::ovirt_hosted_engine_ha.lib.storage_backends::(_check_symlinks)<br>&gt;&gt; Cleaning up stale LV link &#39;/rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt<br>&gt;&gt; 36__engine/c6323975-2966-409d-b9e0-48370a513a98/ha_agent/hosted-engine.metadata&#39;<br><br></span>&gt; This is also not normal, it means the storage disappeared.<br><br><br>&gt; This seems to indicate there is some kind of issue with your network..<br>&gt; are you sure that your firewall allows connections over lo interface<br>&gt; and to the storage server?<br></div><div><br></div><div><br></div>Yes very much so. The network is <a href="http://10.0.16.0/24">10.0.16.0/24</a> - this is the ovirtmgmt + storage network and is 100% isolated and dedicated with no firewall between oVirt nodes and storage. There is no firewall on the local server either. Basically I have:<div><br></div><div>ovirtmgmt - bond0 in mode 2 (default when not using LACP in oVirt it appears) - connects to dedicated storage switches. nodes1-3 are 10.0.16.5, 6, and 7 respectively</div><div>VM NIC - bond1 - trunk port for VLAN tagging in active/passive bond. This is the VM network path. This connects to two different switches</div><div><br></div><div>storage is located at 10.0.16.100 (cluster IP / storage-vip is hostname), 10.0.16.101 (storage node 1), 10.0.16.102 (storage node 2), 10.0.16.103 (nas01, dedicated storage for ovirt engine outside of clustered storage for other VMs)</div><div><br></div><div>Cluster IP of 10.0.16.100 is where VM storage goes</div><div>NAS IP of 10.0.16.103 is where oVirt engine storage is</div><div><br></div><div>All paths to the oVirt engine and other nodes are 100% clear with no failures or firewalls between oVirt nodes and storage</div><div><br></div><div><div>[root@njsevcnp01 ~]# for i in $( seq 100 103 ); do ping -c 1 10.0.16.$i | grep -i &quot;\(rece\|time=\)&quot;; echo &quot;--&quot;; done</div><div>64 bytes from <a href="http://10.0.16.100">10.0.16.100</a>: icmp_seq=1 ttl=64 time=0.071 ms</div><div>1 packets transmitted, 1 received, 0% packet loss, time 0ms</div><div>--</div><div>64 bytes from <a href="http://10.0.16.101">10.0.16.101</a>: icmp_seq=1 ttl=64 time=0.065 ms</div><div>1 packets transmitted, 1 received, 0% packet loss, time 0ms</div><div>--</div><div>64 bytes from <a href="http://10.0.16.102">10.0.16.102</a>: icmp_seq=1 ttl=64 time=0.099 ms</div><div>1 packets transmitted, 1 received, 0% packet loss, time 0ms</div><div>--</div><div>64 bytes from <a href="http://10.0.16.103">10.0.16.103</a>: icmp_seq=1 ttl=64 time=0.219 ms</div><div>1 packets transmitted, 1 received, 0% packet loss, time 0ms</div><div>--</div></div><div><br></div><div>This is dedicated storage for oVirt environment</div><div><br></div><div><div>[root@njsevcnp01 ~]# df -h | grep -i rhev</div><div>nas01:/volume1/vm_os/ovirt36_engine  2.2T  295G  1.9T  14% /rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt36__engine</div><div>storage-vip:/fast_ha-gv0             792G  125G  668G  16% /rhev/data-center/mnt/glusterSD/storage-vip:_fast__ha-gv0</div><div>storage-vip:/slow_nonha-gv0          1.8T  212G  1.6T  12% /rhev/data-center/mnt/glusterSD/storage-vip:_slow__nonha-gv0</div></div><div><br></div><div><br></div><div><span class="">&gt;&gt; &gt; 09:24:59,874::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br><br></span>&gt; and connection timeout between agent and broker.<br></div><div><br></div><div>Everything I am providing right now is from njsevcnp01, why would it timeout between agent and broker on the same box? Because broker is not accepting connection? But the broker logs show it is accepting and doing connection handling</div><div><br></div><div>Acknowledged on the STMP errors. At this time I am just trying to get clustering working again because as of now I cannot live migrate the hosted engine since it appears to be a split brain type of issue</div><div><br></div><div>What do I need to do to resolve this stale-data issue and get the cluster working again / agents and brokers talking to themselves again?</div><div><br></div><div>Should I shut down the platform and delete the lock files then bring it back up again?</div><div><br></div><div>Thanks for your help Martin!</div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jun 15, 2016 at 10:38 AM, Martin Sivak <span dir="ltr">&lt;<a href="mailto:msivak@redhat.com" target="_blank">msivak@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span class="">&gt; &quot;/usr/lib/python2.7/site-packages/ovirt_hosted_engine_ha/broker/notifications.py&quot;,<br>
&gt; line 24, in send_email<br>
&gt;     server = smtplib.SMTP(cfg[&quot;smtp-server&quot;], port=cfg[&quot;smtp-port&quot;])<br>
&gt;   File &quot;/usr/lib64/python2.7/smtplib.py&quot;, line 255, in __init__<br>
&gt;     (code, msg) = self.connect(host, port)<br>
&gt;   File &quot;/usr/lib64/python2.7/smtplib.py&quot;, line 315, in connect<br>
&gt;     self.sock = self._get_socket(host, port, self.timeout)<br>
&gt;   File &quot;/usr/lib64/python2.7/smtplib.py&quot;, line 290, in _get_socket<br>
&gt;     return socket.create_connection((host, port), timeout)<br>
&gt;   File &quot;/usr/lib64/python2.7/socket.py&quot;, line 571, in create_connection<br>
&gt;     raise err<br>
&gt; error: [Errno 110] Connection timed out<br>
<br>
</span>So you have connection timeout here (it is trying to reach the<br>
localhost smtp server)<br>
<span class=""><br>
&gt;&gt; &gt; 09:24:59,874::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
<br>
</span>and connection timeout between agent and broker.<br>
<span class=""><br>
&gt; Thread-482175::INFO::2016-06-14<br>
&gt; 12:59:30,429::storage_backends::120::ovirt_hosted_engine_ha.lib.storage_backends::(_check_symlinks)<br>
&gt; Cleaning up stale LV link &#39;/rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt<br>
&gt; 36__engine/c6323975-2966-409d-b9e0-48370a513a98/ha_agent/hosted-engine.metadata&#39;<br>
<br>
</span>This is also not normal, it means the storage disappeared.<br>
<br>
<br>
This seems to indicate there is some kind of issue with your network..<br>
are you sure that your firewall allows connections over lo interface<br>
and to the storage server?<br>
<span class=""><font color="#888888"><br>
<br>
Martin<br>
</font></span><div class=""><div class="h5"><br>
On Wed, Jun 15, 2016 at 4:11 PM, Charles Kozler &lt;<a href="mailto:charles@fixflyer.com">charles@fixflyer.com</a>&gt; wrote:<br>
&gt; Marin -<br>
&gt;<br>
&gt; Anything I should be looking for specifically? The only errors I see are<br>
&gt; smtp errors when it tries to send a notification but nothing indicating what<br>
&gt; the notification is / might be. I see this repeated about every minute<br>
&gt;<br>
&gt; Thread-482115::INFO::2016-06-14<br>
&gt; 12:58:54,431::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482109::INFO::2016-06-14<br>
&gt; 12:58:54,491::storage_backends::120::ovirt_hosted_engine_ha.lib.storage_backends::(_check_symlinks)<br>
&gt; Cleaning up stale LV link &#39;/rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt<br>
&gt; 36__engine/c6323975-2966-409d-b9e0-48370a513a98/ha_agent/hosted-engine.lockspace&#39;<br>
&gt; Thread-482109::INFO::2016-06-14<br>
&gt; 12:58:54,515::storage_backends::120::ovirt_hosted_engine_ha.lib.storage_backends::(_check_symlinks)<br>
&gt; Cleaning up stale LV link &#39;/rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt<br>
&gt; 36__engine/c6323975-2966-409d-b9e0-48370a513a98/ha_agent/hosted-engine.metadata&#39;<br>
&gt;<br>
&gt; nas01 is the primary storage for the engine (as previously noted)<br>
&gt;<br>
&gt; Thread-482175::INFO::2016-06-14<br>
&gt; 12:59:30,398::storage_backends::120::ovirt_hosted_engine_ha.lib.storage_backends::(_check_symlinks)<br>
&gt; Cleaning up stale LV link &#39;/rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt<br>
&gt; 36__engine/c6323975-2966-409d-b9e0-48370a513a98/ha_agent/hosted-engine.lockspace&#39;<br>
&gt; Thread-482175::INFO::2016-06-14<br>
&gt; 12:59:30,429::storage_backends::120::ovirt_hosted_engine_ha.lib.storage_backends::(_check_symlinks)<br>
&gt; Cleaning up stale LV link &#39;/rhev/data-center/mnt/nas01:_volume1_vm__os_ovirt<br>
&gt; 36__engine/c6323975-2966-409d-b9e0-48370a513a98/ha_agent/hosted-engine.metadata&#39;<br>
&gt;<br>
&gt;<br>
&gt; But otherwise the broker looks like its accepting and handling connections<br>
&gt;<br>
&gt; Thread-481980::INFO::2016-06-14<br>
&gt; 12:59:33,105::mem_free::53::mem_free.MemFree::(action) memFree: 26491<br>
&gt; Thread-482193::INFO::2016-06-14<br>
&gt; 12:59:33,977::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482193::INFO::2016-06-14<br>
&gt; 12:59:34,033::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482194::INFO::2016-06-14<br>
&gt; 12:59:34,034::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482194::INFO::2016-06-14<br>
&gt; 12:59:34,035::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482195::INFO::2016-06-14<br>
&gt; 12:59:34,035::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482195::INFO::2016-06-14<br>
&gt; 12:59:34,036::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482196::INFO::2016-06-14<br>
&gt; 12:59:34,037::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482196::INFO::2016-06-14<br>
&gt; 12:59:34,037::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482197::INFO::2016-06-14<br>
&gt; 12:59:38,544::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482197::INFO::2016-06-14<br>
&gt; 12:59:38,598::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482198::INFO::2016-06-14<br>
&gt; 12:59:38,598::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482198::INFO::2016-06-14<br>
&gt; 12:59:38,599::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482199::INFO::2016-06-14<br>
&gt; 12:59:38,600::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482199::INFO::2016-06-14<br>
&gt; 12:59:38,600::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482200::INFO::2016-06-14<br>
&gt; 12:59:38,601::listener::134::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(setup)<br>
&gt; Connection established<br>
&gt; Thread-482200::INFO::2016-06-14<br>
&gt; 12:59:38,602::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-482179::INFO::2016-06-14<br>
&gt; 12:59:40,339::cpu_load_no_engine::121::cpu_load_no_engine.EngineHealth::(calculate_load)<br>
&gt; System load total=0.0078, engine=0.0000, non-engine=0.0078<br>
&gt;<br>
&gt;<br>
&gt; Thread-482178::INFO::2016-06-14<br>
&gt; 12:59:49,745::mem_free::53::mem_free.MemFree::(action) memFree: 26500<br>
&gt; Thread-481977::ERROR::2016-06-14<br>
&gt; 12:59:50,263::notifications::35::ovirt_hosted_engine_ha.broker.notifications.Notifications::(send_email)<br>
&gt; [Errno 110] Connection timed out<br>
&gt; Traceback (most recent call last):<br>
&gt;   File<br>
&gt; &quot;/usr/lib/python2.7/site-packages/ovirt_hosted_engine_ha/broker/notifications.py&quot;,<br>
&gt; line 24, in send_email<br>
&gt;     server = smtplib.SMTP(cfg[&quot;smtp-server&quot;], port=cfg[&quot;smtp-port&quot;])<br>
&gt;   File &quot;/usr/lib64/python2.7/smtplib.py&quot;, line 255, in __init__<br>
&gt;     (code, msg) = self.connect(host, port)<br>
&gt;   File &quot;/usr/lib64/python2.7/smtplib.py&quot;, line 315, in connect<br>
&gt;     self.sock = self._get_socket(host, port, self.timeout)<br>
&gt;   File &quot;/usr/lib64/python2.7/smtplib.py&quot;, line 290, in _get_socket<br>
&gt;     return socket.create_connection((host, port), timeout)<br>
&gt;   File &quot;/usr/lib64/python2.7/socket.py&quot;, line 571, in create_connection<br>
&gt;     raise err<br>
&gt; error: [Errno 110] Connection timed out<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::listener::186::ovirt_hosted_engine_ha.broker.listener.ConnectionHandler::(handle)<br>
&gt; Connection closed<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::90::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopping submonitor ping, id 140681792007632<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::99::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopped submonitor ping, id 140681792007632<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::90::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopping submonitor mgmt-bridge, id 140681925896272<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::99::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopped submonitor mgmt-bridge, id 140681925896272<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::90::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopping submonitor mem-free, id 140681926005456<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::99::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopped submonitor mem-free, id 140681926005456<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::90::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopping submonitor cpu-load-no-engine, id 140681926012880<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::99::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopped submonitor cpu-load-no-engine, id 140681926012880<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::90::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopping submonitor engine-health, id 140681926011984<br>
&gt; Thread-481977::INFO::2016-06-14<br>
&gt; 12:59:50,264::monitor::99::ovirt_hosted_engine_ha.broker.monitor.Monitor::(stop_submonitor)<br>
&gt; Stopped submonitor engine-health, id 140681926011984<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; On Wed, Jun 15, 2016 at 10:04 AM, Martin Sivak &lt;<a href="mailto:msivak@redhat.com">msivak@redhat.com</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; Charles, check the broker log too please. It is possible that the<br>
&gt;&gt; broker process is running, but is not accepting connections for<br>
&gt;&gt; example.<br>
&gt;&gt;<br>
&gt;&gt; Martin<br>
&gt;&gt;<br>
&gt;&gt; On Wed, Jun 15, 2016 at 3:32 PM, Charles Kozler &lt;<a href="mailto:charles@fixflyer.com">charles@fixflyer.com</a>&gt;<br>
&gt;&gt; wrote:<br>
&gt;&gt; &gt; Actually, broker is the only thing acting &quot;right&quot; between broker and<br>
&gt;&gt; &gt; agent.<br>
&gt;&gt; &gt; Broker is up when I bring the system up but agent is restarting all the<br>
&gt;&gt; &gt; time. Have a look<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; The 11th is when I restarted this node after doing &#39;reinstall&#39; in the<br>
&gt;&gt; &gt; web UI<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; ● ovirt-ha-broker.service - oVirt Hosted Engine High Availability<br>
&gt;&gt; &gt; Communications Broker<br>
&gt;&gt; &gt;    Loaded: loaded (/usr/lib/systemd/system/ovirt-ha-broker.service;<br>
&gt;&gt; &gt; enabled;<br>
&gt;&gt; &gt; vendor preset: disabled)<br>
&gt;&gt; &gt;    Active: active (running) since Sat 2016-06-11 13:09:51 EDT; 3 days<br>
&gt;&gt; &gt; ago<br>
&gt;&gt; &gt;  Main PID: 1285 (ovirt-ha-broker)<br>
&gt;&gt; &gt;    CGroup: /system.slice/ovirt-ha-broker.service<br>
&gt;&gt; &gt;            └─1285 /usr/bin/python<br>
&gt;&gt; &gt; /usr/share/ovirt-hosted-engine-ha/ovirt-ha-broker --no-daemon<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Jun 15 09:23:56 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:mgmt_bridge.MgmtBridge:Found bridge ovirtmgmt with ports<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; established<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; closed<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; established<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; closed<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; established<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; closed<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; established<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:ovirt_hosted_engine_ha.broker.listener.ConnectionHandler:Connection<br>
&gt;&gt; &gt; closed<br>
&gt;&gt; &gt; Jun 15 09:23:58 njsevcnp01 ovirt-ha-broker[1285]:<br>
&gt;&gt; &gt; INFO:mem_free.MemFree:memFree: 26408<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Uptime of proc ..<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; # ps -Aef | grep -i broker<br>
&gt;&gt; &gt; vdsm       1285      1  2 Jun11 ?        02:27:50 /usr/bin/python<br>
&gt;&gt; &gt; /usr/share/ovirt-hosted-engine-ha/ovirt-ha-broker --no-daemon<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; But the agent... is restarting all the time<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; # ps -Aef | grep -i ovirt-ha-agent<br>
&gt;&gt; &gt; vdsm      76116      1  0 09:19 ?        00:00:01 /usr/bin/python<br>
&gt;&gt; &gt; /usr/share/ovirt-hosted-engine-ha/ovirt-ha-agent --no-daemon<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 9:19 AM ET is last restart. Even the logs say it<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; [root@njsevcnp01 ovirt-hosted-engine-ha]# grep -i &#39;restarting agent&#39;<br>
&gt;&gt; &gt; agent.log | wc -l<br>
&gt;&gt; &gt; 232719<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; And the restarts every<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; [root@njsevcnp01 ovirt-hosted-engine-ha]# tail -n 300 agent.log | grep<br>
&gt;&gt; &gt; -i<br>
&gt;&gt; &gt; &#39;restarting agent&#39;<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:23:53,029::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;6&#39;<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:24:28,953::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;7&#39;<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:25:04,879::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;8&#39;<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:25:40,790::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;9&#39;<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:26:17,136::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;0&#39;<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:26:53,063::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;1&#39;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Full log of restart is like this saying &quot;connection timed out&quot; but its<br>
&gt;&gt; &gt; not<br>
&gt;&gt; &gt; saying to *what* is timing out, so I have nothing else to really go on<br>
&gt;&gt; &gt; here<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; [root@njsevcnp01 ovirt-hosted-engine-ha]# tail -n 300 agent.log | grep<br>
&gt;&gt; &gt; -i<br>
&gt;&gt; &gt; restart<br>
&gt;&gt; &gt; MainThread::ERROR::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:24:23,948::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:24:28,953::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;7&#39;<br>
&gt;&gt; &gt; MainThread::ERROR::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:24:59,874::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:25:04,879::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;8&#39;<br>
&gt;&gt; &gt; MainThread::ERROR::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:25:35,785::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:25:40,790::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;9&#39;<br>
&gt;&gt; &gt; MainThread::ERROR::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:26:12,131::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:26:17,136::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;0&#39;<br>
&gt;&gt; &gt; MainThread::ERROR::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:26:48,058::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:26:53,063::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;1&#39;<br>
&gt;&gt; &gt; MainThread::ERROR::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:27:23,969::agent::205::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;:<br>
&gt;&gt; &gt; &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt; MainThread::WARNING::2016-06-15<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; 09:27:28,973::agent::208::ovirt_hosted_engine_ha.agent.agent.Agent::(_run_agent)<br>
&gt;&gt; &gt; Restarting agent, attempt &#39;2&#39;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Storage is also completely fine. No logs stating anything &quot;going away&quot;<br>
&gt;&gt; &gt; or<br>
&gt;&gt; &gt; having issues. Engine has dedicated NFS NAS device meanwhile VM storage<br>
&gt;&gt; &gt; is<br>
&gt;&gt; &gt; completely separate storage cluster. Storage has 100% dedicated backend<br>
&gt;&gt; &gt; network with no changes being done<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; On Wed, Jun 15, 2016 at 7:42 AM, Martin Sivak &lt;<a href="mailto:msivak@redhat.com">msivak@redhat.com</a>&gt; wrote:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt; Jun 14 08:11:11 njsevcnp01 ovirt-ha-agent[15713]: ovirt-ha-agent<br>
&gt;&gt; &gt;&gt; &gt; ovirt_hosted_engine_ha.lib.brokerlink.BrokerLink ERROR Connection<br>
&gt;&gt; &gt;&gt; &gt; closed:<br>
&gt;&gt; &gt;&gt; &gt; Connection timed out<br>
&gt;&gt; &gt;&gt; &gt; Jun 14 08:11:11 <a href="http://njsevcnp01.fixflyer.com" rel="noreferrer" target="_blank">njsevcnp01.fixflyer.com</a> ovirt-ha-agent[15713]:<br>
&gt;&gt; &gt;&gt; &gt; ovirt-ha-agent ovirt_hosted_engine_ha.agent.agent.Agent ERROR Error:<br>
&gt;&gt; &gt;&gt; &gt; &#39;Failed<br>
&gt;&gt; &gt;&gt; &gt; to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;: &#39;njsevcnp01&#39;}:<br>
&gt;&gt; &gt;&gt; &gt; Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Broker is broken or down. Check the status of ovirt-ha-broker service.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt; The other interesting thing is this log from node01. The odd thing is<br>
&gt;&gt; &gt;&gt; &gt; that<br>
&gt;&gt; &gt;&gt; &gt; it seems there is some split brain somewhere in oVirt because this<br>
&gt;&gt; &gt;&gt; &gt; log<br>
&gt;&gt; &gt;&gt; &gt; is<br>
&gt;&gt; &gt;&gt; &gt; from node02 but it is asking the engine and its getting back &quot;vm not<br>
&gt;&gt; &gt;&gt; &gt; running<br>
&gt;&gt; &gt;&gt; &gt; on this host&#39; rather than &#39;stale data&#39;. But I dont know engine<br>
&gt;&gt; &gt;&gt; &gt; internals<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; This is another piece that points to broker or storage issues. Agent<br>
&gt;&gt; &gt;&gt; collects local data and then publishes them to other nodes through<br>
&gt;&gt; &gt;&gt; broker. So it is possible for the agent to know the status of the VM<br>
&gt;&gt; &gt;&gt; locally, but not be able to publish it.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; hosted-engine command line tool then reads the synchronization<br>
&gt;&gt; &gt;&gt; whiteboard too, but it does not see anything that was not published<br>
&gt;&gt; &gt;&gt; and ends up reporting stale data.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; What is the status of the hosted engine services? systemctl status<br>
&gt;&gt; &gt;&gt; &gt;&gt; ovirt-ha-agent ovirt-ha-broker<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Please check the services.<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Best regards<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; Martin<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; On Tue, Jun 14, 2016 at 2:16 PM, Charles Kozler &lt;<a href="mailto:charles@fixflyer.com">charles@fixflyer.com</a>&gt;<br>
&gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt; Martin -<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; One thing I noticed on all of the nodes is this:<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; Jun 14 08:11:11 njsevcnp01 ovirt-ha-agent[15713]: ovirt-ha-agent<br>
&gt;&gt; &gt;&gt; &gt; ovirt_hosted_engine_ha.lib.brokerlink.BrokerLink ERROR Connection<br>
&gt;&gt; &gt;&gt; &gt; closed:<br>
&gt;&gt; &gt;&gt; &gt; Connection timed out<br>
&gt;&gt; &gt;&gt; &gt; Jun 14 08:11:11 <a href="http://njsevcnp01.fixflyer.com" rel="noreferrer" target="_blank">njsevcnp01.fixflyer.com</a> ovirt-ha-agent[15713]:<br>
&gt;&gt; &gt;&gt; &gt; ovirt-ha-agent ovirt_hosted_engine_ha.agent.agent.Agent ERROR Error:<br>
&gt;&gt; &gt;&gt; &gt; &#39;Failed<br>
&gt;&gt; &gt;&gt; &gt; to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;: &#39;njsevcnp01&#39;}:<br>
&gt;&gt; &gt;&gt; &gt; Connection timed out&#39; - trying to restart agent<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; Then the agent is restarted<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; [root@njsevcnp01 ~]# ps -Aef | grep -i ovirt-ha-agent | grep -iv grep<br>
&gt;&gt; &gt;&gt; &gt; vdsm      15713      1  0 08:09 ?        00:00:01 /usr/bin/python<br>
&gt;&gt; &gt;&gt; &gt; /usr/share/ovirt-hosted-engine-ha/ovirt-ha-agent --no-daemon<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; I dont know why the connection would time out because as you can see<br>
&gt;&gt; &gt;&gt; &gt; that<br>
&gt;&gt; &gt;&gt; &gt; log is from node01 and I cant figure out why its timing out on the<br>
&gt;&gt; &gt;&gt; &gt; connection<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; The other interesting thing is this log from node01. The odd thing is<br>
&gt;&gt; &gt;&gt; &gt; that<br>
&gt;&gt; &gt;&gt; &gt; it seems there is some split brain somewhere in oVirt because this<br>
&gt;&gt; &gt;&gt; &gt; log<br>
&gt;&gt; &gt;&gt; &gt; is<br>
&gt;&gt; &gt;&gt; &gt; from node02 but it is asking the engine and its getting back &quot;vm not<br>
&gt;&gt; &gt;&gt; &gt; running<br>
&gt;&gt; &gt;&gt; &gt; on this host&#39; rather than &#39;stale data&#39;. But I dont know engine<br>
&gt;&gt; &gt;&gt; &gt; internals<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; MainThread::INFO::2016-06-14<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; 08:13:05,163::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh)<br>
&gt;&gt; &gt;&gt; &gt; Host njsevcnp02 (id 2): {hostname: njsevcnp02, host-id: 2,<br>
&gt;&gt; &gt;&gt; &gt; engine-status:<br>
&gt;&gt; &gt;&gt; &gt; {reason: vm not running on this host, health: bad, vm: down, detail:<br>
&gt;&gt; &gt;&gt; &gt; unknown}, score: 0, stopped: True, maintenance: False, crc32:<br>
&gt;&gt; &gt;&gt; &gt; 25da07df,<br>
&gt;&gt; &gt;&gt; &gt; host-ts: 3030}<br>
&gt;&gt; &gt;&gt; &gt; MainThread::INFO::2016-06-14<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; 08:13:05,163::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh)<br>
&gt;&gt; &gt;&gt; &gt; Host njsevcnp03 (id 3): {hostname: njsevcnp03, host-id: 3,<br>
&gt;&gt; &gt;&gt; &gt; engine-status:<br>
&gt;&gt; &gt;&gt; &gt; {reason: vm not running on this host, health: bad, vm: down, detail:<br>
&gt;&gt; &gt;&gt; &gt; unknown}, score: 0, stopped: True, maintenance: False, crc32:<br>
&gt;&gt; &gt;&gt; &gt; c67818cb,<br>
&gt;&gt; &gt;&gt; &gt; host-ts: 10877406}<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; And that same log on node02 where the engine is running<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; MainThread::INFO::2016-06-14<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; 08:15:44,451::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh)<br>
&gt;&gt; &gt;&gt; &gt; Host njsevcnp01 (id 1): {hostname: njsevcnp01, host-id: 1,<br>
&gt;&gt; &gt;&gt; &gt; engine-status:<br>
&gt;&gt; &gt;&gt; &gt; {reason: vm not running on this host, health: bad, vm: down, detail:<br>
&gt;&gt; &gt;&gt; &gt; unknown}, score: 0, stopped: True, maintenance: False, crc32:<br>
&gt;&gt; &gt;&gt; &gt; 260dbf06,<br>
&gt;&gt; &gt;&gt; &gt; host-ts: 327}<br>
&gt;&gt; &gt;&gt; &gt; MainThread::INFO::2016-06-14<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; 08:15:44,451::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh)<br>
&gt;&gt; &gt;&gt; &gt; Host njsevcnp03 (id 3): {hostname: njsevcnp03, host-id: 3,<br>
&gt;&gt; &gt;&gt; &gt; engine-status:<br>
&gt;&gt; &gt;&gt; &gt; {reason: vm not running on this host, health: bad, vm: down, detail:<br>
&gt;&gt; &gt;&gt; &gt; unknown}, score: 0, stopped: True, maintenance: False, crc32:<br>
&gt;&gt; &gt;&gt; &gt; c67818cb,<br>
&gt;&gt; &gt;&gt; &gt; host-ts: 10877406}<br>
&gt;&gt; &gt;&gt; &gt; MainThread::INFO::2016-06-14<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; 08:15:44,451::state_machine::174::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh)<br>
&gt;&gt; &gt;&gt; &gt; Local (id 2): {engine-health: {health: good, vm: up, detail: up},<br>
&gt;&gt; &gt;&gt; &gt; bridge:<br>
&gt;&gt; &gt;&gt; &gt; True, mem-free: 20702.0, maintenance: False, cpu-load: None, gateway:<br>
&gt;&gt; &gt;&gt; &gt; True}<br>
&gt;&gt; &gt;&gt; &gt; MainThread::INFO::2016-06-14<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; 08:15:44,452::brokerlink::111::ovirt_hosted_engine_ha.lib.brokerlink.BrokerLink::(notify)<br>
&gt;&gt; &gt;&gt; &gt; Trying: notify time=1465906544.45 type=state_transition<br>
&gt;&gt; &gt;&gt; &gt; detail=StartState-ReinitializeFSM hostname=njsevcnp02<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; On Tue, Jun 14, 2016 at 7:59 AM, Martin Sivak &lt;<a href="mailto:msivak@redhat.com">msivak@redhat.com</a>&gt;<br>
&gt;&gt; &gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Hi,<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; is there anything interesting in the hosted engine log files?<br>
&gt;&gt; &gt;&gt; &gt;&gt; /var/log/ovirt-hosted-engine-ha/agent.log<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; There should be something appearing there every 10 seconds or<br>
&gt;&gt; &gt;&gt; &gt;&gt; faster.<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; What is the status of the hosted engine services? systemctl status<br>
&gt;&gt; &gt;&gt; &gt;&gt; ovirt-ha-agent ovirt-ha-broker<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; Best regards<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; --<br>
&gt;&gt; &gt;&gt; &gt;&gt; Martin Sivak<br>
&gt;&gt; &gt;&gt; &gt;&gt; SLA / oVirt<br>
&gt;&gt; &gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; On Sat, Jun 11, 2016 at 8:53 PM, Charles Kozler<br>
&gt;&gt; &gt;&gt; &gt;&gt; &lt;<a href="mailto:charles@fixflyer.com">charles@fixflyer.com</a>&gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; See linked images please. As you can see all three nodes are<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; reporting<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; stale<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; data. The results of this are:<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; 1. Not all VM&#39;s migrate seamlessly in the cluster. Sometimes I<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; have<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; to<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; shut<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; them down to get them to be able to migrate again<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; 2. Hosted engine refuses to move due to constraints (image). This<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; part<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; doesnt make sense to me  because I can forcefully shut it down and<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; then<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; go<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; directly on a hosted engine node and bring it back up. Also, the<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Web<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; UI<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; shows all nodes under the cluster except then it thinks its not<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; apart<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; of<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; the<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; cluster<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; 3. Time is in sync (image)<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; 4. Storage is 100% fine. Gluster back end reports mirroring and<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; status<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; &#39;started&#39;. No split brain has occurred and ovirt nodes have never<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; lost<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; connectivity to storage<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; 5. I reinstalled all three nodes. For some reason only node 3<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; still<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; shows as<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; having updates available. (image). For clarity, I did not click<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; &quot;upgrade&quot; I<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; simply did &#39;reinstall&#39; from the Web UI. Having looked at the<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; output<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; and<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; yum.log from /var/log it almost looks like it did do an update.<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; All<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; package<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; versions across all three nodes are the same (respective to<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; ovirt/vdsm)<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; (image). For some reason though<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; ovirt-engine-appliance-3.6-20160126.1.el7.centos.noarch exists on<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; node 1<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; but<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; not on node 2 or 3. Could this be relative? I dont recall<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; installing<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; that<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; specifically on node 1 but I may have<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Been slamming my head on this so I am hoping you can provide some<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; assistance<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="http://imgur.com/a/6xkaS" rel="noreferrer" target="_blank">http://imgur.com/a/6xkaS</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Thanks!<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; --<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Charles Kozler<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Vice President, IT Operations<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; FIX Flyer, LLC<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; 225 Broadway | Suite 1600 | New York, NY 10007<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="tel:1-888-349-3593" value="+18883493593">1-888-349-3593</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="http://www.fixflyer.com" rel="noreferrer" target="_blank">http://www.fixflyer.com</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; RECIPIENT(S)<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; IS<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING,<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; DISTRIBUTION,<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; INFORMATION<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; IS<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT,<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; PLEASE<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; FROM<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; YOUR<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; SYSTEM AND DESTROY ANY COPIES.<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; _______________________________________________<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; Users mailing list<br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="mailto:Users@ovirt.org">Users@ovirt.org</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt; <a href="http://lists.ovirt.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.ovirt.org/mailman/listinfo/users</a><br>
&gt;&gt; &gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; --<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; Charles Kozler<br>
&gt;&gt; &gt;&gt; &gt; Vice President, IT Operations<br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; FIX Flyer, LLC<br>
&gt;&gt; &gt;&gt; &gt; 225 Broadway | Suite 1600 | New York, NY 10007<br>
&gt;&gt; &gt;&gt; &gt; <a href="tel:1-888-349-3593" value="+18883493593">1-888-349-3593</a><br>
&gt;&gt; &gt;&gt; &gt; <a href="http://www.fixflyer.com" rel="noreferrer" target="_blank">http://www.fixflyer.com</a><br>
&gt;&gt; &gt;&gt; &gt;<br>
&gt;&gt; &gt;&gt; &gt; NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED<br>
&gt;&gt; &gt;&gt; &gt; RECIPIENT(S)<br>
&gt;&gt; &gt;&gt; &gt; OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH IS<br>
&gt;&gt; &gt;&gt; &gt; PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING,<br>
&gt;&gt; &gt;&gt; &gt; DISTRIBUTION,<br>
&gt;&gt; &gt;&gt; &gt; OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS<br>
&gt;&gt; &gt;&gt; &gt; INFORMATION<br>
&gt;&gt; &gt;&gt; &gt; IS<br>
&gt;&gt; &gt;&gt; &gt; RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT,<br>
&gt;&gt; &gt;&gt; &gt; PLEASE<br>
&gt;&gt; &gt;&gt; &gt; CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL FROM<br>
&gt;&gt; &gt;&gt; &gt; YOUR<br>
&gt;&gt; &gt;&gt; &gt; SYSTEM AND DESTROY ANY COPIES.<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; --<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; Charles Kozler<br>
&gt;&gt; &gt; Vice President, IT Operations<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; FIX Flyer, LLC<br>
&gt;&gt; &gt; 225 Broadway | Suite 1600 | New York, NY 10007<br>
&gt;&gt; &gt; <a href="tel:1-888-349-3593" value="+18883493593">1-888-349-3593</a><br>
&gt;&gt; &gt; <a href="http://www.fixflyer.com" rel="noreferrer" target="_blank">http://www.fixflyer.com</a><br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED<br>
&gt;&gt; &gt; RECIPIENT(S)<br>
&gt;&gt; &gt; OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH IS<br>
&gt;&gt; &gt; PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING,<br>
&gt;&gt; &gt; DISTRIBUTION,<br>
&gt;&gt; &gt; OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS INFORMATION<br>
&gt;&gt; &gt; IS<br>
&gt;&gt; &gt; RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT,<br>
&gt;&gt; &gt; PLEASE<br>
&gt;&gt; &gt; CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL FROM<br>
&gt;&gt; &gt; YOUR<br>
&gt;&gt; &gt; SYSTEM AND DESTROY ANY COPIES.<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt;<br>
&gt; Charles Kozler<br>
&gt; Vice President, IT Operations<br>
&gt;<br>
&gt; FIX Flyer, LLC<br>
&gt; 225 Broadway | Suite 1600 | New York, NY 10007<br>
&gt; <a href="tel:1-888-349-3593" value="+18883493593">1-888-349-3593</a><br>
&gt; <a href="http://www.fixflyer.com" rel="noreferrer" target="_blank">http://www.fixflyer.com</a><br>
&gt;<br>
&gt; NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED RECIPIENT(S)<br>
&gt; OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH IS<br>
&gt; PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING, DISTRIBUTION,<br>
&gt; OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS INFORMATION IS<br>
&gt; RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT, PLEASE<br>
&gt; CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL FROM YOUR<br>
&gt; SYSTEM AND DESTROY ANY COPIES.<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><br style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;;font-size:medium"><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><strong><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">Charles Kozler</font></span></strong></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><em><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">Vice President, IT Operations</font></span></em></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;;font-size:medium"> </div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">FIX Flyer, LLC</font></span></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">225 Broadway | Suite 1600 | New York, NY 10007</font></span></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">1-888-349-3593</font></span></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><a href="http://fixflyer.com" target="_blank"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">http://www.fixflyer.com</font></span></a></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><font size="2"> </font></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><font size="1">NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED RECIPIENT(S) OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH IS PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING, DISTRIBUTION, OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS INFORMATION IS RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT, PLEASE CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL FROM YOUR SYSTEM AND DESTROY ANY COPIES.</font></div></div></div></div></div></div></div></div>
</div></div>