<div dir="ltr">Martin -<div><br></div><div>One thing I noticed on all of the nodes is this:</div><div><br></div><div><div>Jun 14 08:11:11 njsevcnp01 ovirt-ha-agent[15713]: ovirt-ha-agent ovirt_hosted_engine_ha.lib.brokerlink.BrokerLink ERROR Connection closed: Connection timed out</div><div>Jun 14 08:11:11 <a href="http://njsevcnp01.fixflyer.com">njsevcnp01.fixflyer.com</a> ovirt-ha-agent[15713]: ovirt-ha-agent ovirt_hosted_engine_ha.agent.agent.Agent ERROR Error: &#39;Failed to start monitor &lt;type &#39;type&#39;&gt;, options {&#39;hostname&#39;: &#39;njsevcnp01&#39;}: Connection timed out&#39; - trying to restart agent</div></div><div><br></div><div>Then the agent is restarted</div><div><br></div><div><div>[root@njsevcnp01 ~]# ps -Aef | grep -i ovirt-ha-agent | grep -iv grep</div><div>vdsm      15713      1  0 08:09 ?        00:00:01 /usr/bin/python /usr/share/ovirt-hosted-engine-ha/ovirt-ha-agent --no-daemon</div></div><div><br></div><div>I dont know why the connection would time out because as you can see that log is from node01 and I cant figure out why its timing out on the connection</div><div><br></div><div>The other interesting thing is this log from node01. The odd thing is that it seems there is some split brain somewhere in oVirt because this log is from node02 but it is asking the engine and its getting back &quot;vm not running on this host&#39; rather than &#39;stale data&#39;. But I dont know engine internals</div><div><br></div><div><div>MainThread::INFO::2016-06-14 08:13:05,163::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh) Host njsevcnp02 (id 2): {hostname: njsevcnp02, host-id: 2, engine-status: {reason: vm not running on this host, health: bad, vm: down, detail: unknown}, score: 0, stopped: True, maintenance: False, crc32: 25da07df, host-ts: 3030}</div><div>MainThread::INFO::2016-06-14 08:13:05,163::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh) Host njsevcnp03 (id 3): {hostname: njsevcnp03, host-id: 3, engine-status: {reason: vm not running on this host, health: bad, vm: down, detail: unknown}, score: 0, stopped: True, maintenance: False, crc32: c67818cb, host-ts: 10877406}</div><div><br></div></div><div><br></div><div>And that same log on node02 where the engine is running</div><div><br></div><div><br></div><div><div>MainThread::INFO::2016-06-14 08:15:44,451::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh) Host njsevcnp01 (id 1): {hostname: njsevcnp01, host-id: 1, engine-status: {reason: vm not running on this host, health: bad, vm: down, detail: unknown}, score: 0, stopped: True, maintenance: False, crc32: 260dbf06, host-ts: 327}</div><div>MainThread::INFO::2016-06-14 08:15:44,451::state_machine::171::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh) Host njsevcnp03 (id 3): {hostname: njsevcnp03, host-id: 3, engine-status: {reason: vm not running on this host, health: bad, vm: down, detail: unknown}, score: 0, stopped: True, maintenance: False, crc32: c67818cb, host-ts: 10877406}</div><div>MainThread::INFO::2016-06-14 08:15:44,451::state_machine::174::ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine::(refresh) Local (id 2): {engine-health: {health: good, vm: up, detail: up}, bridge: True, mem-free: 20702.0, maintenance: False, cpu-load: None, gateway: True}</div><div>MainThread::INFO::2016-06-14 08:15:44,452::brokerlink::111::ovirt_hosted_engine_ha.lib.brokerlink.BrokerLink::(notify) Trying: notify time=1465906544.45 type=state_transition detail=StartState-ReinitializeFSM hostname=njsevcnp02</div></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jun 14, 2016 at 7:59 AM, Martin Sivak <span dir="ltr">&lt;<a href="mailto:msivak@redhat.com" target="_blank">msivak@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
is there anything interesting in the hosted engine log files?<br>
/var/log/ovirt-hosted-engine-ha/agent.log<br>
<br>
There should be something appearing there every 10 seconds or faster.<br>
<br>
What is the status of the hosted engine services? systemctl status<br>
ovirt-ha-agent ovirt-ha-broker<br>
<br>
<br>
Best regards<br>
<br>
--<br>
Martin Sivak<br>
SLA / oVirt<br>
<div><div class="h5"><br>
On Sat, Jun 11, 2016 at 8:53 PM, Charles Kozler &lt;<a href="mailto:charles@fixflyer.com">charles@fixflyer.com</a>&gt; wrote:<br>
&gt; See linked images please. As you can see all three nodes are reporting stale<br>
&gt; data. The results of this are:<br>
&gt;<br>
&gt; 1. Not all VM&#39;s migrate seamlessly in the cluster. Sometimes I have to shut<br>
&gt; them down to get them to be able to migrate again<br>
&gt;<br>
&gt; 2. Hosted engine refuses to move due to constraints (image). This part<br>
&gt; doesnt make sense to me  because I can forcefully shut it down and then go<br>
&gt; directly on a hosted engine node and bring it back up. Also, the Web UI<br>
&gt; shows all nodes under the cluster except then it thinks its not apart of the<br>
&gt; cluster<br>
&gt;<br>
&gt; 3. Time is in sync (image)<br>
&gt;<br>
&gt; 4. Storage is 100% fine. Gluster back end reports mirroring and status<br>
&gt; &#39;started&#39;. No split brain has occurred and ovirt nodes have never lost<br>
&gt; connectivity to storage<br>
&gt;<br>
&gt; 5. I reinstalled all three nodes. For some reason only node 3 still shows as<br>
&gt; having updates available. (image). For clarity, I did not click &quot;upgrade&quot; I<br>
&gt; simply did &#39;reinstall&#39; from the Web UI. Having looked at the output and<br>
&gt; yum.log from /var/log it almost looks like it did do an update. All package<br>
&gt; versions across all three nodes are the same (respective to ovirt/vdsm)<br>
&gt; (image). For some reason though<br>
&gt; ovirt-engine-appliance-3.6-20160126.1.el7.centos.noarch exists on node 1 but<br>
&gt; not on node 2 or 3. Could this be relative? I dont recall installing that<br>
&gt; specifically on node 1 but I may have<br>
&gt;<br>
&gt; Been slamming my head on this so I am hoping you can provide some assistance<br>
&gt;<br>
&gt; <a href="http://imgur.com/a/6xkaS" rel="noreferrer" target="_blank">http://imgur.com/a/6xkaS</a><br>
&gt;<br>
&gt; Thanks!<br>
&gt;<br>
&gt; --<br>
&gt;<br>
&gt; Charles Kozler<br>
&gt; Vice President, IT Operations<br>
&gt;<br>
&gt; FIX Flyer, LLC<br>
&gt; 225 Broadway | Suite 1600 | New York, NY 10007<br>
&gt; <a href="tel:1-888-349-3593" value="+18883493593">1-888-349-3593</a><br>
&gt; <a href="http://www.fixflyer.com" rel="noreferrer" target="_blank">http://www.fixflyer.com</a><br>
&gt;<br>
&gt; NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED RECIPIENT(S)<br>
&gt; OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH IS<br>
&gt; PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING, DISTRIBUTION,<br>
&gt; OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS INFORMATION IS<br>
&gt; RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT, PLEASE<br>
&gt; CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL FROM YOUR<br>
&gt; SYSTEM AND DESTROY ANY COPIES.<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; Users mailing list<br>
&gt; <a href="mailto:Users@ovirt.org">Users@ovirt.org</a><br>
&gt; <a href="http://lists.ovirt.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.ovirt.org/mailman/listinfo/users</a><br>
&gt;<br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div><div dir="ltr"><div><br style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;;font-size:medium"><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><strong><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">Charles Kozler</font></span></strong></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><em><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">Vice President, IT Operations</font></span></em></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;;font-size:medium"> </div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">FIX Flyer, LLC</font></span></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">225 Broadway | Suite 1600 | New York, NY 10007</font></span></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">1-888-349-3593</font></span></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><a href="http://fixflyer.com" target="_blank"><span style="font-family:&#39;times new roman&#39;,times,serif"><font size="2">http://www.fixflyer.com</font></span></a></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><font size="2"> </font></div><div style="color:rgb(0,0,0);font-family:&#39;Times New Roman&#39;"><font size="1">NOTICE TO RECIPIENT: THIS E-MAIL IS MEANT ONLY FOR THE INTENDED RECIPIENT(S) OF THE TRANSMISSION, AND CONTAINS CONFIDENTIAL INFORMATION WHICH IS PROPRIETARY TO FIX FLYER LLC.  ANY UNAUTHORIZED USE, COPYING, DISTRIBUTION, OR DISSEMINATION IS STRICTLY PROHIBITED.  ALL RIGHTS TO THIS INFORMATION IS RESERVED BY FIX FLYER LLC.  IF YOU ARE NOT THE INTENDED RECIPIENT, PLEASE CONTACT THE SENDER BY REPLY E-MAIL AND PLEASE DELETE THIS E-MAIL FROM YOUR SYSTEM AND DESTROY ANY COPIES.</font></div></div></div></div></div></div></div></div>
</div>