<p dir="ltr">Hi,</p>
<p dir="ltr">On Apr 9, 2014 5:43 PM, &quot;Martin Sivak&quot; &lt;<a href="mailto:msivak@redhat.com">msivak@redhat.com</a>&gt; wrote:<br>
&gt;<br>
&gt; Hi,<br>
&gt;<br>
&gt; &gt; I noticed this happens too, I think the issue is after N attempts the<br>
&gt; &gt; ovirt-ha-agent process will kill itself if it believes it can&#39;t access<br>
&gt; &gt; the storage or it fails in some other way.<br>
&gt;<br>
&gt; If the agent can&#39;t access storage or VDSM it waits for 60 seconds and tries again. After three (iirc) failed attempts it shuts down.</p>
<p dir="ltr">Is there any reason it shuts down? Could it not be possible to just have it sleep for x minutes? Have that sleep time exponentially scale after each fail.<br>
&gt;<br>
&gt; &gt; The ovirt-ha-broker service<br>
&gt; &gt; however still remains and continues to calculate the score.<br>
&gt;<br>
&gt; The broker acts only as a data link, the score is computed by the agent. The broker is used to propagate it to storage (and to collect data).</p>
<p dir="ltr">Thanks for clarifying, I remember seeing some reference to score in the broker log. Assumed incorrectly.<br>
&gt;<br>
&gt; &gt; It&#39;ll be<br>
&gt; &gt; nice I guess if it could pro-actively restart the ha-agent every now<br>
&gt; &gt; and then.<br>
&gt;<br>
&gt; We actually have a bug that is related to this: <a href="https://bugzilla.redhat.com/show_bug.cgi?id=1030441">https://bugzilla.redhat.com/show_bug.cgi?id=1030441</a><br>
&gt;<br>
&gt; Greg, are you still working on it?<br>
&gt;<br>
&gt; &gt; &gt; What is the supposed procedure after a shutdown (graceful / ungraceful)<br>
&gt; &gt; &gt; of Hosted-Engine HA nodes? Should the engine recover by itself? Should<br>
&gt; &gt; &gt; the running VM&#39;s be restarted automatically?<br>
&gt;<br>
&gt; If the agent-broker pair recovers and sanlock is not preventing taking the lock (which was not released properly) then the engine VM should be started automatically.<br>
&gt;<br>
&gt; &gt; If all the nodes come up at the same time, in my testing, it took 10<br>
&gt; &gt; minutes for the ha-agents to settle and then finally decide which host<br>
&gt; &gt; to bring up the engine.<br>
&gt;<br>
&gt; We set a 10 minute mandatory down time for a host when a VM start is not successful. That might be because the sanlock still things somebody is running the VM. The /var/log/ovirt-hosted-engine-ha/agent.log would help here.<br>

&gt;<br>
&gt; Regards<br>
&gt; --<br>
&gt; Martin Sivák<br>
&gt; <a href="mailto:msivak@redhat.com">msivak@redhat.com</a><br>
&gt; Red Hat Czech<br>
&gt; RHEV-M SLA / Brno, CZ<br>
&gt;<br>
&gt; ----- Original Message -----<br>
&gt; &gt; On Wed, Apr 9, 2014 at 2:09 AM, Daniel Helgenberger<br>
&gt; &gt; &lt;<a href="mailto:daniel.helgenberger@m-box.de">daniel.helgenberger@m-box.de</a>&gt; wrote:<br>
&gt; &gt; &gt; Hello,<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; I have an oVirt 3.4 hosted engine lab setup witch I am evaluating for<br>
&gt; &gt; &gt; production use.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; I &quot;simulated&quot; an ungraceful shutdown of all HA nodes (powercut) while<br>
&gt; &gt; &gt; the engine was running. After powering up, the system did not recover<br>
&gt; &gt; &gt; itself (it seemed).<br>
&gt; &gt; &gt; I had to restart the ovirt-hosted-ha service (witch was in a locked<br>
&gt; &gt; &gt; state) and then manually run &#39;hosted-engine --vm-start&#39;.<br>
&gt; &gt;<br>
&gt; &gt; I noticed this happens too, I think the issue is after N attempts the<br>
&gt; &gt; ovirt-ha-agent process will kill itself if it believes it can&#39;t access<br>
&gt; &gt; the storage or it fails in some other way. The ovirt-ha-broker service<br>
&gt; &gt; however still remains and continues to calculate the score. It&#39;ll be<br>
&gt; &gt; nice I guess if it could pro-actively restart the ha-agent every now<br>
&gt; &gt; and then.<br>
&gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; What is the supposed procedure after a shutdown (graceful / ungraceful)<br>
&gt; &gt; &gt; of Hosted-Engine HA nodes? Should the engine recover by itself? Should<br>
&gt; &gt; &gt; the running VM&#39;s be restarted automatically?<br>
&gt; &gt;<br>
&gt; &gt; I don&#39;t think any other VMs get restarted automatically, this is<br>
&gt; &gt; because the engine is used to ensure that the VM hasn&#39;t been restarted<br>
&gt; &gt; on another host. This is where power management etc comes into play.<br>
&gt; &gt;<br>
&gt; &gt; If all the nodes come up at the same time, in my testing, it took 10<br>
&gt; &gt; minutes for the ha-agents to settle and then finally decide which host<br>
&gt; &gt; to bring up the engine. Then technically... (untested) any VMs which<br>
&gt; &gt; you&#39;ve marked as HA should be automatically brought back up by the<br>
&gt; &gt; engine. This would be 15-20 minutes to recover which feels a little<br>
&gt; &gt; slow.. although fairly automatic.<br>
&gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Thanks,<br>
&gt; &gt; &gt; Daniel<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; _______________________________________________<br>
&gt; &gt; &gt; Users mailing list<br>
&gt; &gt; &gt; <a href="mailto:Users@ovirt.org">Users@ovirt.org</a><br>
&gt; &gt; &gt; <a href="http://lists.ovirt.org/mailman/listinfo/users">http://lists.ovirt.org/mailman/listinfo/users</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; _______________________________________________<br>
&gt; &gt; Users mailing list<br>
&gt; &gt; <a href="mailto:Users@ovirt.org">Users@ovirt.org</a><br>
&gt; &gt; <a href="http://lists.ovirt.org/mailman/listinfo/users">http://lists.ovirt.org/mailman/listinfo/users</a><br>
&gt; &gt;<br>
</p>