<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Apr 24, 2018 at 10:46 AM, Ravi Shankar Nori <span dir="ltr">&lt;<a href="mailto:rnori@redhat.com" target="_blank">rnori@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">On Tue, Apr 24, 2018 at 10:29 AM, Dan Kenigsberg <span dir="ltr">&lt;<a href="mailto:danken@redhat.com" target="_blank">danken@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span>On Tue, Apr 24, 2018 at 5:09 PM, Ravi Shankar Nori &lt;<a href="mailto:rnori@redhat.com" target="_blank">rnori@redhat.com</a>&gt; wrote:<br>
&gt;<br>
&gt;<br>
&gt; On Tue, Apr 24, 2018 at 9:47 AM, Dan Kenigsberg &lt;<a href="mailto:danken@redhat.com" target="_blank">danken@redhat.com</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; On Tue, Apr 24, 2018 at 4:36 PM, Ravi Shankar Nori &lt;<a href="mailto:rnori@redhat.com" target="_blank">rnori@redhat.com</a>&gt;<br>
&gt;&gt; wrote:<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; On Tue, Apr 24, 2018 at 9:24 AM, Martin Perina &lt;<a href="mailto:mperina@redhat.com" target="_blank">mperina@redhat.com</a>&gt;<br>
&gt;&gt; &gt; wrote:<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; On Tue, Apr 24, 2018 at 3:17 PM, Ravi Shankar Nori &lt;<a href="mailto:rnori@redhat.com" target="_blank">rnori@redhat.com</a>&gt;<br>
&gt;&gt; &gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; On Tue, Apr 24, 2018 at 7:00 AM, Dan Kenigsberg &lt;<a href="mailto:danken@redhat.com" target="_blank">danken@redhat.com</a>&gt;<br>
&gt;&gt; &gt;&gt;&gt; wrote:<br>
&gt;&gt; &gt;&gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;&gt; Ravi&#39;s patch is in, but a similar problem remains, and the test<br>
&gt;&gt; &gt;&gt;&gt;&gt; cannot<br>
&gt;&gt; &gt;&gt;&gt;&gt; be put back into its place.<br>
&gt;&gt; &gt;&gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;&gt; It seems that while Vdsm was taken down, a couple of getCapsAsync<br>
&gt;&gt; &gt;&gt;&gt;&gt; requests queued up. At one point, the host resumed its connection,<br>
&gt;&gt; &gt;&gt;&gt;&gt; before the requests have been cleared of the queue. After the host is<br>
&gt;&gt; &gt;&gt;&gt;&gt; up, the following tests resume, and at a pseudorandom point in time,<br>
&gt;&gt; &gt;&gt;&gt;&gt; an old getCapsAsync request times out and kills our connection.<br>
&gt;&gt; &gt;&gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;&gt; I believe that as long as ANY request is on flight, the monitoring<br>
&gt;&gt; &gt;&gt;&gt;&gt; lock should not be released, and the host should not be declared as<br>
&gt;&gt; &gt;&gt;&gt;&gt; up.<br>
&gt;&gt;<br>
&gt;&gt; Would you relate to this analysis ^^^ ?<br>
&gt;&gt;<br>
&gt;<br>
&gt; The HostMonitoring lock issue has been fixed by<br>
&gt; <a href="https://gerrit.ovirt.org/#/c/90189/" rel="noreferrer" target="_blank">https://gerrit.ovirt.org/#/c/9<wbr>0189/</a><br>
<br>
</span>Is there still a chance that a host moves to Up while former<br>
getCapsAsync request are still in-flight?<br>
<div class="m_3961909441223816395HOEnZb"><div class="m_3961909441223816395h5"><br></div></div></blockquote><div><br></div></div></div><div>Should not happen. Is there a way to execute/reproduce the failing test on Dev env?<br></div><span class=""><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="m_3961909441223816395HOEnZb"><div class="m_3961909441223816395h5">
&gt;<br>
&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; Hi Dan,<br>
&gt;&gt; &gt;&gt;&gt;<br>
&gt;&gt; &gt;&gt;&gt; Can I have the link to the job on jenkins so I can look at the logs<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;&gt; <a href="http://jenkins.ovirt.org/job/ovirt-system-tests_standard-check-patch/346/" rel="noreferrer" target="_blank">http://jenkins.ovirt.org/job/o<wbr>virt-system-tests_standard-che<wbr>ck-patch/346/</a><br>
&gt;&gt; &gt;&gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; From the logs the only VDS lock that is being released twice is<br>
&gt;&gt; &gt; VDS_FENCE<br>
&gt;&gt; &gt; lock. Opened a BZ [1] for it. Will post a fix<br>
&gt;&gt; &gt;<br>
&gt;&gt; &gt; [1] <a href="https://bugzilla.redhat.com/show_bug.cgi?id=1571300" rel="noreferrer" target="_blank">https://bugzilla.redhat.com/sh<wbr>ow_bug.cgi?id=1571300</a><br>
&gt;&gt;<br>
&gt;&gt; Can this possibly cause a surprise termination of host connection?<br>
&gt;<br>
&gt;<br>
&gt; Not sure, from the logs VDS_FENCE is the only other VDS lock that is being<br>
&gt; released<br>
</div></div></blockquote></span></div><br></div></div>
</blockquote></div><br></div><div class="gmail_extra">Would be helpful if I can get the exact flow that is failing and also the steps if any needed to reproduce the issue<br></div></div>