<div dir="ltr">The failure happened again on &quot;ovirt-srv04&quot;. <div>The suite wasn&#39;t run from &quot;/dev/shm&quot; since it was full of stale lago environments of &quot;hc-basic-suite-4.1&quot; and &quot;he-basic-iscsi-suite-4.2&quot;.</div><div>The reason for the stale envs is a timeout that was raised by Jenkins (the suites were stuck for 6 hours), so OST&#39;s cleanup has not been called.</div><div>I&#39;m going to add an internal timeout to OST.<br><div><br></div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 20, 2018 at 11:03 AM, Yedidyah Bar David <span dir="ltr">&lt;<a href="mailto:didi@redhat.com" target="_blank">didi@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="HOEnZb"><div class="h5">On Tue, Mar 20, 2018 at 10:57 AM, Barak Korren &lt;<a href="mailto:bkorren@redhat.com">bkorren@redhat.com</a>&gt; wrote:<br>
&gt; On 20 March 2018 at 10:53, Yedidyah Bar David &lt;<a href="mailto:didi@redhat.com">didi@redhat.com</a>&gt; wrote:<br>
&gt;&gt; On Tue, Mar 20, 2018 at 10:11 AM, Barak Korren &lt;<a href="mailto:bkorren@redhat.com">bkorren@redhat.com</a>&gt; wrote:<br>
&gt;&gt;&gt; On 20 March 2018 at 09:17, Yedidyah Bar David &lt;<a href="mailto:didi@redhat.com">didi@redhat.com</a>&gt; wrote:<br>
&gt;&gt;&gt;&gt; On Mon, Mar 19, 2018 at 6:56 PM, Dominik Holler &lt;<a href="mailto:dholler@redhat.com">dholler@redhat.com</a>&gt; wrote:<br>
&gt;&gt;&gt;&gt;&gt; Thanks Gal, I expect the problem is fixed until something eats<br>
&gt;&gt;&gt;&gt;&gt; all space in /dev/shm.<br>
&gt;&gt;&gt;&gt;&gt; But the usage of /dev/shm is logged in the output, so we would be able<br>
&gt;&gt;&gt;&gt;&gt; to detect the problem next time instantly.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; From my point of view it would be good to know why /dev/shm was full,<br>
&gt;&gt;&gt;&gt;&gt; to prevent this situation in future.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Gal already wrote below - it was because some build failed to clean up<br>
&gt;&gt;&gt;&gt; after itself.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; I don&#39;t know about this specific case, but I was told that I am<br>
&gt;&gt;&gt;&gt; personally causing such issues by using the &#39;cancel&#39; button, so I<br>
&gt;&gt;&gt;&gt; sadly stopped. Sadly, because our CI system is quite loaded and when I<br>
&gt;&gt;&gt;&gt; know that some build is useless, I wish to kill it and save some<br>
&gt;&gt;&gt;&gt; load...<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Back to your point, perhaps we should make jobs check /dev/shm when<br>
&gt;&gt;&gt;&gt; they _start_, and either alert/fail/whatever if it&#39;s not almost free,<br>
&gt;&gt;&gt;&gt; or, if we know what we are doing, just remove stuff there? That might<br>
&gt;&gt;&gt;&gt; be much easier than fixing things to clean up in end, and/or debugging<br>
&gt;&gt;&gt;&gt; why this cleaning failed.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Sure thing, patches to:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;     [jenkins repo]/jobs/confs/shell-<wbr>scripts/cleanup_slave.sh<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; Are welcome, we often find interesting stuff to add there...<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; If constrained for time, please turn this comment into an orderly RFE in Jira...<br>
&gt;&gt;<br>
&gt;&gt; Searched for &#39;/dev/shm&#39; and found way too many places to analyze them<br>
&gt;&gt; all and add something to cleanup_slave to cover all.<br>
&gt;<br>
&gt; Where did you search?<br>
<br>
</div></div>ovirt-system-tests, lago, lago-ost-plugin.<br>
ovirt-system-tests has 83 occurrences. I realize almost all are in<br>
lago guests, but looking still takes time...<br>
<br>
In theory I can patch cleanup_slave.sh as you suggested, removing<br>
_everything_ there.<br>
Not sure this is safe.<br>
<span class="im HOEnZb"><br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt; Pushed this for now:<br>
&gt;&gt;<br>
&gt;&gt; <a href="https://gerrit.ovirt.org/89215" rel="noreferrer" target="_blank">https://gerrit.ovirt.org/89215</a><br>
&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; --<br>
&gt;&gt;&gt; Barak Korren<br>
&gt;&gt;&gt; RHV DevOps team , RHCE, RHCi<br>
&gt;&gt;&gt; Red Hat EMEA<br>
&gt;&gt;&gt; <a href="http://redhat.com" rel="noreferrer" target="_blank">redhat.com</a> | TRIED. TESTED. TRUSTED. | <a href="http://redhat.com/trusted" rel="noreferrer" target="_blank">redhat.com/trusted</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt; Didi<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; Barak Korren<br>
&gt; RHV DevOps team , RHCE, RHCi<br>
&gt; Red Hat EMEA<br>
&gt; <a href="http://redhat.com" rel="noreferrer" target="_blank">redhat.com</a> | TRIED. TESTED. TRUSTED. | <a href="http://redhat.com/trusted" rel="noreferrer" target="_blank">redhat.com/trusted</a><br>
<br>
<br>
<br>
</span><span class="HOEnZb"><font color="#888888">--<br>
Didi<br>
</font></span><div class="HOEnZb"><div class="h5">______________________________<wbr>_________________<br>
Infra mailing list<br>
<a href="mailto:Infra@ovirt.org">Infra@ovirt.org</a><br>
<a href="http://lists.ovirt.org/mailman/listinfo/infra" rel="noreferrer" target="_blank">http://lists.ovirt.org/<wbr>mailman/listinfo/infra</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><font face="overpass, sans-serif" color="#000000" size="2"><span style="text-transform:uppercase"><b>GAL bEN HAIM</b></span></font><div><span style="color:rgb(0,0,0);font-family:overpass,sans-serif;text-transform:uppercase"><font size="2">RHV DEVOPS</font></span><br></div></div></div>
</div>