<div dir="ltr"><div>From the sounds of it the best we can do then is to use a 60 second timeout on paths in multipathd.<br></div><div>The main reason we use Direct Lun is because we replicate /snapshot VMs associated Luns at SAN level as a means of disaster recovery.</div><div><br></div><div>I have read a bit of documentation of how to backup virtual machines in storage domains, but the process of mounting snapshots for all our machines within a dedicated VM doesn&#39;t seem as efficient when we have almost 300 virtual machines and only 1Gb networking.</div><div><br></div><div>Thanks for the advice.<br></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><div><div dir="ltr"><i>Gary Lloyd</i><div><span style="color:rgb(136,136,136)">______________________________</span><span style="color:rgb(136,136,136)">__________________</span><br><div><span style="color:rgb(136,136,136)">I.T. Systems:Keele University</span><br style="color:rgb(136,136,136)"><span style="color:rgb(136,136,136)">Finance &amp; IT Directorate</span></div><div><span style="color:rgb(136,136,136)">Keele:Staffs:IC1 Building:ST5 5NB:UK</span><br style="color:rgb(136,136,136)"><a href="tel:%2B44%201782%20733073" value="+441782733073" style="color:rgb(17,85,204)" target="_blank">+44 1782 733063</a><br style="color:rgb(136,136,136)"><span style="color:rgb(136,136,136)">______________________________</span><span style="color:rgb(136,136,136)">__________________</span></div></div></div></div></div></div></div>
<br><div class="gmail_quote">On 6 October 2016 at 11:07, Nir Soffer <span dir="ltr">&lt;<a href="mailto:nsoffer@redhat.com" target="_blank">nsoffer@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Thu, Oct 6, 2016 at 10:19 AM, Gary Lloyd <span dir="ltr">&lt;<a href="mailto:g.lloyd@keele.ac.uk" target="_blank">g.lloyd@keele.ac.uk</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">I asked on the Dell Storage Forum and they recommend the following:<div><br></div><div><p style="font-family:arial,helvetica,sans-serif;font-size:13.3333px"><i>I recommend not using a numeric value for the &quot;no_path_retry&quot; variable within /etc/multipath.conf as once that numeric value is reached, if no healthy LUNs were discovered during that defined time multipath will disable the I/O queue altogether.</i></p><p style="font-family:arial,helvetica,sans-serif;font-size:13.3333px"><i>I do recommend, however, changing the variable value from &quot;12&quot; (or even &quot;60&quot;) to &quot;queue&quot; which will then allow multipathd to continue queing I/O until a healthy LUN is discovered (time of fail-over between controllers) and I/O is allowed to flow once again.</i></p><p style="font-family:arial,helvetica,sans-serif;font-size:13.3333px"><span style="font-size:13.3333px">Can you see any issues with this recommendation as far as Ovirt is concerned ?</span></p></div></div></blockquote><div>Yes, we cannot work with unlimited queue. This will block vdsm for unlimited</div><div>time when the next command try to access storage. Because we don&#39;t have</div><div>good isolation between different storage domains, this may cause other storage</div><div>domains to become faulty. Also engine flows that have a timeout will fail with</div><div>a timeout.</div><div><br></div><div>If you are on 3.x, this will be very painfull, on 4.0 it should be better, but it is not</div><div>recommended.</div><span class="gmail-HOEnZb"><font color="#888888"><div><br></div><div>Nir</div><div><br></div></font></span></div></div></div>
</blockquote></div><br></div></div>