<p dir="ltr">I suggest to halt work on production dc until we move at least a few hypervisors to use the vdsm scratch pad hook for local disk and migrate thier vms to use it,  so we&#39;ll see a significant improvement in storage performance before moving on with production dc. </p>
<div class="gmail_quote">On Jun 24, 2016 11:01 AM, &quot;Evgheni Dereveanchin (oVirt JIRA)&quot; &lt;<a href="mailto:jira@ovirt-jira.atlassian.net">jira@ovirt-jira.atlassian.net</a>&gt; wrote:<br type="attribution"><blockquote class="quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
    [ <a href="https://ovirt-jira.atlassian.net/browse/OVIRT-609?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&amp;focusedCommentId=17600#comment-17600" rel="noreferrer" target="_blank">https://ovirt-jira.atlassian.net/browse/OVIRT-609?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&amp;focusedCommentId=17600#comment-17600</a> ]<br>
<br>
Evgheni Dereveanchin commented on OVIRT-609:<br>
--------------------------------------------<br>
<br>
Here are some relevant messages from engine.log:<br>
{quote}<br>
grep 1394b752 /var/log/ovirt-engine/engine.log<br>
2016-06-23 09:06:34,099 INFO  [org.ovirt.engine.core.bll.CreateAllSnapshotsFromVmCommand] (ajp--127.0.0.1-8702-1) [1394b752] Lock Acquired to object EngineLock [exclusiveLocks= key: e7a7b735-0310-4f88-9ed9-4fed85835a01 value: VM<br>
2016-06-23 09:06:35,708 INFO  [org.ovirt.engine.core.dal.dbbroker.auditloghandling.AuditLogDirector] (org.ovirt.thread.pool-8-thread-15) Correlation ID: 1394b752, Job ID: a8fab0bf-d45e-46eb-8314-e22db8e6a3f4, Call Stack: null, Custom Event ID: -1, Message: Snapshot &#39;ngoldin_before_cluster_move&#39; creation for VM &#39;jenkins-phx-ovirt-org&#39; was initiated by admin.<br>
2016-06-23 09:09:46,038 WARN  [org.ovirt.engine.core.dal.dbbroker.auditloghandling.AuditLogDirector] (org.ovirt.thread.pool-8-thread-14) Correlation ID: 1394b752, Job ID: a8fab0bf-d45e-46eb-8314-e22db8e6a3f4, Call Stack: org.ovirt.engine.core.common.errors.VdcBLLException: VdcBLLException: org.ovirt.engine.core.vdsbroker.vdsbroker.VDSNetworkException: java.util.concurrent.TimeoutException (Failed with error VDS_NETWORK_ERROR and code 5022)<br>
2016-06-23 09:09:47,859 ERROR [org.ovirt.engine.core.dal.dbbroker.auditloghandling.AuditLogDirector] (org.ovirt.thread.pool-8-thread-14) Correlation ID: 1394b752, Job ID: a8fab0bf-d45e-46eb-8314-e22db8e6a3f4, Call Stack: org.ovirt.engine.core.common.errors.VdcBLLException: VdcBLLException: org.ovirt.engine.core.vdsbroker.vdsbroker.VDSNetworkException: java.util.concurrent.TimeoutException (Failed with error VDS_NETWORK_ERROR and code 5022){quote}<br>
<br>
Looks like VDSM was slow to respond (probably due to storage slowness) while the snapshot is likely to have completed fine. I&#39;ll review host logs and share my findings.<br>
<div class="elided-text"><br>
&gt; Jenkins snapshot creation failed<br>
&gt; --------------------------------<br>
&gt;<br>
&gt;                 Key: OVIRT-609<br>
&gt;                 URL: <a href="https://ovirt-jira.atlassian.net/browse/OVIRT-609" rel="noreferrer" target="_blank">https://ovirt-jira.atlassian.net/browse/OVIRT-609</a><br>
&gt;             Project: oVirt - virtualization made easy<br>
&gt;          Issue Type: Bug<br>
&gt;            Reporter: Evgheni Dereveanchin<br>
&gt;            Assignee: infra<br>
&gt;<br>
&gt; [~<a href="mailto:ngoldin@redhat.com">ngoldin@redhat.com</a>] issued a live snapshot creation on the Jenkins VM to prepare it for cluster move. This failed and it&#39;s not really clear why. Relevant event logs below, suggesting that the hypervisor  started dumping VM memory to the snapshot which caused a storage slowdown.<br>
&gt; {quote}2016-Jun-23, 18:06 Snapshot &#39;ngoldin_before_cluster_move&#39; creation for VM &#39;jenkins-phx-ovirt-org&#39; was initiated by admin.<br>
&gt; 2016-Jun-23, 18:09 Failed to create live snapshot &#39;ngoldin_before_cluster_move&#39; for VM &#39;jenkins-phx-ovirt-org&#39;. VM restart is recommended. Note that using the created snapshot might cause data inconsistency.<br>
&gt; 2016-Jun-23, 18:13 Host ovirt-srv02 has network interface which exceeded the defined threshold [95%] (em1: transmit rate[100%], receive rate [0%])<br>
&gt; 2016-Jun-23, 18:13 Storage domain Production experienced a high latency of 18.7802 seconds from host ovirt-srv11. This may cause performance and functional issues. Please consult your Storage Administrator.{quote}<br>
<br>
<br>
<br>
--<br>
This message was sent by Atlassian JIRA<br>
(v1000.98.4#100004)<br>
_______________________________________________<br>
Infra mailing list<br>
<a href="mailto:Infra@ovirt.org">Infra@ovirt.org</a><br>
<a href="http://lists.ovirt.org/mailman/listinfo/infra" rel="noreferrer" target="_blank">http://lists.ovirt.org/mailman/listinfo/infra</a><br>
<br>
<br>
</div></blockquote></div>