<div dir="ltr">We&#39;re seeing this in RHEV 3.5 with snapshot management on VMs with multiple disks.  It would be awesome to have a &quot;fsck&quot; type script that could be run daily which reports on any problems with the snapshot disks.</div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Apr 18, 2016 at 10:59 PM, Clint Boggio <span dir="ltr">&lt;<a href="mailto:clint@theboggios.com" target="_blank">clint@theboggios.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Markus thank you so much for the information. I&#39;ll be focusing on resolution of this problem this week and I&#39;ll keep you in the loop.<br>
<div><div class="h5"><br>
On Apr 18, 2016, at 7:39 AM, Markus Stockhausen &lt;<a href="mailto:stockhausen@collogia.de">stockhausen@collogia.de</a>&gt; wrote:<br>
<br>
&gt;&gt; Von: <a href="mailto:users-bounces@ovirt.org">users-bounces@ovirt.org</a> [<a href="mailto:users-bounces@ovirt.org">users-bounces@ovirt.org</a>]&amp;quot; im Auftrag von &amp;quot;Clint Boggio [<a href="mailto:clint@theboggios.com">clint@theboggios.com</a>]<br>
&gt;&gt; Gesendet: Montag, 18. April 2016 14:16<br>
&gt;&gt; An: <a href="mailto:users@ovirt.org">users@ovirt.org</a><br>
&gt;&gt; Betreff: [ovirt-users] Disks Illegal State<br>
&gt;&gt;<br>
&gt;&gt; OVirt 3.6, 4 node cluster with dedicated engine. Main storage domain is iscsi, ISO and Export domains are NFS.<br>
&gt;&gt;<br>
&gt;&gt; Several of my VM snapshot disks show to be in an &quot;illegal state&quot;. The system will not allow me to manipulate the snapshots in any way, nor clone the active system, or create a new snapshot.<br>
&gt;&gt;<br>
&gt;&gt; In the logs I see that the system complains about not being able to &quot;get volume size for xxx&quot;, and also that the system appears to believe that the image is &quot;locked&quot; and is currently in the snapshot process.<br>
&gt;&gt;<br>
&gt;&gt; Of the VM&#39;s with this status, one rebooted and was lost due to &quot;cannot get volume size for domain xxx&quot;.<br>
&gt;&gt;<br>
&gt;&gt; I fear that in this current condition, should any of the other machine reboot, they too will be lost.<br>
&gt;&gt;<br>
&gt;&gt; How can I troubleshoot this problem further, and hopefully alleviate the condition ?<br>
&gt;&gt;<br>
&gt;&gt; Thank you for your help.<br>
&gt;<br>
&gt; Hi Clint,<br>
&gt;<br>
&gt; for us the problem always boils down to the following steps. Might be simpler as we use<br>
&gt; NFS for all of our domains and have direct access to the image files.<br>
&gt;<br>
&gt; 1) Check if snapshot disks are currently used. Capture the qemu command line with a &quot;ps -ef&quot;<br>
&gt; on the nodes. There you can see what images qemu is started with. For each of the files check<br>
&gt; the backing chain:<br>
&gt;<br>
&gt; # qemu-img info /rhev/.../bbd05dd8-c3bf-4d15-9317-73040e04abae<br>
&gt; image: bbd05dd8-c3bf-4d15-9317-73040e04abae<br>
&gt; file format: qcow2<br>
&gt; virtual size: 50G (53687091200 bytes)<br>
&gt; disk size: 133M<br>
&gt; cluster_size: 65536<br>
&gt; backing file: ../f8ebfb39-2ac6-4b87-b193-4204d1854edc/595b95f4-ce1a-4298-bd27-3f6745ae4e4c<br>
&gt; backing file format: raw<br>
&gt; Format specific information:<br>
&gt;    compat: 0.10<br>
&gt;<br>
&gt; # qemu-img info .../595b95f4-ce1a-4298-bd27-3f6745ae4e4c (see above)<br>
&gt; ...<br>
&gt;<br>
&gt; I don&#39;t know how you can accomplish this on ISCSI (and LVM based images inside iirc). We<br>
&gt; usually follow the backing chain and test if all the files exist and are linked correctly. Especially<br>
&gt; if everything matches the OVirt GUI. I guess this is the most important part for you.<br>
&gt;<br>
&gt; 2) In most of our cases everything is fine and only the OVirt database is wrong. So we fix it<br>
&gt; at our own risk. Because of your explanation I do not recommend that for you. It is just for<br>
&gt; documentation purpose.<br>
&gt;<br>
&gt; engine# su - postgres<br>
&gt;&gt; psql engine postgres<br>
&gt;<br>
&gt;&gt; select image_group_id,imagestatus from images where imagestatus =4;<br>
&gt;&gt; ... list of illegal images<br>
&gt;&gt; update images set imagestatus =1 where imagestatus = 4 and &lt;other criteria&gt;;<br>
&gt;&gt; commit<br>
&gt;<br>
&gt;&gt; select description,status from snapshots where status &lt;&gt; &#39;OK&#39;;<br>
&gt;&gt; ... list of locked snapshots<br>
&gt;&gt; update snapshots set status = &#39;OK&#39; where status &lt;&gt; &#39;OK&#39; and &lt;other criteria&gt;;<br>
&gt;&gt; commit<br>
&gt;<br>
&gt;&gt; \q<br>
&gt;<br>
&gt; Restart engine and everything should be in sync again.<br>
&gt;<br>
&gt; Best regards.<br>
&gt;<br>
</div></div>&gt; Markus=<br>
&gt; &lt;InterScan_Disclaimer.txt&gt;<br>
<div class="HOEnZb"><div class="h5"><br>
_______________________________________________<br>
Users mailing list<br>
<a href="mailto:Users@ovirt.org">Users@ovirt.org</a><br>
<a href="http://lists.ovirt.org/mailman/listinfo/users" rel="noreferrer" target="_blank">http://lists.ovirt.org/mailman/listinfo/users</a><br>
</div></div></blockquote></div><br></div>