<div dir="ltr">Attached sanlock+vdsm+dmesg.<div style>I recreated the crash with clean logfiles.</div><div style><br></div><div style>Yuval</div><div class="gmail_extra"><br><br><div class="gmail_quote">On Sun, Mar 31, 2013 at 10:55 PM, Ayal Baron <span dir="ltr">&lt;<a href="mailto:abaron@redhat.com" target="_blank">abaron@redhat.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Can you attach the sanlock log and the full vdsm log? (compress it if it&#39;s too big and not xz yet)<br>
Thanks.<br>
<div class="HOEnZb"><div class="h5"><br>
----- Original Message -----<br>
&gt; Any ideas on what can cause that storage crash?<br>
&gt; could it be related to using a SSD?<br>
&gt;<br>
&gt; Thanks,<br>
&gt;<br>
&gt; Yuval Meir<br>
&gt;<br>
&gt;<br>
&gt; On Wed, Mar 27, <a href="tel:2013" value="+9722013">2013</a> at 6:08 PM, Yuval M &lt; <a href="mailto:yuvalme@gmail.com">yuvalme@gmail.com</a> &gt; wrote:<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; Still getting crashes with the patch:<br>
&gt; # rpm -q vdsm<br>
&gt; vdsm-4.10.3-0.281.git97db188.fc18.x86_64<br>
&gt;<br>
&gt; attached excerpts from vdsm.log and from dmesg.<br>
&gt;<br>
&gt; Yuval<br>
&gt;<br>
&gt;<br>
&gt; On Wed, Mar 27, <a href="tel:2013" value="+9722013">2013</a> at 11:02 AM, Dan Kenigsberg &lt; <a href="mailto:danken@redhat.com">danken@redhat.com</a> &gt; wrote:<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; On Sun, Mar 24, <a href="tel:2013" value="+9722013">2013</a> at 09:50:02PM +0200, Yuval M wrote:<br>
&gt; &gt; I am running vdsm from packages as my interest is in developing for the<br>
&gt; &gt; engine and not vdsm.<br>
&gt; &gt; I updated the vdsm package in an attempt to solve this, now I have:<br>
&gt; &gt; # rpm -q vdsm<br>
&gt; &gt; vdsm-4.10.3-10.fc18.x86_64<br>
&gt;<br>
&gt; I&#39;m afraid that this build still does not have the patch mentioned<br>
&gt; earlier.<br>
&gt;<br>
&gt; &gt;<br>
&gt; &gt; I noticed that when the storage domain crashes I can&#39;t even do &quot;df -h&quot;<br>
&gt; &gt; (hangs)<br>
&gt;<br>
&gt; That&#39;s expectable, since the master domain is still mounted (due to that<br>
&gt; patch missing), but unreachable.<br>
&gt;<br>
&gt; Would you be kind to try out my little patch, in order to advance a bit<br>
&gt; in the research to solve the bug?<br>
&gt;<br>
&gt;<br>
&gt; &gt; I&#39;m also getting some errors in /var/log/messages:<br>
&gt; &gt;<br>
&gt; &gt; Mar <a href="tel:24%2019" value="+9722419">24 19</a> :57:44 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:45 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:46 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:47 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:48 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:49 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:50 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to<br>
&gt; &gt; svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19 :57:51 bufferoverflow sanlock[1208]: 2013-03-24 19:57:51+0200<br>
&gt; &gt; 7412<br>
&gt; &gt; [4759 ]: 1083422e close_task_aio 0 0x7ff3740008c0 busy<br>
&gt; &gt; Mar 24 19 :57:51 bufferoverflow sanlock[1208]: 2013-03-24 19:57:51+0200<br>
&gt; &gt; 7412<br>
&gt; &gt; [4759 ]: 1083422e close_task_aio 1 0x7ff374000910 busy<br>
&gt; &gt; Mar 24 19 :57:51 bufferoverflow sanlock[1208]: 2013-03-24 19:57:51+0200<br>
&gt; &gt; 7412<br>
&gt; &gt; [4759 ]: 1083422e close_task_aio 2 0x7ff374000960 busy<br>
&gt; &gt; Mar 24 19 :57:51 bufferoverflow sanlock[1208]: 2013-03-24 19:57:51+0200<br>
&gt; &gt; 7412<br>
&gt; &gt; [4759 ]: 1083422e close_task_aio 3 0x7ff3740009b0 busy<br>
&gt; &gt; Mar 24 19:57:51 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19:57:52 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19:57:53 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19:57:54 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19:57:55 bufferoverflow vdsm SuperVdsmProxy WARNING Connect to svdsm<br>
&gt; &gt; failed [Errno 2] No such file or directory<br>
&gt; &gt; Mar 24 19:57:55 bufferoverflow vdsm Storage.Misc ERROR Panic: Couldn&#39;t<br>
&gt; &gt; connect to supervdsm<br>
&gt; &gt; Mar 24 19:57:55 bufferoverflow respawn: slave &#39;/usr/share/vdsm/vdsm&#39; died,<br>
&gt; &gt; respawning slave<br>
&gt; &gt; Mar 24 19:57:55 bufferoverflow vdsm fileUtils WARNING Dir<br>
&gt; &gt; /rhev/data-center/mnt already exists<br>
&gt; &gt; Mar 24 19:57:58 bufferoverflow vdsm vds WARNING Unable to load the json rpc<br>
&gt; &gt; server module. Please make sure it is installed.<br>
&gt; &gt; Mar 24 19:57:58 bufferoverflow vdsm vm.Vm WARNING<br>
&gt; &gt; vmId=`4d3d81b3-d083-4569-acc2-8e631ed51843`::Unknown type found, device:<br>
&gt; &gt; &#39;{&#39;device&#39;: u&#39;unix&#39;, &#39;alias&#39;: u&#39;channel0&#39;, &#39;type&#39;: u&#39;channel&#39;, &#39;address&#39;:<br>
&gt; &gt; {u&#39;bus&#39;: u&#39;0&#39;, u&#39;controller&#39;: u&#39;0&#39;, u&#39;type&#39;: u&#39;virtio-serial&#39;, u&#39;port&#39;:<br>
&gt; &gt; u&#39;1&#39;}}&#39; found<br>
&gt; &gt; Mar 24 19:57:58 bufferoverflow vdsm vm.Vm WARNING<br>
&gt; &gt; vmId=`4d3d81b3-d083-4569-acc2-8e631ed51843`::Unknown type found, device:<br>
&gt; &gt; &#39;{&#39;device&#39;: u&#39;unix&#39;, &#39;alias&#39;: u&#39;channel1&#39;, &#39;type&#39;: u&#39;channel&#39;, &#39;address&#39;:<br>
&gt; &gt; {u&#39;bus&#39;: u&#39;0&#39;, u&#39;controller&#39;: u&#39;0&#39;, u&#39;type&#39;: u&#39;virtio-serial&#39;, u&#39;port&#39;:<br>
&gt; &gt; u&#39;2&#39;}}&#39; found<br>
&gt; &gt; Mar 24 19:57:58 bufferoverflow vdsm vm.Vm WARNING<br>
&gt; &gt; vmId=`4d3d81b3-d083-4569-acc2-8e631ed51843`::_readPauseCode unsupported by<br>
&gt; &gt; libvirt vm<br>
&gt; &gt; Mar 24 19:57:58 bufferoverflow kernel: [ 7402.688177] ata1: hard resetting<br>
&gt; &gt; link<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7402.994510] ata1: SATA link up<br>
&gt; &gt; 6.0 Gbps (SStatus 133 SControl 300)<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7403.005510] ACPI Error: [DSSP]<br>
&gt; &gt; Namespace lookup failure, AE_NOT_FOUND (20120711/psargs-359)<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7403.005517] ACPI Error: Method<br>
&gt; &gt; parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff880407c74d48),<br>
&gt; &gt; AE_NOT_FOUND (20120711/psparse-536)<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7403.015485] ACPI Error: [DSSP]<br>
&gt; &gt; Namespace lookup failure, AE_NOT_FOUND (20120711/psargs-359)<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7403.015493] ACPI Error: Method<br>
&gt; &gt; parse/execution failed [\_SB_.PCI0.SAT0.SPT0._GTF] (Node ffff880407c74d48),<br>
&gt; &gt; AE_NOT_FOUND (20120711/psparse-536)<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7403.016061] ata1.00: configured<br>
&gt; &gt; for UDMA/133<br>
&gt; &gt; Mar 24 19:57:59 bufferoverflow kernel: [ 7403.016066] ata1: EH complete<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow sanlock[1208]: 2013-03-24 19:58:01+0200 7422<br>
&gt; &gt; [4759]: 1083422e close_task_aio 0 0x7ff3740008c0 busy<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow sanlock[1208]: 2013-03-24 19:58:01+0200 7422<br>
&gt; &gt; [4759]: 1083422e close_task_aio 1 0x7ff374000910 busy<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow sanlock[1208]: 2013-03-24 19:58:01+0200 7422<br>
&gt; &gt; [4759]: 1083422e close_task_aio 2 0x7ff374000960 busy<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow sanlock[1208]: 2013-03-24 19:58:01+0200 7422<br>
&gt; &gt; [4759]: 1083422e close_task_aio 3 0x7ff3740009b0 busy<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow kernel: [ 7405.714145] device-mapper: table:<br>
&gt; &gt; 253:0: multipath: error getting device<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow kernel: [ 7405.714148] device-mapper: ioctl:<br>
&gt; &gt; error adding target to table<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow kernel: [ 7405.715051] device-mapper: table:<br>
&gt; &gt; 253:0: multipath: error getting device<br>
&gt; &gt; Mar 24 19:58:01 bufferoverflow kernel: [ 7405.715053] device-mapper: ioctl:<br>
&gt; &gt; error adding target to table<br>
&gt; &gt;<br>
&gt; &gt; ata1 is a 500GB SSD. (only SATA device on the system except a DVD drive)<br>
&gt; &gt;<br>
&gt; &gt; Yuval<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; On Sun, Mar 24, 2013 at 2:52 PM, Dan Kenigsberg &lt; <a href="mailto:danken@redhat.com">danken@redhat.com</a> &gt;<br>
&gt; &gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt; &gt; On Fri, Mar 22, <a href="tel:2013" value="+9722013">2013</a> at 08:24:35PM +0200, Limor Gavish wrote:<br>
&gt; &gt; &gt; &gt; Hello,<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; I am using Ovirt 3.2 on Fedora 18:<br>
&gt; &gt; &gt; &gt; [wil@bufferoverflow ~]$ rpm -q vdsm<br>
&gt; &gt; &gt; &gt; vdsm-4.10.3-7.fc18.x86_64<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; (the engine is built from sources).<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; I seem to have hit this bug:<br>
&gt; &gt; &gt; &gt; <a href="https://bugzilla.redhat.com/show_bug.cgi?id=922515" target="_blank">https://bugzilla.redhat.com/show_bug.cgi?id=922515</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; This bug is only one part of the problem, but it&#39;s nasty enough that I<br>
&gt; &gt; &gt; have just suggested it as a fix to the ovirt-3.2 branch of vdsm:<br>
&gt; &gt; &gt; <a href="http://gerrit.ovirt.org/13303" target="_blank">http://gerrit.ovirt.org/13303</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Could you test if with it, vdsm relinquishes its spm role, and recovers<br>
&gt; &gt; &gt; as operational?<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; in the following configuration:<br>
&gt; &gt; &gt; &gt; Single host (no migrations)<br>
&gt; &gt; &gt; &gt; Created a VM, installed an OS inside (Fedora18)<br>
&gt; &gt; &gt; &gt; stopped the VM.<br>
&gt; &gt; &gt; &gt; created template from it.<br>
&gt; &gt; &gt; &gt; Created an additional VM from the template using thin provision.<br>
&gt; &gt; &gt; &gt; Started the second VM.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; in addition to the errors in the logs the storage domains (both data<br>
&gt; &gt; &gt; &gt; and<br>
&gt; &gt; &gt; &gt; ISO) crashed, i.e went to &quot;unknown&quot; and &quot;inactive&quot; states respectively.<br>
&gt; &gt; &gt; &gt; (see the attached engine.log)<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; I attached the VDSM and engine logs.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; is there a way to work around this problem?<br>
&gt; &gt; &gt; &gt; It happens repeatedly.<br>
&gt; &gt; &gt; &gt;<br>
&gt; &gt; &gt; &gt; Yuval Meir<br>
&gt; &gt; &gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
</div></div><div class="HOEnZb"><div class="h5">&gt; _______________________________________________<br>
&gt; Users mailing list<br>
&gt; <a href="mailto:Users@ovirt.org">Users@ovirt.org</a><br>
&gt; <a href="http://lists.ovirt.org/mailman/listinfo/users" target="_blank">http://lists.ovirt.org/mailman/listinfo/users</a><br>
&gt;<br>
</div></div></blockquote></div><br></div></div>