<div dir="ltr"><div class="gmail_quote"><div dir="ltr">On Sun, Aug 20, 2017 at 11:08 AM Dan Kenigsberg &lt;<a href="mailto:danken@redhat.com">danken@redhat.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On Sun, Aug 20, 2017 at 10:39 AM, Yaniv Kaul &lt;<a href="mailto:ykaul@redhat.com" target="_blank">ykaul@redhat.com</a>&gt; wrote:<br>
&gt;<br>
&gt;<br>
&gt; On Sun, Aug 20, 2017 at 8:48 AM, Daniel Belenky &lt;<a href="mailto:dbelenky@redhat.com" target="_blank">dbelenky@redhat.com</a>&gt; wrote:<br>
&gt;&gt;<br>
&gt;&gt; Failed test: basic_suite_master/002_bootstrap<br>
&gt;&gt; Version: oVirt Master<br>
&gt;&gt; Link to failed job: ovirt-master_change-queue-tester/1860/<br>
&gt;&gt; Link to logs (Jenkins): test logs<br>
&gt;&gt; Suspected patch: <a href="https://gerrit.ovirt.org/#/c/80749/3" rel="noreferrer" target="_blank">https://gerrit.ovirt.org/#/c/80749/3</a><br>
&gt;&gt;<br>
&gt;&gt; From what I was able to find, It seems that for some reason VDSM failed to<br>
&gt;&gt; start on host 1. The VDSM log is empty, and the only error I could find in<br>
&gt;&gt; supervdsm.log is that start of LLDP failed (Not sure if it&#39;s related)<br>
&gt;<br>
&gt;<br>
&gt; Can you check the networking on the hosts? Something&#39;s very strange there.<br>
&gt; For example:<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 NetworkManager[685]: &lt;info&gt;<br>
&gt; [1503175122.2682] manager: (e7NZWeNDXwIjQia): new Bond device<br>
&gt; (/org/freedesktop/NetworkManager/Devices/17)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting xmit hash policy to layer2+3 (2)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting xmit hash policy to encap2+3 (3)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting xmit hash policy to encap3+4 (4)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; option xmit_hash_policy: invalid value (5)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting primary_reselect to always (0)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting primary_reselect to better (1)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting primary_reselect to failure (2)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; option primary_reselect: invalid value (3)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting arp_all_targets to any (0)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; Setting arp_all_targets to all (1)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: e7NZWeNDXwIjQia:<br>
&gt; option arp_all_targets: invalid value (2)<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 kernel: bonding:<br>
&gt; e7NZWeNDXwIjQia is being deleted...<br>
&gt; Aug 19 16:38:42 lago-basic-suite-master-host0 lldpad: recvfrom(Event<br>
&gt; interface): No buffer space available<br>
&gt;<br>
&gt; Y.<br>
<br>
<br>
<br>
The post-boot noise with funny-looking bonds is due to our calling of<br>
`vdsm-tool dump-bonding-options` every boot, in order to find the<br>
bonding defaults for the current kernel.<br>
<br>
&gt;<br>
&gt;&gt;<br>
&gt;&gt; From host-deploy log:<br>
&gt;&gt;<br>
&gt;&gt; 2017-08-19 16:38:41,476-0400 DEBUG otopi.plugins.otopi.services.systemd<br>
&gt;&gt; systemd.state:130 starting service vdsmd<br>
&gt;&gt; 2017-08-19 16:38:41,476-0400 DEBUG otopi.plugins.otopi.services.systemd<br>
&gt;&gt; plugin.executeRaw:813 execute: (&#39;/bin/systemctl&#39;, &#39;start&#39;, &#39;vdsmd.service&#39;),<br>
&gt;&gt; executable=&#39;None&#39;, cwd=&#39;None&#39;, env=None<br>
&gt;&gt; 2017-08-19 16:38:44,628-0400 DEBUG otopi.plugins.otopi.services.systemd<br>
&gt;&gt; plugin.executeRaw:863 execute-result: (&#39;/bin/systemctl&#39;, &#39;start&#39;,<br>
&gt;&gt; &#39;vdsmd.service&#39;), rc=1<br>
&gt;&gt; 2017-08-19 16:38:44,630-0400 DEBUG otopi.plugins.otopi.services.systemd<br>
&gt;&gt; plugin.execute:921 execute-output: (&#39;/bin/systemctl&#39;, &#39;start&#39;,<br>
&gt;&gt; &#39;vdsmd.service&#39;) stdout:<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; 2017-08-19 16:38:44,630-0400 DEBUG otopi.plugins.otopi.services.systemd<br>
&gt;&gt; plugin.execute:926 execute-output: (&#39;/bin/systemctl&#39;, &#39;start&#39;,<br>
&gt;&gt; &#39;vdsmd.service&#39;) stderr:<br>
&gt;&gt; Job for vdsmd.service failed because the control process exited with error<br>
&gt;&gt; code. See &quot;systemctl status vdsmd.service&quot; and &quot;journalctl -xe&quot; for details.<br>
&gt;&gt;<br>
&gt;&gt; 2017-08-19 16:38:44,631-0400 DEBUG otopi.context<br>
&gt;&gt; context._executeMethod:142 method exception<br>
&gt;&gt; Traceback (most recent call last):<br>
&gt;&gt;   File &quot;/tmp/ovirt-dunwHj8Njn/pythonlib/otopi/context.py&quot;, line 132, in<br>
&gt;&gt; _executeMethod<br>
&gt;&gt;     method[&#39;method&#39;]()<br>
&gt;&gt;   File<br>
&gt;&gt; &quot;/tmp/ovirt-dunwHj8Njn/otopi-plugins/ovirt-host-deploy/vdsm/packages.py&quot;,<br>
&gt;&gt; line 224, in _start<br>
&gt;&gt;     self.services.state(&#39;vdsmd&#39;, True)<br>
&gt;&gt;   File &quot;/tmp/ovirt-dunwHj8Njn/otopi-plugins/otopi/services/systemd.py&quot;,<br>
&gt;&gt; line 141, in state<br>
&gt;&gt;     service=name,<br>
&gt;&gt; RuntimeError: Failed to start service &#39;vdsmd&#39;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; From /var/log/messages:<br>
&gt;&gt;<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: Error:<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: One of<br>
&gt;&gt; the modules is not configured to work with VDSM.<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: To<br>
&gt;&gt; configure the module use the following:<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh:<br>
&gt;&gt; &#39;vdsm-tool configure [--module module-name]&#39;.<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: If all<br>
&gt;&gt; modules are not configured try to use:<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh:<br>
&gt;&gt; &#39;vdsm-tool configure --force&#39;<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: (The<br>
&gt;&gt; force flag will stop the module&#39;s service and start it<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh:<br>
&gt;&gt; afterwards automatically to load the new configuration.)<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: abrt<br>
&gt;&gt; is already configured for vdsm<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh: lvm is<br>
&gt;&gt; configured for vdsm<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh:<br>
&gt;&gt; libvirt is already configured for vdsm<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh:<br>
&gt;&gt; multipath requires configuration<br>
&gt;&gt; Aug 19 16:38:44 lago-basic-suite-master-host0 vdsmd_init_common.sh:<br>
&gt;&gt; Modules sanlock, multipath are not configured<br></blockquote><div><br></div><div>This means the host was not deployed correctly. When deploying vdsm</div><div>host deploy must run &quot;vdsm-tool configure --force&quot;, which configures</div><div>multipath and sanlock.</div><div><br></div><div>We did not change anything in multipath and sanlock configurators lately.</div><div><br></div><div>Didi, can you check this?</div></div></div>