<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Thu, Mar 3, 2016 at 2:54 AM, David LeVene <span dir="ltr">&lt;<a href="mailto:David.LeVene@blackboard.com" target="_blank">David.LeVene@blackboard.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
<br>
Thanks for the quick responses &amp; help.. answers in-line at the end of this email.<br>
<br>
Cheers<br>
David<br>
<div><div class="h5"><br>
-----Original Message-----<br>
From: Edward Haas [mailto:<a href="mailto:edwardh@redhat.com">edwardh@redhat.com</a>]<br>
Sent: Wednesday, March 02, 2016 20:05<br>
To: David LeVene &lt;<a href="mailto:David.LeVene@blackboard.com">David.LeVene@blackboard.com</a>&gt;; Dan Kenigsberg &lt;<a href="mailto:danken@redhat.com">danken@redhat.com</a>&gt;<br>
Cc: <a href="mailto:users@ovirt.org">users@ovirt.org</a><br>
Subject: Re: [ovirt-users] 3.6 looses network on reboot<br>
<br>
On 03/02/2016 01:36 AM, David LeVene wrote:<br>
&gt; Hi Dan,<br>
&gt;<br>
&gt; I missed the email as the subject line changed!<br>
&gt;<br>
&gt; So we use and run IPv6 in our network - not sure if this is related. The Addresses are handed out via SLAAC so that would be where the IPv6 address is coming from.<br>
&gt;<br>
&gt; My memory is a bit sketchy... but I think if I remove the vmfex/SRIOV vNIC and only run with the one vNIC it works fine, it&#39;s when I bring the second NIC into play with SRIOV the issues arise.<br>
&gt;<br>
&gt; Answers inline.<br>
&gt;<br>
&gt; -----Original Message-----<br>
&gt; From: Dan Kenigsberg [mailto:<a href="mailto:danken@redhat.com">danken@redhat.com</a>]<br>
&gt; Sent: Tuesday, March 01, 2016 00:28<br>
&gt; To: David LeVene &lt;<a href="mailto:David.LeVene@blackboard.com">David.LeVene@blackboard.com</a>&gt;<br>
&gt; Cc: <a href="mailto:edwardh@redhat.com">edwardh@redhat.com</a>; <a href="mailto:users@ovirt.org">users@ovirt.org</a><br>
&gt; Subject: Re: [ovirt-users] 3.6 looses network on reboot<br>
&gt;<br>
&gt; This sounds very bad. Changing the subject, so the wider, more problematic issue is visible.<br>
&gt;<br>
&gt; Did any other user see this behavior?<br>
&gt;<br>
&gt; On Mon, Feb 29, 2016 at 06:27:46AM +0000, David LeVene wrote:<br>
&gt;&gt; Hi Dan,<br>
&gt;&gt;<br>
&gt;&gt; Answers as follows;<br>
&gt;&gt;<br>
&gt;&gt; # rpm -qa | grep -i vdsm<br>
&gt;&gt; vdsm-jsonrpc-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-hook-vmfex-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-infra-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-python-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-yajsonrpc-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-cli-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-xmlrpc-4.17.18-1.el7.noarch<br>
&gt;&gt; vdsm-hook-vmfex-dev-4.17.18-1.el7.noarch<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; There was in this folder ifcfg-ovirtmgnt bridge setup, and also route-ovirtmgnt &amp; rule-ovirtmgmt.. but they were removed after the reboot.<br>
&gt;&gt;<br>
&gt;&gt; # ls -althr | grep ifcfg<br>
&gt;&gt; -rw-r--r--. 1 root root  254 Sep 16 21:21 ifcfg-lo -rw-r--r--. 1 root<br>
&gt;&gt; root  120 Feb 25 14:07 ifcfg-enp7s0f0 -rw-rw-r--. 1 root root  174<br>
&gt;&gt; Feb<br>
&gt;&gt; 25 14:40 ifcfg-enp6s0<br>
&gt;&gt;<br>
&gt;&gt; I think I modified ifcfg-enp6s0 to get networking up again (eg was set to bridge.. but the bridge wasn&#39;t configured).. it was a few days ago.. if it&#39;s important I can reboot the box again to see what state it comes up with.<br>
&gt;&gt;<br>
&gt;&gt; # cat ifcfg-enp6s0<br>
&gt;&gt; BOOTPROTO=&quot;none&quot;<br>
&gt;&gt; IPADDR=&quot;10.80.10.117&quot;<br>
&gt;&gt; NETMASK=&quot;255.255.255.0&quot;<br>
&gt;&gt; GATEWAY=&quot;10.80.10.1&quot;<br>
&gt;&gt; DEVICE=&quot;enp6s0&quot;<br>
&gt;&gt; HWADDR=&quot;00:25:b5:00:0b:4f&quot;<br>
&gt;&gt; ONBOOT=yes<br>
&gt;&gt; PEERDNS=yes<br>
&gt;&gt; PEERROUTES=yes<br>
&gt;&gt; MTU=1500<br>
&gt;&gt;<br>
&gt;&gt; # cat ifcfg-enp7s0f0<br>
&gt;&gt; # Generated by VDSM version 4.17.18-1.el7<br>
&gt;&gt; DEVICE=enp7s0f0<br>
&gt;&gt; ONBOOT=yes<br>
&gt;&gt; MTU=1500<br>
&gt;&gt; HWADDR=00:25:b5:00:0b:0f<br>
&gt;&gt; NM_CONTROLLED=no<br>
&gt;&gt;<br>
&gt;&gt; # find /var/lib/vdsm/persistence<br>
&gt;&gt; /var/lib/vdsm/persistence<br>
&gt;&gt; /var/lib/vdsm/persistence/netconf<br>
&gt;&gt; /var/lib/vdsm/persistence/netconf.1456371473833165545<br>
&gt;&gt; /var/lib/vdsm/persistence/netconf.1456371473833165545/nets<br>
&gt;&gt; /var/lib/vdsm/persistence/netconf.1456371473833165545/nets/ovirtmgmt<br>
&gt;&gt;<br>
&gt;&gt; # cat<br>
&gt;&gt; /var/lib/vdsm/persistence/netconf.1456371473833165545/nets/ovirtmgmt<br>
&gt;&gt; {<br>
&gt;&gt;     &quot;nic&quot;: &quot;enp6s0&quot;,<br>
&gt;&gt;     &quot;ipaddr&quot;: &quot;10.80.10.117&quot;,<br>
&gt;&gt;     &quot;mtu&quot;: &quot;1500&quot;,<br>
&gt;&gt;     &quot;netmask&quot;: &quot;255.255.255.0&quot;,<br>
&gt;&gt;     &quot;STP&quot;: &quot;no&quot;,<br>
&gt;&gt;     &quot;bridged&quot;: &quot;true&quot;,<br>
&gt;&gt;     &quot;gateway&quot;: &quot;10.80.10.1&quot;,<br>
&gt;&gt;     &quot;defaultRoute&quot;: true<br>
&gt;&gt; }<br>
&gt;&gt;<br>
&gt;&gt; Supervdsm log is attached.<br>
&gt;<br>
&gt; Have you editted ifcfg-ovirtmgmt manually?<br>
&gt; Nope<br>
&gt;<br>
&gt; Can you somehow reproduce it, and share its content?<br>
&gt; Yea, I should be able to reproduce it - just gotta fix it first (create the networking manually and get VDSM on-line).  Also it’s a side project/investigation at the moment so time isn&#39;t on my side...<br>
&gt;<br>
&gt; Would it help if I take an sosreport before and after? I don’t&#39; mine emailing these directly to yourself.<br>
&gt;<br>
&gt; Do you have NetworkManager running? which version?<br>
&gt; NM is disabled, but the version is...<br>
&gt; # rpm -q NetworkManager<br>
&gt; NetworkManager-1.0.6-27.el7.x86_64<br>
&gt; # systemctl status NetworkManager.service ● NetworkManager.service -<br>
&gt; Network Manager<br>
&gt;    Loaded: loaded (/usr/lib/systemd/system/NetworkManager.service; disabled; vendor preset: enabled)<br>
&gt;    Active: inactive (dead)<br>
&gt;<br>
&gt; It seems that Vdsm has two bugs: on boot, initscripts end up setting<br>
&gt; an<br>
&gt; ipv6 address that Vdsm never requested<br>
&gt;<br>
&gt; As mentioned above this would have come from SLAAC which we have setup<br>
&gt; in our network<br>
&gt;<br>
&gt;     restore-net::INFO::2016-02-25<br>
&gt; 14:14:58,024::vdsm-restore-net-config::261::root::(_find_changed_or_mi<br>
&gt; ssing) ovirtmgmt is different or missing from persistent<br>
&gt; configuration. current: {&#39;nic&#39;: &#39;enp6s0&#39;, &#39;dhcpv6&#39;: False, &#39;ipaddr&#39;:<br>
&gt; &#39;10.80.10.117&#39;, &#39;mtu&#39;: &#39;1500&#39;, &#39;netmask&#39;: &#39;255.255.255.0&#39;,<br>
&gt; &#39;bootproto&#39;: &#39;none&#39;, &#39;stp&#39;: False, &#39;bridged&#39;: True, &#39;ipv6addr&#39;:<br>
&gt; [&#39;2400:7d00:110:3:225:b5ff:fe00:b4f/64&#39;], &#39;gateway&#39;: &#39;10.80.10.1&#39;,<br>
&gt; &#39;defaultRoute&#39;: True}, persisted: {u&#39;nic&#39;: u&#39;enp6s0&#39;, &#39;dhcpv6&#39;: False,<br>
&gt; u&#39;ipaddr&#39;: u&#39;10.80.10.117&#39;, u&#39;mtu&#39;: &#39;1500&#39;, u&#39;netmask&#39;:<br>
&gt; u&#39;255.255.255.0&#39;, &#39;bootproto&#39;: &#39;none&#39;, &#39;stp&#39;: False, u&#39;bridged&#39;: True,<br>
&gt; u&#39;gateway&#39;: u&#39;10.80.10.1&#39;, u&#39;defaultRoute&#39;: True}<br>
&gt;<br>
&gt;<br>
&gt; Then, Vdsm tries to drop the<br>
&gt; unsolicited address, but fails. Both must be fixed ASAP.<br>
&gt;<br>
&gt;     restore-net::ERROR::2016-02-25 14:14:59,490::__init__::58::root::(__exit__) Failed rollback transaction last known good network.<br>
&gt;     Traceback (most recent call last):<br>
&gt;       File &quot;/usr/share/vdsm/network/api.py&quot;, line 918, in setupNetworks<br>
&gt;         keep_bridge=keep_bridge)<br>
&gt;       File &quot;/usr/share/vdsm/network/api.py&quot;, line 222, in wrapped<br>
&gt;         ret = func(**attrs)<br>
&gt;       File &quot;/usr/share/vdsm/network/api.py&quot;, line 502, in _delNetwork<br>
&gt;         configurator.removeQoS(net_ent)<br>
&gt;       File &quot;/usr/share/vdsm/network/configurators/__init__.py&quot;, line 122, in removeQoS<br>
&gt;         qos.remove_outbound(top_device)<br>
&gt;       File &quot;/usr/share/vdsm/network/configurators/qos.py&quot;, line 60, in remove_outbound<br>
&gt;         device, pref=_NON_VLANNED_ID if vlan_tag is None else vlan_tag)<br>
&gt;       File &quot;/usr/share/vdsm/network/tc/filter.py&quot;, line 31, in delete<br>
&gt;         _wrapper.process_request(command)<br>
&gt;       File &quot;/usr/share/vdsm/network/tc/_wrapper.py&quot;, line 38, in process_request<br>
&gt;         raise TrafficControlException(retcode, err, command)<br>
&gt;     TrafficControlException: (None, &#39;Message truncated&#39;,<br>
&gt; [&#39;/usr/sbin/tc&#39;, &#39;filter&#39;, &#39;del&#39;, &#39;dev&#39;, &#39;enp6s0&#39;, &#39;pref&#39;, &#39;5000&#39;])<br>
&gt;<br>
&gt; Regards,<br>
&gt; Dan.<br>
&gt;<br>
<br>
Hi David,<br>
<br>
You have encountered two issues, the first with IPv6, which we do not fully support in 3.6 and a the second with an unmanaged failure during network setup on boot.<br>
We are going to back-port both fixes very soon.<br>
<br>
Can you check our patches? They should resolve the problem we saw in the<br>
log: <a href="https://gerrit.ovirt.org/#/c/54237" rel="noreferrer" target="_blank">https://gerrit.ovirt.org/#/c/54237</a>  (based on oVirt-3.6.3)<br>
<br>
</div></div>-- I&#39;ve manually applied the patch to the node that I was testing on and the networking comes on-line correctly - now I&#39;m encountering a gluster issue with cannot find master domain.<br></blockquote><div><br></div><div>Please attach vdsm logs showing gluster connection attempts.</div><div><br></div><div>You should have also interesting logs in /var/log/glusterfs/ - there should be a log for each</div><div>gluster connection (server:/path). </div><div><br></div><div>Nir</div></div></div></div>