<div dir="ltr">Hello,<div>I have a 4.0 test environment (single host with self hosted engine) where I have 6 VMs defined (5 running) and no much activity.</div><div><br></div><div>I do&#39;t monitor this system very much.</div><div><br></div><div>Now I have connected to it to evaluate upgrade to 4.0.1 and see that about 15 days ago the ovirt-ha-agent died because of too many open files....</div><div><br></div><div><div>[root@ractor ovirt-hosted-engine-ha]# systemctl status ovirt-ha-agent -l</div><div>● ovirt-ha-agent.service - oVirt Hosted Engine High Availability Monitoring Agent</div><div>   Loaded: loaded (/usr/lib/systemd/system/ovirt-ha-agent.service; enabled; vendor preset: disabled)</div><div>   Active: inactive (dead) since Fri 2016-07-22 16:39:49 CEST; 2 weeks 4 days ago</div><div> Main PID: 72795 (code=exited, status=0/SUCCESS)</div><div><br></div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: self.set_file(fd)</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: File &quot;/usr/lib64/python2.7/asyncore.py&quot;, line 657, in set_file</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: self.socket = file_wrapper(fd)</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: File &quot;/usr/lib64/python2.7/asyncore.py&quot;, line 616, in __init__</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: self.fd = os.dup(fd)</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: OSError: [Errno 24] Too many open files</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: ovirt-ha-agent ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine ERROR Shutting down the agent because of 3 failures in a row!</div><div>Jul 22 16:39:47 ractor.mydomain ovirt-ha-agent[72795]: ERROR:ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine:Shutting down the agent because of 3 failures in a row!</div><div>Jul 22 16:39:49 ractor.mydomain ovirt-ha-agent[72795]: WARNING:ovirt_hosted_engine_ha.agent.hosted_engine.HostedEngine:The VM is running locally or we have no data, keeping the domain monitor.</div><div>Jul 22 16:39:49 ractor.mydomain ovirt-ha-agent[72795]: INFO:ovirt_hosted_engine_ha.agent.agent.Agent:Agent shutting down</div></div><div><br></div><div>Is this sort of known problem or any reason to investigate?</div><div>It seems very strange to have reached this limit</div><div><br></div><div>I presume the agent runs as vdsm user and that the oVirt installation creates the file </div><div>/etc/security/limits.d/99-vdsm.conf<br></div><div><br></div><div>with</div><div><div># This limits are intended for medium VDSM hosts, for large hosts scale these</div><div># numbers appropriately.</div><div><br></div><div># nproc should be the maximum amount of storage operations usage.</div><div># VMs run by &quot;qemu&quot; user, vm processes are not relavent to &quot;vdsm&quot; user limits.</div><div>vdsm - nproc 4096</div><div><br></div><div># nofile should be at least 3(stdin,stdour,stderr) * each external process.</div><div># 3 * 4096 = 12288</div><div>vdsm - nofile 12288</div></div><div><br></div><div>As a rough estimation (over estimation actually , due to many duplicates) I have now:</div><div><div># lsof -u vdsm | wc -l</div><div>488</div></div><div><br></div><div>Anything else to check?</div><div><br></div><div>Gianluca</div><div><br></div></div>