<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--

/* Font Definitions */

@font-face

        {font-family:"Cambria Math";

        panose-1:2 4 5 3 5 4 6 3 2 4;}

@font-face

        {font-family:Calibri;

        panose-1:2 15 5 2 2 2 4 3 2 4;}

/* Style Definitions */

p.MsoNormal, li.MsoNormal, div.MsoNormal

        {margin:0cm;

        margin-bottom:.0001pt;

        font-size:11.0pt;

        font-family:"Calibri",sans-serif;

        mso-fareast-language:EN-US;}

a:link, span.MsoHyperlink

        {mso-style-priority:99;

        color:#0563C1;

        text-decoration:underline;}

a:visited, span.MsoHyperlinkFollowed

        {mso-style-priority:99;

        color:#954F72;

        text-decoration:underline;}

span.E-MailFormatvorlage17

        {mso-style-type:personal-compose;

        font-family:"Calibri",sans-serif;

        color:windowtext;}

.MsoChpDefault

        {mso-style-type:export-only;

        font-family:"Calibri",sans-serif;

        mso-fareast-language:EN-US;}

@page WordSection1

        {size:612.0pt 792.0pt;

        margin:70.85pt 70.85pt 2.0cm 70.85pt;}

div.WordSection1

        {page:WordSection1;}

--></style><!--[if gte mso 9]><xml>

<o:shapedefaults v:ext="edit" spidmax="1026" />

</xml><![endif]--><!--[if gte mso 9]><xml>

<o:shapelayout v:ext="edit">

<o:idmap v:ext="edit" data="1" />

</o:shapelayout></xml><![endif]--></head><body lang=DE link="#0563C1" vlink="#954F72"><div class=WordSection1><p class=MsoNormal>Hi All, <o:p></o:p></p><p class=MsoNormal><o:p>&nbsp;</o:p></p><p class=MsoNormal><span lang=EN-US>I&#8217;m experiencing huge issues when working with big VMs on Gluster volumes. Doing a Snapshot or removing a big Disk lead to the effect that the SPM node is getting non responsive. Fencing is than kicking in and taking the node down with the hard reset/reboot. <o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p>&nbsp;</o:p></span></p><p class=MsoNormal><span lang=EN-US>My setup has three nodes with 10Gbit/s NICs for the Gluster network. The Bricks are on Raid-6 with a 1GB cache on the raid controller and the volumes are setup as follows:<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p>&nbsp;</o:p></span></p><p class=MsoNormal><span lang=EN-US>Volume Name: data<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Type: Replicate<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Volume ID: c734d678-91e3-449c-8a24-d26b73bef965<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Status: Started<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Snapshot Count: 0<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Number of Bricks: 1 x 3 = 3<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Transport-type: tcp<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Bricks:<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Brick1: ovirt-node01-gfs.storage.lan:/gluster/brick2/data<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Brick2: ovirt-node02-gfs.storage.lan:/gluster/brick2/data<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Brick3: ovirt-node03-gfs.storage.lan:/gluster/brick2/data<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Options Reconfigured:<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>features.barrier: disable<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.granular-entry-heal: enable<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.readdir-ahead: on<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.quick-read: off<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.read-ahead: off<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.io-cache: off<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.stat-prefetch: on<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.eager-lock: enable<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>network.remote-dio: off<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.quorum-type: auto<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.server-quorum-type: server<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>storage.owner-uid: 36<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>storage.owner-gid: 36<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>features.shard: on<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>features.shard-block-size: 512MB<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.low-prio-threads: 32<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.data-self-heal-algorithm: full<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.locking-scheme: granular<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.shd-wait-qlength: 10000<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>cluster.shd-max-threads: 6<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>network.ping-timeout: 30<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>user.cifs: off<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>nfs.disable: on<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>performance.strict-o-direct: on<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>server.event-threads: 4<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>client.event-threads: 4<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p>&nbsp;</o:p></span></p><p class=MsoNormal><span lang=EN-US>It feel like the System looks up during snapshotting or removing of a big disk and this delay triggers things to go wrong. Is there anything that is not setup right on my gluster or is this behavior normal with bigger disks (50GB+) ? Is there a reliable option for caching with SSDs ?<o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US><o:p>&nbsp;</o:p></span></p><p class=MsoNormal><span lang=EN-US>Thank you, <o:p></o:p></span></p><p class=MsoNormal><span lang=EN-US>Sven </span><o:p></o:p></p></div></body></html>