<div dir="ltr">There're no firewalls to speak of. Things do work as is all the time except when we hear of network activity with router or switch upgrades in some parts that we've got no control of. But our app needs to be resilient to that. Things also work when the entire cluster gets restarted.<div><br></div><div>What must be done to make sure we have a fully formed mesh that can withstand temporary disruptions and heal itself eventually? Should I write something that ensures every node pings every other node in the cluster that's statically configured?</div></div>