Falende technologie

In twintig procent van de gevallen is hardware en niet software de oorzaak van niet geplande uitval. Falende technologie kunnen op een aantal punten worden voorkomen door het elimineren van single points of failure. Een techniek die daarvoor in aanmerking komt is bijvoorbeeld het dubbel uitvoeren van componenten met een korte levensduur, zoals voedingen, harde schijven en netwerkinterfaces. Daarnaast is het mogelijk om kritische systemen, zoals netwerkswitches redundant uit te voeren of redundantie te realiseren door het clusteren van systemen. Tegen uitval van een gehele locatie kan men zich beschermen door het opzetten van uitwijkfaciliteiten.

Gouden regel #1:	Ontwerp systemen zodanig, dat een failover nooit noodzakelijk is.

Gouden regel #2:	Data is vitaal voor een bedrijf.

Gouden regel #3:	High Availability wordt niet bereikt door alleen failoversoftware te installeren en daarna nooit meer naar een systeem om te kijken.

Gouden regel #4:	Probeer de kosten, veroorzaakt door unplanned downtime, in te schatten. Dit geeft een indicatie van het budget dat een bedrijf reëel gezien heeft om unplanned downtime te voorkomen.

Falende processen

De overige 80% van niet-geplande uitval wordt veroorzaakt door menselijke fouten (40%) en het falen van processen (40%). Bekende oorzaken van falende processen zijn het ontbreken of onjuist toepassen van incident- en wijzigings-beheer, het niet op de juiste manier veiligstellen van gegevens en het niet toepassen van Best Practices.

Door meer procesgericht te gaan werken, procedures te documenteren, deze te bewaken en vakbekwame mensen te betrekken bij het inrichten van systemen en bij het opstellen van procedures, kunnen falende processen en systemen worden voorkomen.

Het optreden van menselijke fouten is te beperken door zoveel mogelijk routinematige processen te automatiseren en door gebruik te maken van wijzigings- en incidentbeheer, gericht op infrastructuur en programmatuur. Daarnaast is het erg belangrijk om gebruikers en beheerders goed op te leiden, te coachen en zorg te dragen voor vervangbaarheid. Het beheer van systemen mag niet persoonsafhankelijk zijn, anders worden deze systemen single points of failure.

Tussen beheerders en processen bestaat een relatie:

“naarmate processen beter beschreven zijn, worden de vaardigheden van mensen minder belangrijk”.

En andersom:

“hoe beter de vaardigheden van mensen, hoe minder (beschreven) processen noodzakelijk zijn”.

Geen van beide extreme situaties, geen processen of geen beheerders, is wenselijk. Ergens daartussenin dient de balans gevonden te worden.

« terug naar Availability Adventure