5 Waarschuwingssignalen voor een kritieke uitval van apparatuur

Video: APC Smart UPS 2200 PowerChute Business Overzicht Installatie Configuratie Monitoring via SNMP

Inhoud

Wat is MTBF?
routing
schakelaars
Veerkrachtig vermogen
Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen
Beschermde opslag
Servers
MTBF: Het kan ook mislukken

Afhaal:

Het verminderen van downtime door zorgvuldige planning vooraf kan het verschil betekenen tussen bedrijfsgroei en -afname. Dat is waar de gemiddelde tijd tussen mislukking binnenkomt.

Onderschat niet hoeveel bedrijven van vandaag elke dag afhankelijk zijn van kritieke systemen. Daarom is het enige gezond verstand dat een onderneming het risico op uitval van apparatuur kan inschatten. Zonder garanties wanneer een apparaat mogelijk defect raakt, moet er ten minste een nauwkeurige schatting zijn van wanneer het niet langer als betrouwbaar kan worden beschouwd.

Een anders onzichtbaar stuk apparatuur lijkt misschien niet kritisch voor een bedrijf, maar wanneer een enkele koelventilator faalt, zorgt een generator ervoor dat de geest wordt opgegeven, en veroorzaakt tientallen of zelfs honderdduizenden gebruikers dure problemen voor een langere periode, dan kunt u zien dat het van het grootste belang is om te kunnen inschatten welke componenten van uw infrastructuur kunnen falen - en wanneer -. Dat is de gemiddelde tijd tussen fouten (MTBF), de methode waarop IT-professionals vertrouwen om accuraat te zijn ramingen over wanneer kritieke apparatuur faalt. Hier bekijken we wat uiteindelijk een aantal veel voorkomende soorten kritieke apparatuur doodt, en hoe MTBF kan helpen de dag te redden.

Wat is MTBF?

Elk geproduceerd IT-apparaat krijgt een uniek modelnummer. Degenen die een rol spelen in kritieke infrastructuur worden aan klanten geleverd met een MTBF-schatting. De complexe berekeningen om de MTBF voor een apparaat uit te werken, vinden plaats tijdens de lange testfase binnen een onderzoek en ontwikkeling van producten en zijn relatief specifiek voor een bepaald model.

Als u op zoek bent naar de MTBF voor een bepaald apparaat, vindt u deze in het gedetailleerde specificatieblad dat door de fabrikant wordt geleverd. U kunt ook rechtstreeks contact opnemen met de fabrikant.

routing

Een enterprise-grade router bevat veel onderdelen, sommige bewegende en andere statische. Voedingseenheden (PSU) en koelventilatoren hebben beide bewegende delen, en die elementen die de neiging hebben om defecten te veroorzaken, vooral als de eenheid niet in een relatief stofvrij datacenter is ondergebracht. Gelukkig zullen de meeste routers met wat beheerderinvoer rapporteren aan een SysLog faciliteit, zodat defecte componenten kunnen worden gemarkeerd.

schakelaars

In dezelfde geest is het volgende niveau binnen een bedrijfsnetwerk de schakelhardware. Hoewel switches van enterprise-kwaliteit ook afhankelijk zijn van fans, zijn er meestal minder dan die in een routerchassis. Als de ventilerende mechanismen van de fans intact zijn, zal een defecte schakelaar zich meestal niet goed gedragen op het niveau van de software, hetzij door onverwacht een schakelpoort uit te schakelen, of, vaker, ongewoon gedrag vertonen zoals het laten vallen van pakketten, variërende niveaus van verkeersverstoring, of onjuist veranderend door de gebruiker gedefinieerde instellingen zonder hierom te worden gevraagd.

Het netwerk kolossale Cisco adverteert een van zijn routers met een MTBF van 188.574 uur voor het Cisco Catalyst 3750G-24TS-model. Als we dat delen door 8,765,81277 (het aantal uren in een jaar), zien we dat dit model een MTBF-schatting heeft van ongeveer 21,5 jaar. Dat cijfer is geruststellend als u bedenkt dat deze apparatuur 24/7 zonder fouten goed moet presteren, hoewel het in werkelijkheid natuurlijk gewoon een indicatie is van de betrouwbaarheid. Toch geeft het gebruikers een weloverwogen gok over hoe lang dit apparaat naar verwachting zal meegaan.

Veerkrachtig vermogen

Uninterruptible power supplies (UPS) aangesloten op een groot aantal batterijen kunnen tijdens de korte periode back-upstroom leveren binnen de onderneming voordat generatoren draaien tijdens een stroomstoring. Bepaalde specifieke softwarefouten kunnen zich voordoen binnen een UPS, net als bij elk ander apparaat, maar in het algemeen zullen de batterijen waaruit ze stroom putten meestal de meeste zorgen baren. Als een UPS-batterij vaak wordt uitgeschakeld en opnieuw wordt opgeladen, neemt de capaciteit sneller af en wordt de gebruiksduur aanzienlijk korter. Het is niet verwonderlijk dat UPS-batterijen ook volledig uitvallen. Een UPS kan via modems en netwerken rapporteren wanneer zich fouten voordoen, maar vaker wel dan niet zullen oudere UPS'en hoorbare alarmen activeren wanneer er zich een probleem voordoet.

Geen bugs, geen stress - Uw stapsgewijze handleiding voor het creëren van levensveranderende software zonder uw leven te vernietigen

U kunt uw programmeervaardigheden niet verbeteren als niemand om softwarekwaliteit geeft.

Beschermde opslag

De harde schijven die we vandaag de dag gebruiken en waar we zo op vertrouwen, zijn de afgelopen tien jaar aanzienlijk betrouwbaarder geworden. Ze zijn echter verre van onfeilbaar en, afhankelijk van welke studie je misschien gelooft, lijken ze voor een langere periode correct te functioneren, afhankelijk van een aantal factoren. (Een goed advies hierover vindt u hier op The Remarketer.) Als gedetailleerde rapportage is ingeschakeld en de schijf feedback geeft over fouten, dan zijn corrupte sectoren en lees- / schrijffouten de sleutel tot het ontdekken wanneer een schijf in een opslagarray faalt. Een ander veel voorkomend probleem bij servers die meerdere schijven gebruiken die op een RAID-controller zijn aangesloten, is dat de controller zelf faalt. Helaas stoppen soms harde schijven gewoon zonder enige waarschuwing, een probleem dat moeilijk te beschermen is.

Servers

Afgezien van de schijven die zijn ingebouwd in servers en de bewegende delen, zoals de bovengenoemde koelventilatoren en PSU's, kunnen er ook een aantal problemen optreden binnen de hardwarecomponenten van servers. Rapportage op softwareniveau (dat meestal verwijst naar het BIOS of andere low-level hardware componentdiagnostiek) is van cruciaal belang om te achterhalen wanneer dingen zijn mislukt of, nog belangrijker, tekenen van falen vertonen. Een probleem dat misschien niet meteen duidelijk is, is dat wat van invloed is op moederborden. Het is volkomen logisch dat machines niet van hitte houden. Maar zelfs vandaag de dag kunnen er, als een moderne printplaat wordt blootgesteld aan een snel warmteverlies - of van zeer heet wordt naar plotseling koud worden - barsten verschijnen, waardoor de kaart rampzalig faalt. Het is een probleem om in gedachten te houden, vooral als je apparatuur tussen gebouwen verplaatst binnen een tijdloos onderhoudsvenster.

MTBF: Het kan ook mislukken

Even nuttig als MTBF-voorspellingen zijn belangrijk om de aanvaardbare risiconiveaus te berekenen met alle apparatuur waarop een bedrijf moet vertrouwen. Helaas is de enige concrete manier om de beschikbaarheid van de apparatuur die met kritieke systemen werkt, zelfs met alle statistische garanties van fabrikanten, te verdubbelen om een time-out failover mogelijk te maken.

Elk afzonderlijk stuk hardware dat in de onderneming wordt gebruikt, bestaat uit veel verschillende componenten, dus de echte MTBF is verre van een triviale berekening. Het is duidelijk van cruciaal belang om de toekomst van een bedrijf niet op deze waarschijnlijkheidsmetingen te laten rusten, maar ze in plaats daarvan als maatstaf te gebruiken om weloverwogen beslissingen te nemen met betrekking tot bedrijfscontinuïteit en procedures voor noodherstel. Het verminderen van downtime door zorgvuldige planning vooraf kan immers het verschil betekenen tussen een succesvol bedrijf en een bedrijfsfaillissement.