Ausfallzeit

Der Begriff Ausfallzeit wird verwendet, um sich auf Perioden zu beziehen, in denen ein System nicht verfügbar ist.

Das Nichtverfügbarkeit ist der Anteil einer Zeitspanne, die a System ist nicht verfügbar oder offline. Dies ist normalerweise ein Ergebnis des Systems nicht funktionieren wegen eines ungeplanten Ereignisses oder wegen Routine Wartung (eine geplante Veranstaltung).

Der Begriff wird üblicherweise an angewendet Netzwerke und Server. Die häufigen Gründe für ungeplante Ausfälle sind Systemfehler (wie z. Absturz) oder Kommunikationsfehler (allgemein bekannt als Netzwerkausfall).

Der Begriff wird auch häufig in industriellen Umgebungen in Bezug auf Misserfolge in der industriellen Produktionsausrüstung angewendet. Einige Einrichtungen messen die Ausfallzeiten, die während einer Arbeitsverschiebung oder während eines Zeitraums von 12 oder 24 Stunden entstanden sind. Eine weitere übliche Praxis besteht darin, jedes Ausfallzeitereignis als operativen, elektrischen oder mechanischen Ursprung zu identifizieren.

Das Gegenteil von Ausfallzeiten ist Betriebszeit.

Typen

Branchenstandards für den Begriff "Ausfalldauer" oder "Wartungsdauer" können unterschiedliche Einweihung und Fertigstellung haben. Daher sollte die folgende Klärung verwendet werden, um Konflikte in der Vertragsausführung zu vermeiden:

  1. "Turnkey" Dies ist das faszinierendste aller Ausfalltypen. Der Ausfall oder die Wartung beginnt mit Betreiber der Anlage oder Geräte, die die Herunterfahren oder Stopptaste drücken, um einen Stillstand in Betrieb zu nehmen. Sofern nicht anders angegeben, wird Ausfall oder Wartung als abgeschlossen angesehen, wenn das Werk oder die Ausrüstung wieder im normalen Betrieb ist, um mit der Herstellung zu beginnen oder bereit zu sein, mit System oder Gitter synchronisiert oder bereit, Aufgaben als Pumpe oder Kompressor auszuführen.
  2. "Breaker to Breaker" Dieser Ausfall oder Wartung beginnt mit Bediener des Werks oder der Ausrüstung, die den Stromkreis (Hauptstromschalter bei "Off" oder "Entlastet" oder "On-Cooldown") entfernen, nicht die Steuerung des Betriebs. Dies würde immer noch ermöglichen, dass die Geräte abgekühlt oder zur Umgebung gebracht werden, sodass Ausfall-/Wartungsarbeiten erstellt oder eingeleitet werden können. Abhängig von den Ausrüstungstypen kann der "Breaker to Breaker" -Firschen vorteilhaft sein, wenn die Vertragsbeschaffung im Zusammenhang mit der Wartung von Kontrollen ausgeführt wird, da diese Art der Wartungsarbeiten ausgeführt werden kann, während sich die Hauptgeräte noch abkühlt oder auf Standby-Zeit befinden. Sofern nicht anders angegeben, wird diese Art von Ausfall als vollständig angesehen, wenn der Stromkreis durch Einbeziehung des Kraftschalters wieder aufgenommen wird.
  3. "Vollendung von Lock-out/Tag-out"Dieser Ausfall oder Wartung (manchmal für" außerhalb des Kooldowns "verwechselt, aber nicht dasselbe) beginnt mit dem Betreiber der Anlage oder der Ausrüstung, die den Stromkreis entfernen, den Steuerungskreis entlassen und eine andere Neutralisation potenzieller Leistung und Gefahrenquellen durchführen (typischerweise als Sperre bezeichnet -Out, Tag-out "Loto") Dieser Punkt der Wartungsphase ist in der Regel die letzte Phase der Ausfallinitiationsphase, bevor die tatsächlichen Arbeiten an der Einrichtung, Anlage oder Ausrüstung beginnt. Sicherheitsbesprechung sollte immer der LOODO-Aktivität folgen, bevor irgendwelche Arbeiten sind durchgeführt. Sofern nicht anders angegeben, wird diese Art von Ausfall als vollständig angesehen, wenn die Ausrüstung mechanische Fertigstellung erreicht hat und bereit ist, für viele schwere rotierende Geräte, Beulen-Test- oder Rotationsprüfung auf Motoren usw. aufzulegen, muss jedoch folgen, muss jedoch folgen Rückgabe- oder Arbeitserlaubnis pro LOTO -Verfahren.

Alle erforderlichen Online-Tests, Leistungstests und -stimmungen sollten nicht zur Ausfalldauer zählen, da diese Aktivitäten normalerweise nach Abschluss des Ausfalls oder Wartungsereignisses durchgeführt werden und die meisten Wartungsunternehmer außer Kontrolle geraten.

Eigenschaften

Ungeplante Ausfallzeiten können das Ergebnis einer Fehlfunktion der Geräte usw. sein.

Telekommunikationsausfallklassifikationen

Ausfallzeiten können durch Ausfall in Hardware (physische Ausrüstung), (logische Steuerungsausrüstung), Verbindungsgeräte (wie Kabel, Einrichtungen, Router, ...), Übertragung (drahtlos, Mikrowelle, Satelliten) und/oder Kapazität (System (System) verursacht werden. Grenzen).

Die Ausfälle können aufgrund von Schäden, Ausfällen, Design, Verfahren (unsachgemäße Verwendung durch Menschen), Engineering (Verwendung und Bereitstellung), Überlastung (Verkehr oder Systemressourcen, die über die entworfenen Grenzen hinaus gestresst werden), Umgebung (Unterstützungssysteme wie Power und HLK) auftreten können. , (Ausfälle, die für einen Zweck wie Software -Upgrades und Gerätewachstum in das System entwickelt wurden), andere (keine der oben genannten, aber bekannten) oder unbekannt.

Die Ausfälle können in der Verantwortung des Kunden/Dienstleistungsanbieters, des Lieferanten/Lieferanten, des Versorgungsunternehmens, der Regierung, des Auftragnehmers, des Endkunden, des öffentlichen Individuums, des Naturgesetzes, eines anderen (keiner der oben genannten, aber bekannten) oder Unbekannten liegen.

Einfluss

Ausfällen, die durch Systemausfälle verursacht werden, können ernsthafte Auswirkungen auf die Benutzer von Computer-/Netzwerksystemen haben, insbesondere auf die Branchen, die sich auf einen fast 24-Stunden-Dienst stützen:

Auch betroffen kann die Benutzer von einem sein ISP und andere Kunden eines Telekommunikationsnetzes.

Unternehmen können aufgrund eines Netzwerkausfalls das Geschäft verlieren oder einen Vertrag in Verzug bringen, was zu finanziellen Verlusten führt. Entsprechend Veeam 2019 Cloud Data Management Reports-Organisationen begegnen durchschnittlich 5-10-mal pro Jahr, wobei die durchschnittlichen Kosten einer Stunde Ausfallzeit 102.450 US-Dollar beträgt.[1]

Menschen oder Organisationen, die von Ausfallzeiten betroffen sind, können sensibler für bestimmte Aspekte sein:

  • Einige sind stärker von der Länge eines Ausfalls betroffen - es ist ihnen wichtig, wie viel Zeit es braucht, um sich von einem Problem zu erholen
  • Andere reagieren empfindlich gegenüber dem Zeitpunkt eines Ausfalls - Ausfälle während der Spitzenzeiten betreffen sie am meisten

Die anspruchsvollsten Benutzer sind diejenigen, die erfordern hohe Verfügbarkeit.

Berühmte Ausfälle

An Muttertag, Sonntag, 8. Mai 1988, brach ein Feuer im Hauptschaltraum des Hinsdale Central Office der Hauptschaltanlage aus Illinois Bell Telefonunternehmen. Einer der größten Umschalten Systeme im Bundesstaat, die Einrichtung verarbeitete täglich mehr als 3,5 Millionen Anrufe, während er 38.000 Kunden betreute, darunter zahlreiche Unternehmen, Krankenhäuser sowie Flughäfen von O'Hare und Midway.[2]

Praktisch das gesamte AT&T Netzwerk von 4ES Toll Tandems Switches gingen am 15. Januar 1990 immer wieder in den Dienst und störten den Langstreckendienst für die gesamten Vereinigten Staaten. Das Problem löste sich von sich aus, als sich der Verkehr verlangsamte. Es wurde ein Softwarefehler gefunden.[3]

AT & T verlor seine Rahmenrelais Netzwerk für 26 Stunden am 13. April 1998.[4] Dies betroffene viele tausend Kunden, und Banktransaktionen waren ein Opfer. AT & T hat das nicht getroffen Service -Level -Vereinbarung bei ihren Verträgen mit Kunden und mussten erstatten[5] 6.600 Kundenkonten, kostet Millionen von Dollar.

XBox Live hatte zeitweise Ausfallzeiten in der Ferienzeit 2007–2008, die dreizehn Tage dauerte.[6] Die gestiegene Nachfrage von Xbox 360-Käufern (die größte Anzahl neuer Benutzeranmeldungen in der Geschichte von Xbox Live) wurde als Grund für die Ausfallzeit angegeben. Um die Serviceprobleme zu ändern, bot Microsoft ihren Benutzern die Möglichkeit, ein kostenloses Spiel zu erhalten.[7]

Sony's PlayStation Network April 2011 Ausfallbegann am 20. April 2011 und wurde am 14. Mai 2011 nach und nach wiederhergestellt Vereinigte Staaten. Dieser Ausfall ist die längste Zeit, in der die PSN seit seiner Gründung im Jahr 2006 offline war. Sony hat festgestellt, dass das Problem durch ein externes Eindringen verursacht wurde, der zur Beschlagnahme persönlicher Daten führte. Sony berichtete am 26. April 2011, dass eine große Menge an Benutzerdaten durch denselben Hack erhalten wurde, der zu Ausfallzeiten führte.[8]

TelstraDer Ryde -Switch ist Ende 2011 fehlgeschlagen, nachdem Wasser in die elektrische Schaltplatte eingerichtet war, weil er das nasses Wetter fortsetzte. Der Ryde -Switch ist einer der größten in Australien von Flächenschaltern und betroffene mehr als 720.000 Dienste.[9]

Das Miami Das DataCenter of Serveraxis wurde am 29. Februar 2016 unangekündigt und wurde nie wiederhergestellt. Dies wirkte sich auf mehrere Anbieter und Hunderte von Websites aus. Der Ausfall beeinflusste die Berichterstattung der 2016 NCAA Women's Division I Basketballturnier Als WBBState, eines der betroffenen Standorte, war mit Abstand der umfassendste Anbieter von Basketballstatistiken für Frauen.[10]

Roblox, bis zum Roblox Corporation hatte einen Ausfall um Oktober 2021 während ihrer Chipotle Vorfall. Viele Benutzer dachten, es sei an der Veranstaltung, weil es einen massiven Empfang erhielt, da Benutzer während dessen einen kostenlosen Chipotle Burrito erhalten konnten. Der Ausfall war Roblox 'größte Ausfallzeit und dehnte sich 3 ganze Tage lang.[11][12][13]

Am 8. Juli 2022 erlitt Rogers a Großer landesweiter Ausfall in Kanada. Dies wirkte sich gleichzeitig auf das Handy und den Internetzugang aus, was zu 911 -Anrufen, Interbank -Transaktionen scheiterte und auch staatliche Dienste störte.

Service Levels

Im Service Level AgreementsEs ist üblich, einen prozentualen Wert (pro Monat oder pro Jahr) zu erwähnen, der durch Teilen der Summe aller Ablaufzeiten durch die Gesamtzeit einer Referenzzeitspanne (z. B. pro Monat) berechnet wird. 0% Ausfallzeiten bedeutet, dass der Server ständig verfügbar war.

Für Internet -Server können Ablaufzeiten über 1% pro Jahr oder schlechter als inakzeptabel angesehen werden, da dies eine Ausfallzeit von mehr als 3 Tagen pro Jahr bedeutet. Für E-Commerce und andere industrielle Verwendung werden ein Wert von über 0,1% normalerweise als inakzeptabel angesehen.[14]

Reaktion und Verringerung der Wirkung

Es ist die Pflicht des Netzwerkdesigners, sicherzustellen, dass ein Netzwerkausfall nicht stattfindet. Wenn dies geschieht, wird ein gut gestaltetes System die Auswirkungen eines Ausfalls durch lokalisierte Ausfälle weiter verringern, die so bald wie möglich erkannt und fixiert werden können.

Ein Prozess muss vorhanden sein, um eine Fehlfunktion zu erkennen - Netzwerküberwachung - und um das Netzwerk in eine Arbeitsbedingung wiederherzustellen - dies beinhaltet im Allgemeinen a Beratungsstelle Team, das kann Fehlerbehebung ein Problem, das aus geschulten Ingenieuren besteht; Ein separates Helpdesk -Team ist in der Regel erforderlich, um die Eingabe von Benutzern zu Feldnutzern zu erhalten, was besonders während einer Ausfallzeit anspruchsvoll sein kann.

A Netzwerk Management Das System kann verwendet werden, um fehlerhafte oder abbauende Komponenten vor Kundenbeschwerden mit proaktiver Fehlerberechnung zu erkennen.

Risikomanagement Techniken können verwendet werden, um die Auswirkungen von Netzwerkausfällen auf eine Organisation zu bestimmen und welche Maßnahmen möglicherweise erforderlich sind, um das Risiko zu minimieren. Das Risiko kann durch die Verwendung zuverlässiger Komponenten durch Durchführung von Wartung wie Upgrades durch Verwendung minimiert werden redundante Systeme oder durch eine Notfallplan oder Geschäftskontinuitätsplan. Technische Mittel können Fehler mit reduzieren Fehlerkorrekturcodes, Übertragung, Überprüfungen, oder Diversity -Schema.

Eine der größten Ursachen für Ausfallzeiten ist eine Missverständnis, bei der eine geplante Änderung schief geht. In der Regel verlassen sich Unternehmen auf manuelle Anstrengungen, um den Prozess der Konfigurationssicherungen zu verwalten. Dies erfordert jedoch hochqualifizierte Ingenieure, um den Prozess über ein Mehrwerkernetzwerk hinweg zu verwalten. Für die Verwaltung von Backups stehen Automatisierungstools zur Verfügung. Es gibt jedoch nur sehr wenige Lösungen, die die Konfigurationswiederherstellung verarbeiten, um die Gesamtwirkung des Ausfalls zu minimieren.[15]

Planung

Ein geplanter Ausfall ist das Ergebnis einer geplanten Aktivität des Systembesitzers und/oder von a Dienstleister. Diese Ausfälle, oft während der geplant Wartungsfensterkann verwendet werden, um Aufgaben einschließlich der folgenden Ausführung auszuführen:

  • Aufgeschobene Wartung, z. B. eine aufgeschobene Hardwarereparatur oder ein aufgeschobener Neustart, um einen verstümmelten Speicher zu beseitigen
  • Diagnostik zur Isolierung eines erkannten Fehlers
  • Hardwarefehlerreparatur
  • Beheben eines Fehlers oder einer Auslassung in einer Konfigurationsdatenbank oder Operation in einer kürzlich durchgeführten Änderung der Konfigurationsdatenbank
  • Beheben eines Fehlers in der Anwendungsdatenbank oder einem Fehler in einer kürzlich durchgeführten Änderung der Anwendungsdatenbank
  • Software -Patching/Software -Updates zum Beheben eines Softwarefehlers.

Ausfälle können auch als Ergebnis eines vorhersehbaren natürlichen Ereignisses geplant werden, wie z. Sonnenausfall.

Wartungsabgänge müssen in Branchen sorgfältig geplant werden, die auf Computersysteme stützen. In vielen Fällen können systemweite Abschwindigkeiten mithilfe eines sogenannten "Rolling -Upgrade" abgewendet werden - der Prozess des inkrementellen Abbaus von Teilen des Systems zum Upgrade, ohne die Gesamtfunktionalität zu beeinflussen.

Vermeidung

Für die meisten Websites, Website -Überwachung ist verfügbar. Die Website -Überwachung (synthetisch oder passiv) ist ein Dienst, der "Ausfallzeiten" und Benutzer auf der Website überwacht.

Andere Verwendung

Ausfallzeiten können sich auch auf die Zeit beziehen, wenn Humankapital oder andere Vermögenswerte sinken. Wenn sich Mitarbeiter beispielsweise in Besprechungen befinden oder ihre Arbeit aufgrund einer weiteren Einschränkung nicht ausführen können, sind sie gesunken. Dies kann gleichermaßen teuer sein und das Ergebnis eines anderen Vermögenswerts (d. H. Computer/Systeme) sein. Dies ist auch allgemein bekannt als "Todeszeit".

Ausfallzeiten werden auch im persönlichen Sinne verallgemeinert und verwendet, um sich auf eine Zeit von zu beziehen schlafen oder Erholung.[16][17][18]

Dieser Begriff wird auch in Fabriken oder industriellen Gebrauch verwendet. Sehen Gesamt produktive Wartung (TPM).

Ausfallzeit messen

Es gibt viele externe Dienste, mit denen die Verfügbarkeit und Ausfallzeit sowie die Verfügbarkeit eines Dienstes oder eines Hosts überwacht werden können.

Siehe auch

Verweise

  1. ^ "2021 Datenschutz Trends Executive Brief". Veeam -Software.
  2. ^ Neumann, Peter G. (11. Mai 1988). "Die Risiken verdauen". Die Risiken verdauen. 6 (82) - via catless.ncl.ac.uk.
  3. ^ "Der Absturz des AT & T -Netzwerks im Jahr 1990".
  4. ^ "Verhindern von IP -Netzwerkdienstenausfällen" (PDF). Agilent Technologies.
  5. ^ Neumann, Peter G. (7. Mai 1998). "Die Risiken verdauen". Die Risiken verdauen. 19 (72) - via catless.ncl.ac.uk.
  6. ^ "Tag 13 des Xbox -Ausfalls". Engadget. 2008-01-03. Abgerufen 2011-04-27.
  7. ^ Microsoft bietet kostenloses Spiel für Xbox Live -Urlaubsprobleme an. PC Welt, 4. Januar 2008.
  8. ^ "Wiederherstellung von PlayStation®Network und Qriocity Services beginnt". Sony Group Portal - Sony Global Headquarters. Abgerufen 2021-10-22.
  9. ^ Sätze, Datenbank von. "Egresses in einem Satz | Beispiele für Satz mit Egressierten". dbSentces.com. Abgerufen 2021-10-22.
  10. ^ Eine Website ging offline und nahm den größten Teil der Frauen -College -Basketballanalyse mit Fivethirtyeight
  11. ^ "Die Server von Roblox sind wieder online [Update]". 29. Oktober 2021.
  12. ^ "Ist Roblox nach unten? Warum funktioniert die Gaming -Plattform heute nicht mit Tausenden von Benutzern, die Anmeldeprobleme melden?". Msn.
  13. ^ "Roblox war das ganze Wochenende unten und nicht wegen Chipotle". 30. Oktober 2021.
  14. ^ Cohen, Gad. "Ausfallzeiten, Ausfälle und Misserfolge - Verständnis ihrer wahren Kosten". www.evolven.com. Abgerufen 2021-10-22.
  15. ^ "Warum Maschinenausfallverfolgung von Bedeutung?". Evokon. 10. September 2018. Abgerufen 2021-10-22.
  16. ^ "Ruhe & Entspannung: Warum" Ausfallzeit "für Kinder wichtig ist". 19. September 2016.
  17. ^ "Die Bedeutung der Planung von Ausfallzeiten". 25. August 2008.
  18. ^ "Welcher Schlafmangel macht dir den Kopf". Viele Menschen schlafen einfach als Luxus - eine kleine Ausfallzeit.