BLOG

Vergessen Sie die Betriebszeit. Eine niedrige MTTR ist die neue 5 9 für die IT

Lori MacVittie Miniaturbild
Lori MacVittie
Veröffentlicht am 30. Mai 2017

Ausfälle sind teuer. Ob sie letztlich die Folge eines Angriffs oder eines Software- bzw. Hardwarefehlers sind, spielt dabei keine so große Rolle. Aufgrund der zunehmenden Abhängigkeit von APIs und Webanwendungen der modernen, digitalen Wirtschaft steigen die Kosten pro Ausfallminute.

Für manche sind diese Kosten enorm. Schätzungen zufolge kosteten die 40 Minuten Ausfallzeit im Jahr 2013 Amazon 2,64 Millionen Dollar. Für diejenigen, die nicht rechnen möchten: Das sind 1.100 US-Dollar pro Sekunde . Wenn Sie das erschreckend finden, denken Sie an Google, dessen 5-minütige Ausfallzeit im selben Jahr sie 109.000 Dollar pro Minute kostete. (oder 1.816,67 US-Dollar pro Sekunde), was die stolze Summe von 545.000 US-Dollar ergibt. 5 Minuten lang. Wenn das alles war, worunter sie zu leiden hatten, dann sind das technisch gesehen die gerühmten „5 9er“, die die IT erreichen muss.

Wie häufig kommt es zu Ausfällen? Offenbar zu oft. Wenn Sie das noch nie gesehen haben, werfen Sie einen Blick auf die Live-Ausfallkarte von Pingdom . Es basiert auf Daten von über 700.000 Benutzern weltweit. Diese makaber und faszinierende Karte zeigt die Stromausfälle der letzten Stunde auf der ganzen Welt. Die hellen Blitze, die Ausfälle anzeigen, sind eine nette Geste; sie machen deutlich, welche Wirkung sie bei den Benutzern erzielen.

Das heißt, eine unerwünschte.

Die digitale Wirtschaft verschärft dieses Problem. Anfang des Jahres legte ein S3-Ausfall bei Amazon eine ganze Reihe von Apps und Websites von Kunden lahm . Aber falls Sie dieses Problem nicht den öffentlichen Cloud-Anbietern zuschreiben, wird ein kurzer Blick auf die Website builtwith.com diesen Glauben schnell ausräumen. Der Prozentsatz der Websites, die CDNs und APIs nutzen, ist möglicherweise alarmierend hoch, wenn man die damit verbundene Abhängigkeit von der Verfügbarkeit anderer berücksichtigt. Es ist schwierig, eine Site zu finden, die nicht auf mindestens eine externe API oder einen externen Dienst angewiesen ist. Dadurch erhöht sich die Möglichkeit von Ausfallzeiten, denn wenn der externe Dienst ausfällt, sind auch Sie ausgefallen.

Im Grunde hat sich die IT auf „5 9er“ festgelegt, da eine Verfügbarkeit von 100 % nicht möglich ist. Angesichts der rasant steigenden Kosten pro Sekunde aufgrund der Verlagerung der Wirtschaft in den digitalen Bereich liegt der Schlüssel heute darin, Ausfallzeiten zu minimieren . Mit anderen Worten: Das Setzen von Zielen, die eine kurze mittlere Zeit bis zur Problemlösung (MTTR) erfordern, ist genauso wichtig – vielleicht sogar wichtiger – als der Versuch, Ausfallzeiten zu vermeiden.

Eine der wichtigsten Kennzahlen für „leistungsstarke Organisationen“ im State of DevOps Report 2016 von Puppet Labs ist die MTTR, definiert als die Zeit, die benötigt wird, um den Dienst wiederherzustellen, wenn ein Dienstvorfall auftritt (z. B. ungeplanter Ausfall oder Dienstbeeinträchtigung). Die leistungsstärksten Organisationen (basierend auf der Bewertung des Berichts) benötigen weniger als eine Stunde, während mittel- und leistungsschwache Organisationen „weniger als einen Tag“ benötigen. „Mit anderen Worten“, heißt es in dem Bericht, „hatten Hochleistungsgeräte eine 24-mal schnellere MTTR als Low-Performer.“

Ihnen wird auffallen, dass die Frage nicht lautete, „ob“ ein Servicevorfall vorliegt. Es war „wenn“ es einen Servicevorfall gab. Man geht davon aus, dass es zu einem Vorfall kommen wird. Der Schlüssel liegt daher darin, die Zeit bis zur Lösung des Problems zu minimieren. Einer Umfrage von IHS aus dem Jahr 2016 zufolge kommt es „im Durchschnitt zu fünf Ausfallzeiten pro Monat und 27 Stunden Ausfallzeit pro Monat“. Diese Kosten betragen für mittelgroße Unternehmen durchschnittlich 1 US-Dollar, für größere Unternehmen bis zu 60 Millionen US-Dollar.

Wenn wir davon ausgehen, dass für Moore und Conway immer noch Murphys Gesetz gilt, besteht die Antwort darin, zu versuchen, die MTTR zu minimieren, um den Zeitaufwand (und die Kosten) zu reduzieren, der mit den unvermeidlichen Ausfallzeiten verbunden ist.

Das heißt, Sichtbarkeit und damit auch Überwachung sind von entscheidender Bedeutung. Sehr viel Überwachung. Aber nicht nur die Website, die Webanwendung oder die API – wir müssen den gesamten Stapel überwachen . Vom Netzwerk über die App-Dienste bis hin zur Anwendung selbst. Das ist etwas, was nicht jeder tut, und wenn doch, dann scheinbar inkonsistent.

alt="atlassian-incident-response"

Denken Sie an die xMatters|Atlassian DevOps Maturity-Umfrage von 2017, in der 50 % der Befragten erklärten, sie „warten, bis die Betriebsabteilung einen schwerwiegenden Vorfall meldet“, bevor sie reagieren. Erschreckende 1/3 der Unternehmen „erfahren von ihren Kunden von Serviceunterbrechungen.“

In einer digitalen Wirtschaft zählt jede Sekunde. Nicht nur, weil es Geld kostet, sondern auch, weil es sich negativ auf künftige Einnahmen auswirkt. Ein sinkender Markenwert und ein sinkendes Vertrauen der Kunden führen zu weniger Käufen und Nutzern und schließlich zu stagnierendem Wachstum. Das ist nicht die Richtung, in die Organisationen gehen sollten.

Die Überwachung ist der erste Schritt zur Erkennung von Problemen, die zu Ausfällen führen. Aber Überwachung allein hilft nicht bei der MTTR. Kommunikation schon. Wenn Sie die betreffenden Beteiligten so früh wie möglich benachrichtigen und ihnen die Informationen geben, die sie zur Behebung des Problems benötigen, können Sie die Zeit bis zur Lösung verkürzen. Das bedeutet, dass das Teilen – eine der vier Hauptsäulen von DevOps – der Schlüssel zur Verbesserung der MTTR ist. Auch wenn Sie andere Aspekte von DevOps noch nicht auf Unternehmensebene berücksichtigen, sollten Sie erwägen, das Teilen zu einer Initiative auf höchster Ebene zu machen. Ob über ChatOps oder E-Mail, eine mobile App oder eine dynamisch aktualisierte Wiki-Seite: Es ist zwingend erforderlich, dass die durch die Überwachung gewonnenen Informationen im gesamten Unternehmen umfassend geteilt werden.

Ein Problem mit einem Switch oder Server mag harmlos erscheinen, wird es jedoch nicht behoben, kann es dazu führen, dass die Hälfte der Dienste, von denen eine kritische Anwendung abhängt, ausfällt. In der 2017 von Viavi durchgeführten Studie „State of the Network“ geben 65 % der Netzwerk- und Systemadministratoren an, dass die größte Herausforderung bei der Behebung von Anwendungsproblemen darin besteht, „festzustellen, ob das Problem durch das Netzwerk, das System oder die Apps verursacht wird“. Eine Möglichkeit, diese Herausforderung zu bewältigen, besteht in einer besseren Transparenz und einer Überwachung des gesamten Stapels. Sie gewährleistet, dass die für die Suche nach der Grundursache Verantwortlichen möglichst viele Informationen über den Status und die Integrität aller Komponenten im Datenpfad zur Hand haben.

Sichtbarkeit ist der Schlüssel zur Zukunft der IT. Ohne sie können wir nicht den Automatisierungsgrad erreichen, der erforderlich ist, um Ausfälle zu beheben, bevor sie auftreten. Ohne Transparenz können wir die MTTR nicht sinnvoll reduzieren. Ohne sie ist ein nachhaltiges Unternehmenswachstum nicht möglich.

Sichtbarkeit sollte ebenso wie Sicherheit eine wichtige Rolle im Strategiestapel spielen, der die IT vorantreibt. Denn Ausfälle passieren, und nur durch Transparenz können sich Unternehmen schnell und effizient davon erholen, ohne dabei ihrer Marke und ihrem Geschäftsergebnis so wenig Schaden wie möglich zuzufügen.