Incident Management Wie sich Teams auf eine Störung vorbereiten können

Autor / Redakteur: Stefan Marx* / Dipl.-Ing. (FH) Hendrik Härter

Auf Störungen und Vorfälle bei Abläufen im IT-Umfeld lässt sich mit dem Incident Management begegnen. Doch worauf kommt es dabei an? Schließlich sollte sich eine beseitigte Störung nicht wiederholen.

Firmen zum Thema

Incident Management: Die IT ist gegenüber Störungen anfällig. Das Entwickler-Team muss sich Gedanken über notwendige Schritte machen. Hier hilft eine strukturierte Vorgehensweise.
Incident Management: Die IT ist gegenüber Störungen anfällig. Das Entwickler-Team muss sich Gedanken über notwendige Schritte machen. Hier hilft eine strukturierte Vorgehensweise.
(Bild: Free-Photos / Pixabay )

Ausfälle können für digitale Unternehmen verheerend sein: Eine Anwendung funktioniert nicht sowie IoT-Geräte oder die Webseite sind nicht erreichbar. Dann verlieren Unternehmen jede Minute Umsatz. In einer modernen Welt der Hochgeschwindigkeits-Anwendungsentwicklung sind Ausfälle eine Frage des Wann, sondern des Ob.

Unternehmen investieren nicht die notwendige Zeit und die notwendigen Ressourcen, um sich auf dieses Ereignis vorzubereiten. Tritt dann die Störung ein, führt das zu panischer, unorganisierter und ineffektiver Reaktion. Abhilfe schaffen Best Practices und die Investition in die notwendigen Tools. Sie stellen sicher, dass jeder Vorfall so schnell wie möglich behoben wird. Außerdem schaffen sich die Möglichkeit, aus Vorfällen zu lernen und in Zukunft widerstandsfähiger zu sein.

Wie genau sieht ein effizienter und effektiver sogenannter Incident-Management-Prozess aus? Welche Schritte müssen unternommen werden, wie sollten Teams zusammenarbeiten und welche Daten sollten zum Einsatz kommen?

Incident Management: Entscheidend, aber umständlich

Entwicklerteams verlassen sich auf viele Tools und Datensätze, um auf Vorfälle – also die Incidents – zu reagieren. Hier reicht die Bandbreite von Metriken über Protokolle bis hin zu Anwendungs-Traces. Auch Chat-, Messaging- und Video-Tools werden von Teams für die Kommunikation genutzt. Aber ein strukturierter Incident-Management-Prozess ist der Rahmen, der alles zusammenhält und Alarmierung, Zusammenarbeit und Dokumentation an einem Ort vereint.

Viele Teams bauen auf komplexe Prozesse und spezialisiertes Wissen weniger Experten, was es schwieriger macht, sich drauf zu einigen, was getan werden muss. Ein effektiver Workflow für das Incident Management sollte etabliert werden, wenn die Systeme reibungslos laufen. Dabei sollte klar sein, welche Informationen benötigt werden, wer für das Reaktionsmanagement verantwortlich ist und wie der Vorfall festgehalten werden kann, um daraus für die Zukunft lernen zu können. Dies erfordert zugängliche Daten, wohlverstandene Rollen und Verantwortlichkeiten sowie klar definierte Kommunikationskanäle – alles im Voraus geplant und dokumentiert – damit der Umgang mit dem Problem nicht mit der eigentlichen Lösung des Problems kollidiert.

Wer muss bei einem Vorfall informiert werden?

Ein ausgelöster Alarm ist in der Regel der Beginn eines Incident-Management-Workflows. Daher müssen sich die Teams Gedanken darüber machen, welche Daten für einen Alarm in Frage kommen. Aber das „Wer" und „Wann" ist genauso wichtig wie das „Was". Die Personen, die alarmiert werden, und der Zeitpunkt, zu dem diese Alarme eskaliert werden, sind genauso wichtig wie der Inhalt des Alarms.

Der richtige Workflow als Reaktion auf einen Vorfall macht die Problembehebung so einfach wie möglich und stellt sicher, dass die richtigen Personen mit den richtigen Informationen alarmiert werden, damit sie auf der Grundlage eines gemeinsamen Informationspools zusammenarbeiten können. Das bedeutet, dass der Alarm und die dazugehörigen Diagramme und Grafiken in kollaborativen Tools zugänglich gemacht werden und der Workflow, durch den der Alarm an die für die Bearbeitung zuständigen Personen gesendet wird, automatisiert wird.

Sobald die entsprechenden Personen alarmiert sind und mit ihrem bevorzugten Messaging- und Kommunikationstool kommunizieren, benötigen sie Zugriff auf alle relevanten Daten – sowohl die aktuellen als auch auf die früherer Incidents sowie der Baseline im ungestörten Regelbetrieb. Teams benötigen die Möglichkeit, Vorfälle nach wichtigen Metadaten zu sortieren, eine chronologische Liste der Aktualisierungen anzuzeigen, die zu dem Problem beitragen, und relevante Kommentare, Kontext und Ergebnisse bereitzustellen.

Mit einem bewährten Satz integrierter Tools, die alle notwendigen Daten an einem Ort zusammenführen, wird diese Art der Zusammenarbeit einfacher und fruchtbarer.

Vorfälle künftig vermeiden

Ist ein Vorfall behoben, dann darf das gleiche Problem nicht noch einmal auftreten. Es müssen alle Maßnahmen ergriffen werden, genau diese Wahrscheinlichkeit zu verringern. Aus diesem Grund sind Dokumentation und Postmortems so wichtig für das Incident Management.

Wenn ein neuer Vorfall mit einem vergangenen Vorfall korreliert, lässt sich herausfinden, ob das Problem bereits bekannt ist. Zu einer ordnungsgemäßen Dokumentation gehören eine Liste von Folgeaufgaben zur Behebung akuter Probleme, feste Pläne zur Aktualisierung von Warnmeldungen, um die gewonnenen Erkenntnisse zu berücksichtigen, und ein detailliertes, öffentliches Postmortem-Dokument, damit jeder in einem Team – und innerhalb des Unternehmens – das Problem besser verstehen und ähnliche Probleme, die möglicherweise an anderer Stelle bestehen, identifizieren kann. Wenn ein ähnlicher Vorfall in der Zukunft auftritt, hat das Team auf diese Weise alle historischen Informationen, die es braucht, an einem Ort.

Berücksichtigt ein Incident-Management-Workflow die beschriebenen Prinzipien, dann ist er effektiver, effizienter und einfacher für Entwicklungsteams. Vor allem spart er Zeit, so dass sich die Teams auf die Entwicklung neuer Produkte und Funktionen konzentrieren können, anstatt sich um auftretende Probleme zu kümmern.

Wer das, was bereits aufgebaut ist, nicht richtig pflegt und wartet, wird nicht in der Lage sein, Neues zu bauen. Ein effizientes Incident Management ist ein wichtiger Weg, um das zu ermöglichen und Freiräume zu schaffen.

* Stefan Marx arbeitet als Director Product Management EMEA bei Datadog.

(ID:47352993)