Auf Störungen und Vorfälle bei Abläufen im IT-Umfeld lässt sich mit dem Incident Management begegnen. Doch worauf kommt es dabei an? Schließlich sollte sich eine beseitigte Störung nicht wiederholen.
Incident Management: Die IT ist gegenüber Störungen anfällig. Das Entwickler-Team muss sich Gedanken über notwendige Schritte machen. Hier hilft eine strukturierte Vorgehensweise.
Ausfälle können für digitale Unternehmen verheerend sein: Eine Anwendung funktioniert nicht sowie IoT-Geräte oder die Webseite sind nicht erreichbar. Dann verlieren Unternehmen jede Minute Umsatz. In einer modernen Welt der Hochgeschwindigkeits-Anwendungsentwicklung sind Ausfälle eine Frage des Wann, sondern des Ob.
Unternehmen investieren nicht die notwendige Zeit und die notwendigen Ressourcen, um sich auf dieses Ereignis vorzubereiten. Tritt dann die Störung ein, führt das zu panischer, unorganisierter und ineffektiver Reaktion. Abhilfe schaffen Best Practices und die Investition in die notwendigen Tools. Sie stellen sicher, dass jeder Vorfall so schnell wie möglich behoben wird. Außerdem schaffen sich die Möglichkeit, aus Vorfällen zu lernen und in Zukunft widerstandsfähiger zu sein.
Wie genau sieht ein effizienter und effektiver sogenannter Incident-Management-Prozess aus? Welche Schritte müssen unternommen werden, wie sollten Teams zusammenarbeiten und welche Daten sollten zum Einsatz kommen?
Incident Management: Entscheidend, aber umständlich
Entwicklerteams verlassen sich auf viele Tools und Datensätze, um auf Vorfälle – also die Incidents – zu reagieren. Hier reicht die Bandbreite von Metriken über Protokolle bis hin zu Anwendungs-Traces. Auch Chat-, Messaging- und Video-Tools werden von Teams für die Kommunikation genutzt. Aber ein strukturierter Incident-Management-Prozess ist der Rahmen, der alles zusammenhält und Alarmierung, Zusammenarbeit und Dokumentation an einem Ort vereint.
Viele Teams bauen auf komplexe Prozesse und spezialisiertes Wissen weniger Experten, was es schwieriger macht, sich drauf zu einigen, was getan werden muss. Ein effektiver Workflow für das Incident Management sollte etabliert werden, wenn die Systeme reibungslos laufen. Dabei sollte klar sein, welche Informationen benötigt werden, wer für das Reaktionsmanagement verantwortlich ist und wie der Vorfall festgehalten werden kann, um daraus für die Zukunft lernen zu können. Dies erfordert zugängliche Daten, wohlverstandene Rollen und Verantwortlichkeiten sowie klar definierte Kommunikationskanäle – alles im Voraus geplant und dokumentiert – damit der Umgang mit dem Problem nicht mit der eigentlichen Lösung des Problems kollidiert.
Wer muss bei einem Vorfall informiert werden?
Ein ausgelöster Alarm ist in der Regel der Beginn eines Incident-Management-Workflows. Daher müssen sich die Teams Gedanken darüber machen, welche Daten für einen Alarm in Frage kommen. Aber das „Wer" und „Wann" ist genauso wichtig wie das „Was". Die Personen, die alarmiert werden, und der Zeitpunkt, zu dem diese Alarme eskaliert werden, sind genauso wichtig wie der Inhalt des Alarms.
Der richtige Workflow als Reaktion auf einen Vorfall macht die Problembehebung so einfach wie möglich und stellt sicher, dass die richtigen Personen mit den richtigen Informationen alarmiert werden, damit sie auf der Grundlage eines gemeinsamen Informationspools zusammenarbeiten können. Das bedeutet, dass der Alarm und die dazugehörigen Diagramme und Grafiken in kollaborativen Tools zugänglich gemacht werden und der Workflow, durch den der Alarm an die für die Bearbeitung zuständigen Personen gesendet wird, automatisiert wird.
Sobald die entsprechenden Personen alarmiert sind und mit ihrem bevorzugten Messaging- und Kommunikationstool kommunizieren, benötigen sie Zugriff auf alle relevanten Daten – sowohl die aktuellen als auch auf die früherer Incidents sowie der Baseline im ungestörten Regelbetrieb. Teams benötigen die Möglichkeit, Vorfälle nach wichtigen Metadaten zu sortieren, eine chronologische Liste der Aktualisierungen anzuzeigen, die zu dem Problem beitragen, und relevante Kommentare, Kontext und Ergebnisse bereitzustellen.
Mit einem bewährten Satz integrierter Tools, die alle notwendigen Daten an einem Ort zusammenführen, wird diese Art der Zusammenarbeit einfacher und fruchtbarer.
Ist ein Vorfall behoben, dann darf das gleiche Problem nicht noch einmal auftreten. Es müssen alle Maßnahmen ergriffen werden, genau diese Wahrscheinlichkeit zu verringern. Aus diesem Grund sind Dokumentation und Postmortems so wichtig für das Incident Management.
Wenn ein neuer Vorfall mit einem vergangenen Vorfall korreliert, lässt sich herausfinden, ob das Problem bereits bekannt ist. Zu einer ordnungsgemäßen Dokumentation gehören eine Liste von Folgeaufgaben zur Behebung akuter Probleme, feste Pläne zur Aktualisierung von Warnmeldungen, um die gewonnenen Erkenntnisse zu berücksichtigen, und ein detailliertes, öffentliches Postmortem-Dokument, damit jeder in einem Team – und innerhalb des Unternehmens – das Problem besser verstehen und ähnliche Probleme, die möglicherweise an anderer Stelle bestehen, identifizieren kann. Wenn ein ähnlicher Vorfall in der Zukunft auftritt, hat das Team auf diese Weise alle historischen Informationen, die es braucht, an einem Ort.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Berücksichtigt ein Incident-Management-Workflow die beschriebenen Prinzipien, dann ist er effektiver, effizienter und einfacher für Entwicklungsteams. Vor allem spart er Zeit, so dass sich die Teams auf die Entwicklung neuer Produkte und Funktionen konzentrieren können, anstatt sich um auftretende Probleme zu kümmern.
Wer das, was bereits aufgebaut ist, nicht richtig pflegt und wartet, wird nicht in der Lage sein, Neues zu bauen. Ein effizientes Incident Management ist ein wichtiger Weg, um das zu ermöglichen und Freiräume zu schaffen.
* Stefan Marx arbeitet als Director Product Management EMEA bei Datadog.