Die Vorhersage von Vorfällen ist der heilige Gral für moderne IT-Unternehmen. Kein Wunder, dass die Nutzung von KI zur Vorhersage zunimmt. Eine Unze Prävention ist besser als ein Pfund Heilung. Aber welchen Maßstab sollten wir an diese Vorhersagen anlegen? Wann ist eine Vorhersage wichtig genug, um Sie mitten in der Nacht zu wecken? Welches Niveau und welche Art von Informationen sollten eine Vorhersage begleiten? In diesem Blog wird ein neues Konzept vorgestellt, das die Messlatte höher legen soll.
Haben Sie jemals den Film Minority Report gesehen? Darin verhaftet Tom Cruise Möchtegern-Verbrecher, bevor sie einen Mord begehen, indem er zukünftige Ereignisse durch einen Prozess namens Präkognition beobachtet. Ziemlich cool, aber natürlich Science-Fiction und mit ethischen Bedenken behaftet. Was wäre, wenn ich Ihnen sagen würde, dass so etwas in naher Zukunft auch für IT-Vorfälle möglich sein könnte? Hier kommt die automatisierte Pre-Mortem-Analyse!
Die automatisierte Pre-Mortem-Analyse, kurz APMA, zielt darauf ab, so viele kontextbezogene Informationen wie nötig zu generieren, um einen vorhergesagten Vorfall und/oder seine Folgen so früh wie möglich zu verhindern. Mittels künstlicher Intelligenz kombiniert APMA Informationen zu einem vorhergesagten Vorfall und dessen Folgen aus verschiedenen Quellen zu einem post-mortem-ähnlichen Bericht, bevor der Vorfall Ihr Unternehmen beeinträchtigt.
Ein Beispiel zur Veranschaulichung
Hier ist ein vereinfachter Obduktionsbericht, der auf wahren Begebenheiten bei einer bekannten Bank beruht.
Post-Mortem-Bericht #492: Ausfall des Credit Rating Service
Datum: 23-Okt-2018 13:43
Zusammenfassung: Nach einer Fehlerbehebung für das Credit Rating System (CRS). Das CRS wurde immer langsamer, bis es 7 Stunden später nicht mehr funktionierte, was zu Ausfällen bei den Online-Darlehens- und Kreditkartenservices führte.
- Auswirkungen:
- 2+ Stunden Ausfallzeit bei den Online-Diensten im Zusammenhang mit der Beantragung von Krediten und der Verlängerung von Kreditkarten. Geschätzte Einnahmeverluste zwischen $95k und $120k.
- Mehrere andere Offline-Prozesse, vor allem der Prozess der Hypothekenanreicherung, verzögerten sich in ihrer Bearbeitung. Keine Umsatzeinbußen. Leichte Auswirkungen auf die SLAs.
- Ursache: Ein kleines Bugfixing verursachte ein Speicherleck im CRS. Der Bugfix enthielt eine kleine Aktualisierung einer Bibliothek, die das Speicherleck verursachte.
- Auslöser: Bugfix-Veröffentlichung für das CRS: Versions-Upgrade 2.14 auf 2.15 (#CRS-5345).
- Erkennung:
- Zwei Warnmeldungen wurden durch die Überwachung der Reaktionszeiten der Dienste für Kreditanträge und Kreditkartenverlängerungen ausgelöst, die vom CRS abhängen.
- Die verursachende Komponente des Problems war unklar, bis die Überwachung auf dem CRS einen Alarm auslöste.
- Auflösung:
- Alle CRS-Prozesse wurden neu gestartet, aber eine Verbindungsflut, die von einem Offline-Hypothekenanreicherungsprozess stammte, machte es unmöglich, das CRS zu starten. Der Hypothekenanreicherungsprozess musste vorübergehend gestoppt werden, woraufhin die CRS-Prozesse den normalen Betrieb wieder aufnehmen konnten.
- Später an diesem Tag stellte sich heraus, dass die Fehlerbehebung die Hauptursache war. Es wurde eine neue Fehlerbehebung vorgenommen und es wurden keine weiteren Speicherverluste mehr beobachtet.
Zeitleiste am 19-Okt-2018:
10:01: Fehlerbehebung im CRS bereitgestellt
17.06: Warnung ausgelöst durch Loan Request Service: langsame Antwortzeit.
17.14: Alarm ausgelöst durch Credit Card Extension Service: langsame Antwortzeit.
17.44: Durch CRS-Überwachung ausgelöste Warnung: Ausnahmen bei Speichermangel.
18.01: CRS wurde neu gestartet, reagiert aber weiterhin nicht.
18.25: Es wurde festgestellt, dass die Flut von Hypothekenanreicherungsverbindungen den Neustart von CRS verhindert.
18.51 Uhr: CRS und Hypothekenanreicherung werden gemeinsam neu gestartet.
18.53: CRS und Hypothekenanreicherung 100% einsatzbereit.
Gelernte Lektionen / Ergriffene Maßnahmen
Hinweis: Eine Liste der gelernten Lektionen und der daraus resultierenden Maßnahmen sollte Teil jedes Post-Mortem sein, ist aber für diesen Blog nicht relevant.
Probleme alarmieren
Während Sie sich in Ihrem Sessel zurücklehnen und entspannen, nehmen Sie sich bitte etwas Zeit, um sich in die Lage der Ingenieure zu versetzen, die mit diesem Chaos beauftragt sind. Der Nachmittag ist vergangen und Sie hoffen, dass Sie die Arbeit noch vor dem Ende des Tages abschließen können, aber dann..:
17:06 Alert - Loan Request Service - Antwortzeit überschreitet Schwellenwert (>2s).
Es gibt zwei große Probleme mit diesen Arten von Warnmeldungen:
- Mangel an Informationen:
- Die eigentliche(n) Ursache(n) des Problems sind nicht vorhanden. Sie können Stunden damit verbringen, danach zu suchen.
- Die Auswirkungen des Problems sind nicht bekannt. Es kann extrem wichtig sein oder eine Panne sein.
- Es ist unklar, welche anderen Ereignisse/Alarme mit dem Problem in Verbindung stehen. Das Problem könnte einen Alarmsturm ausgelöst haben und mehrere Personen könnten bereits an demselben Problem arbeiten.
- Infolgedessen ist auch unklar, wer benachrichtigt bzw. involviert werden sollte.
- Die Warnung kommt zu spät, vor allem, weil es keine verwertbaren Informationen gibt.
Leider ist dies immer noch der Stand der Überwachung/Benachrichtigung in den meisten großen Unternehmen. Können wir bei dieser Art von Informationen eine schnelle und effektive Reaktion erwarten?
Künstliche Intelligenz zur Rettung!?
Im Bereich der Überwachung wird viel Wert auf prädiktive Analysen gelegt, aber der einfache Ansatz, den viele verfolgen, löst diese Probleme nicht.
Hier sehen Sie zum Beispiel, wie die Reaktionszeit des Leihdienstes während des Vorfalls aussah:

Anhand historischer Daten (die blaue Linie) können wir ein Vorhersagemodell erstellen. Die Extrapolationen, die wir auf der Grundlage dieser Modelle vornehmen (die rote Linie), werden immer ungenauer, je weiter sie in die Zukunft reichen (daher der immer breiter werdende graue Streifen). Wenn ein signifikanter Teil der Verteilung des Vorhersagemodells einen kritischen Schwellenwert überschreitet, können viele Überwachungsprodukte so konfiguriert werden, dass sie Sie frühzeitig warnen:
15:05 Alert - Loan Request Service - Antwortzeit überschreitet voraussichtlich den Schwellenwert (>2s) um 17:09 (Wahrscheinlichkeit 95%).
Am Informationsstand hat sich nichts geändert, aber wir haben jetzt zumindest einen zweistündigen Vorsprung. Das ist allerdings nicht unbedingt eine Verbesserung. Wir haben das Problem, dass der Alarm zu spät kommt, gegen mögliche Fehlalarme eingetauscht. Mit anderen Worten: Obwohl diese Vorhersage dazu beitragen könnte, ein Problem zu vermeiden, könnte sie auch selbst ein Problem sein. Sie könnte falsch sein und eine Verschwendung von wertvoller Zeit.
Vielleicht können wir das eine Verbesserung nennen, aber ich glaube, wir sollten die Messlatte höher legen.
Eine intelligentere KI
Die automatisierte Pre-Mortem-Analyse ist eine Möglichkeit, diese beiden Probleme auf einen Schlag zu lösen und gleichzeitig das Problem der falsch-positiven Ergebnisse zu begrenzen.
APMA beginnt in der Regel mit denselben Arten von prädiktiven Analysen, geht aber weiter, indem es mehrere Datenquellen mit Hilfe verschiedener KI-Techniken wie automatisierter Ursachenanalyse, Auswirkungsanalyse, maschinellen Lerntechniken usw. analysiert (dies ist der Inhalt eines zukünftigen Blogs). Da ein und dasselbe Problem aus verschiedenen Blickwinkeln betrachtet wird und es mehrere Beweisquellen gibt, ist dies auch ein guter Weg, um die Wahrscheinlichkeit von Fehlalarmen zu verringern.
Hier ist der APMA-Bericht über den oben genannten Vorfall. Denken Sie daran, dass dieser Bericht etwa 2 Stunden vor Beginn der Störung erstellt wird.
Pre-Mortem: Möglicher Ausfall Kreditantragsservice & Kreditkartenverlängerungsservice
Datum des Berichts: 15:05
Wahrscheinliche Auswirkungen:
- Unerreichbarkeit / Ausfall:
- Loan Request Service antwortet nicht. Richtig?

- Credit Card Extension Service reagiert nicht. Ist das richtig?

- Loan Request Service antwortet nicht. Richtig?
- Unbekannte Auswirkungen erwartet auf:
- Prozess der Hypothekenanreicherung. Richtig?

- Kontodienst. Korrekt?

- 5 mehr...
- Prozess der Hypothekenanreicherung. Richtig?
Wahrscheinliche Ursache:
- Komponenten: CRS-Dienst: CRS-1, CRS-2, CRS-3. Richtig?
- Stream: 'Speichernutzung' CRS steigt. Korrekt?

- Stream: 'GC pausiert' nimmt zu. Korrekt?

- Stream: 'Speichernutzung' CRS steigt. Korrekt?
Wahrscheinliche Auslöser:
- #CRS-5345 10:01: Version 2.14 bis 2.15. Korrekt?

Erkennung:
- Service für Darlehensanfragen - Voraussichtlich wird die Antwortzeit um 17:09 Uhr den Schwellenwert (>2s) überschreiten (Wahrscheinlichkeit 95%). Korrekt?

- Kreditkartenverlängerungsdienst - Voraussichtlich wird die Antwortzeit um 17:20 Uhr den Schwellenwert (>2s) überschreiten (Wahrscheinlichkeit 89%). Korrekt?

Zeitleiste:
10:01 #CRS-5345: Version 2.14 bis 2.15
15:05 APMA Bericht erstellt
15:09 Jetzt
17:09 Voraussichtlicher kritischer Status: Reaktionszeit bei kritischem Status des Leihverkehrs
17:20 Voraussichtlicher kritischer Status: Reaktionszeit des Dienstes zur Erweiterung des Kreditkartenlimits
Bumm! Mit diesem Bericht haben Sie sofort ein gutes Verständnis dafür, was vor sich geht. Mehrere Vorhersagen haben die Wahrscheinlichkeit verringert, dass es sich um ein falsches Positiv handelt, und die Bedeutung dieses Berichts wird anhand der vorhergesagten Auswirkungen deutlich.
Wie bei der automatisierten Ursachenanalyse ist ein Pre-Mortem-Bericht ein Näherungswert, der auf dem basiert, was die Maschine weiß und ableiten kann. Standardmäßige Pre-Mortem-Berichte können ziemlich gute Annäherungen sein, aber durch das Feedback der Benutzer (
Stellen Sie sich jedoch vor, Sie würden diesen Bericht an dem Tag erhalten, an dem sich die Katastrophe ereignen sollte, Stunden bevor sie eintritt. Sie würden problemlos den Tag retten und pünktlich nach Hause gehen und sich wie Tom Cruise fühlen. Genau darum geht es bei der automatisierten Pre-Mortem-Analyse!
Mehr dazu später...
Ich habe an StackState gearbeitet, einer Überwachungs- und AIOps-Plattform der nächsten Generation, die dies möglich macht. Wir haben alle Puzzlestücke an ihrem Platz: die Mathematik, die Algorithmen und die Daten. Ich werde unsere Reise zu einer voll funktionsfähigen APMA-Lösung in der nächsten Zeit dokumentieren. Weitere Details zu APMA werden folgen.
Unsere Ideen
Weitere Artikel

War die Linksverschiebung der richtige Schritt?
Erfahren Sie, wie die Linksverschiebung bei DevOps die Teamleistung steigert, die kognitive Belastung reduziert und die Arbeit der Entwickler durch...
Sander Aernouts

Drei häufige Fallstricke bei der Plattformentwicklung und wie Sie sie vermeiden...
Entdecken Sie 3 Fallstricke im Platform Engineering und erfahren Sie, wie Sie diese vermeiden können, um Produktivität, Innovation und langfristigen...
Jelmer de Jong
Contact


