Artikel

SRE: Streben nach antifragilem Betrieb

Frank Levering

Aktualisiert Oktober 10, 2025
5 Minuten

Mit steigenden Kundenanforderungen wird die Zuverlässigkeit der Systeme von Sekunde zu Sekunde wichtiger. Sie können nicht alle Vorfälle verhindern, aber Sie können aus ihnen lernen und Ihre Systeme widerstandsfähiger und zuverlässiger machen, damit sie die von Ihren Kunden benötigten Dienstleistungen erbringen können.

"Manche Dinge profitieren von Schocks. Sie gedeihen und wachsen, wenn sie Volatilität, Zufälligkeit, Unordnung und Stressfaktoren ausgesetzt sind, und sie lieben das Abenteuer, das Risiko und die Ungewissheit. Doch obwohl das Phänomen allgegenwärtig ist, gibt es kein Wort für das genaue Gegenteil von fragil. Nennen wir es antifragil. Antifragilität ist mehr als Resilienz oder Robustheit. Das Resiliente widersteht Schocks und bleibt gleich, das Antifragile wird besser."

 -Nassim Taleb, aus Antifragil: Dinge, die von Unordnung profitieren

Anti-Fragilität ist ein Qualitätsmerkmal von Systemen. Wie können wir Systeme so verbessern, dass Vorfälle früher erkannt, schneller behoben werden und sich nicht wiederholen? Site Reliability Engineering (SRE) ist die Methodik, die Google verwendet, um sehr große Produktionssysteme zuverlässig zu betreiben. Können wir von den Praktiken von Google lernen, um die Antifragilitätseigenschaften unseres Betriebs zu verbessern?

Fragil, robust und antifragil

Nassim Taleb zufolge gibt es drei Arten von Systemen:

  • Anfällige Systeme, die bei Überlastung versagen. Zum Beispiel, wenn zu viele Benutzer auf der Website sind und Ihr einziger, manuell konfigurierter Server die Last nicht bewältigen oder skalieren kann.
  • Robuste Systeme, die mit Stressfaktoren umgehen können und nicht ausfallen (zumindest bis zu einem gewissen Punkt). Übertragen auf die Welt der Softwaresysteme ist ein Beispiel dafür, wenn ein Fehler auftritt und es eine angemessene Ausnahmebehandlung gibt. 
  • Antifragile Systeme, die von Stressoren profitieren. Wenn wir den Druck auf das System erhöhen oder Fehler in das System einführen, wird die Widerstandsfähigkeit des Systems wachsen und besser werden. Durch Chaos-Engineering und das absichtliche Einführen von Fehlern lassen sich beispielsweise Schwachstellen im System erkennen, so dass sie behoben werden können. Indem Löcher in Systemen behoben werden, bevor sie zufällig auftauchen, wird das System stärker.  

Ihr System verstehen

SRE ist ein datenzentrierter Ansatz, der sich darauf konzentriert, Systeme zu schaffen, die aus Fehlern und Ausfällen lernen. Normalerweise werden diese Daten aus technischen Elementen wie der CPU-Nutzung oder der Speicherauslastung gesammelt. Diese Metriken geben Ihnen jedoch keinen direkten Einblick in die Auswirkungen, die der Vorfall auf Ihren Endbenutzer hat. Daher ist es wichtig, die geschäftlichen Ziele mit den technischen Zielen in Einklang zu bringen.

  • Technische Ziele sind oft rohe Metriken. Bei SRE werden diese als Service Level Indicators (SLIs) bezeichnet. Beispiele für SLIs könnten "Anfragelatenz", "Fehlerrate" und "Durchsatz" sein.  
  • Geschäftsziele sind oft vertragliche Vereinbarungen mit Ihren Kunden, die Konsequenzen haben, wenn sie nicht eingehalten werden. Diese vertraglichen Vereinbarungen werden auch Service Level Agreements (SLAs) genannt.  

Um die Lücke zwischen SLIs und SLAs zu schließen, können Sie Service Level Objectives (SLOs) definieren. 

  • SLOs sind die Ziele für die Serviceverfügbarkeit. Sie stehen in direktem Zusammenhang mit dem Kundenerlebnis und werden plakativ formuliert. Wenn der SLO nicht erreicht wird, sind die Kunden unzufrieden.

Indem Sie SLOs und SLIs definieren, können Sie (potenzielle) Fehler entdecken, bevor Ihre Kunden sie entdecken.

Umgang mit Zwischenfällen

Wenn wir Anwendungen betreiben, müssen wir irgendwann mit Fehlern rechnen. Um zuverlässige Systeme zu erstellen und zu betreiben, müssen Sie alle Möglichkeiten kennen, wie das System ausfallen kann - und sicherstellen, dass Sie die Fehler erkennen und beheben, wenn sie auftreten.

Wann immer ein Fehler oder ein Zwischenfall auftritt, hat dies reale, oft finanzielle Konsequenzen. Er kann Teile Ihres Unternehmens oder sogar das Unternehmen als Ganzes zum Einsturz bringen. Um die Auswirkungen eines Vorfalls zu minimieren, ist die erste Priorität, ihn zu beheben. Nachdem der Vorfall behoben wurde, müssen Sie die zugrunde liegende Ursache untersuchen.   Wenn die Grundursache behoben ist, sollte sich der Vorfall nicht wiederholen - der Vorfall hat also das System verbessert. 

Das Scheitern annehmen

Da Systemausfälle unvermeidlich sind, stellt sich die Frage, wie man mit ihnen umgeht. Oft werden Ausfälle als belastend, ja sogar beängstigend empfunden - die Folgen können furchtbar sein.  

Aus diesem Grund haben die Menschen oft Angst zu scheitern, was ein fragiles Umfeld schafft. Um antifragil zu werden, müssen Sie das Scheitern in Kauf nehmen. Wenn ein Misserfolg eintritt, sollte die Frage nicht lauten, wer die Schuld trägt. Konzentrieren Sie sich stattdessen auf die Frage, wie es zu diesem Fehler kommen konnte und wie man ihn in Zukunft verhindern kann. Im Rahmen von SRE wird dazu ein Konzept verwendet, das "schuldlose Postmortems" genannt wird.

Tadellose Postmortale decken mehrere kritische Aspekte ab, um antifragil zu werden:

  1. Stellen Sie sicher, dass jeder Fehler dokumentiert wird.
  2. Verstehen Sie alle Grundursachen. Wenn Sie genau wissen, was einen Fehler verursacht hat, können Sie ihn nicht nur beheben, sondern auch verhindern, dass er immer wieder auftritt.
  3. Legen Sie spezifische Maßnahmen fest, um die Wahrscheinlichkeit zu verringern, dass sich der Fehler wiederholt, oder um seine Auswirkungen zu reduzieren, wenn er auftritt.

Die Einführung von Postmortalen ohne Schuldzuweisungen nimmt den Menschen die Angst vor dem Scheitern, was bedeutet, dass sie Probleme schneller angehen werden. Je schneller Sie in der Lage sind, (potenzielle) Fehler zu erkennen, desto schneller können Sie Maßnahmen zur Wiederherstellung ergreifen. Letztendlich wird Ihr System dadurch zuverlässiger und die Kundenzufriedenheit steigt.

Antifragil werden

Durch die Einführung von SRE-Konzepten in Ihren täglichen Arbeitsablauf können Sie Prozesse und Systeme aufbauen, die zu Antifragilität führen. Das Verständnis Ihres Systems, ein angemessenes Incident Management und die Akzeptanz von Fehlern tragen alle dazu bei, eine Kultur des kontinuierlichen Feedbacks und der ständigen Verbesserung zu schaffen. Jedes Mal, wenn Ihr System ausfällt, werden Sie in der Lage sein, schneller zu reagieren, die Ursachenanalyse zu finden und dann konkrete Maßnahmen zu definieren, um das Problem zu lösen, zu verhindern und daraus zu lernen.

Schermafbeelding 2019-10-02 om 09.49.57

 

Contact

Let’s discuss how we can support your journey.