Blog

Chaos Engineering als Managementpraxis

João Rosa

João Rosa

Aktualisiert Oktober 21, 2025
9 Minuten

Chaos Engineering ist eine Praxis, die ihre Wurzeln bei Netflix hat. Es entstand aus den Herausforderungen, die sich aus der Verlagerung der Arbeitslasten vom Rechenzentrum in die Cloud ergaben. Die vergängliche Natur der Cloud wirkte sich auf die Art und Weise aus, wie sie ein System in großem Maßstab aufbauen und betreiben. Das ursprüngliche Projekt hieß Chaos Monkey und besteht seit fast 10 Jahren.

Seitdem ist die Gemeinschaft gewachsen, angetrieben von Netflix-Praktikern. Heute gibt es kommerzielle und Open-Source-Tools, und wir können weitere Initiativen in verschiedenen Gemeinschaften beobachten. Die technischen Verfahren waren ausgereift, und das Wissen begann sich in der IT-Welt zu verbreiten.

Es wird jedoch als technisches Verfahren wahrgenommen. Können wir Chaos Engineering auch als Managementmethode nutzen?

Die Rolle eines Managers in der heutigen Welt

Die Rolle einer Führungskraft hat sich verändert. Von einem präskriptiven Ansatz, bei dem der Manager die Aktivitäten der Mitarbeiter leitet (Management und manchmal Mikromanagement), hin zu einer unterstützenden und transformativen Rolle. Heute muss eine Führungskraft Struktur geben und einen sicheren Raum schaffen, in dem Menschen und Teams in ihren Bereichen Höchstleistungen erbringen können. Der Grund dafür ist, dass Organisationen danach streben, anpassungsfähig (anti-fragil) zu sein, und dies erfordert eine neue Art von Führung.

Organisationen brauchen Manager, die eine Führungsrolle bei der Schaffung von Sicherheit für Einzelpersonen und Teams übernehmen. Die Forschung zeigt, dass Elite-Organisationen in Bezug auf Kultur und Arbeitsumfeld über 5 Fähigkeiten verfügen: Lernklima, Westrum-Organisationskultur, Kultur der psychologischen Sicherheit, Arbeitszufriedenheit und Identität.

Die Realität ist, dass soziotechnische Systeme immer komplexer werden und es nicht möglich ist, das Modell des Systems in unserem Kopf zu haben. Heute gibt es mehr Komponenten im System, und um Werte zu schaffen, gibt es mehr gegenseitige Abhängigkeiten, als wir uns vorstellen können. Daher müssen Manager ihre mentalen Modelle und Praktiken ändern. Zum Beispiel von einem Befehls- und Kontrollstil zu einem Missionsbefehlsstil. Der Wechsel zwischen diesen beiden Stilen erfordert ein sicheres Umfeld, in dem Vertrauen der Eckpfeiler ist.

Aber was sind andere Praktiken, die ein Manager einführen sollte?

Ein bisschen Theorie... Und dann machen wir weiter.

Optionen und Kosten von Ereignissen und deren Stabilisierung

Jabe Bloom hat ein Modell für Ereignisse entwickelt. Unter Ereignis versteht er alles, was das soziotechnische System beeinflussen könnte. Sie können an einen Anstieg der Nutzung Ihres Dienstes denken, der durch die sozialen Medien, die Ferienzeit, die Übernahme und Fusion von Unternehmen oder die aktuelle Pandemie ausgelöst wird. Und alles dazwischen. Einige der Ereignisse sind im Voraus bekannt, andere können als "unerwartet" bezeichnet werden.

Optionen und Kosten von Ereignissen und deren Stabilisierung. Copywrite Jabe Bloom
Optionen und Kosten von Ereignissen und deren Stabilisierung. Copywrite Jabe Bloom

Kurz gesagt, in der Phase vor dem Ereignis gibt es mehrere Optionen und die damit verbundenen Kosten. Je mehr Zeit vergeht und je näher das Ereignis rückt, desto weniger Optionen gibt es und desto höher sind die Kosten, bis das Ereignis eintritt. Beachten Sie, dass Sie sich des Ereignisses bewusst sein können oder nicht. Das hängt von der Fähigkeit ab, die (schwachen oder starken) Signale zu interpretieren und sie so zuzuordnen, dass ein Bewusstsein entsteht. In der Phase nach dem Ereignis stabilisiert sich die Lage, sowohl was die Optionen als auch was die Kosten betrifft. Sie kennen vielleicht das Sprichwort: "Verschwende niemals eine gute Krise". Organisationen lernen (das hoffe ich) und können bei künftigen Ereignissen derselben Art andere Strategien anwenden.

Ich biete eine einfache Erklärung des Modells und habe nicht die Absicht, mich mit der Komplexitätstheorie zu befassen. Das ist ein Thema für sich (vielleicht mehrere Bücher). Worauf ich hinaus will, ist, dass Ereignisse kostspielig sein können, wenn Manager nicht in der Lage sind, die Signale zu interpretieren und vernünftige Optionen zu schaffen. Um auf das Beispiel mit der Pandemie zurückzukommen: Es gibt Fälle, in denen Organisationen den Übergang zur Heimarbeit besser bewältigt haben als andere. Ich fordere Sie auf, eine Hypothese aufzustellen, warum. Diejenigen, die mit der Umstellung zu kämpfen haben, verursachen auch höhere Kosten, die u. a. mit dem Verlust von Produktivität und Marktanteilen zusammenhängen können.

Kommen wir nun zum nächsten Teil der Theorie...

Dynamisches Sicherheitsmodell

Das Dynamische Sicherheitsmodell wurde von Jens Rasmussen in seinem Aufsatz mit dem Titel Risk management in a dynamic society: a modelling problem beschrieben. Es lässt sich anhand des folgenden Bildes veranschaulichen:

Illustration des dynamischen Sicherheitsmodells. Copywrite https://risk-engineering.org/concept/Rasmussen-practical-drift
Illustration des dynamischen Sicherheitsmodells. Copywrite https://risk-engineering.org/concept/Rasmussen-practical-drift

Casey Rosenthal und Nora Jones fassen in ihrem Buch Chaos Engineering, System Resiliency in Practice das Dynamic Safety Model in Economics, Workload and Safety zusammen, in dem Software-Ingenieure die Grenzen und Kompromisse bei Wirtschaftlichkeit und Arbeitsbelastung gut verstehen. Dennoch übersehen wir oft die Grenzen und Kompromisse bei der Sicherheit. Ich stimme der Analyse zu und habe in meiner Karriere dasselbe gelernt. Manchmal unterschätze ich meine Entscheidungen in Bezug auf die Sicherheit, und manchmal überschätze ich sie. Das hat mich dazu veranlasst, die Lehren aus dem letzten Jahrzehnt zu überdenken.

Meine Retrospektive

Im Laufe meiner Karriere habe ich verschiedene Rollen eingenommen. Als Software-Ingenieur konzentriere ich mich oft auf die Lösung des jeweiligen Problems, und als Manager versuche ich, die Systemumgebung zu optimieren, um den Wert zu maximieren, den sie liefert. Und als Interim-CTO und Berater helfe ich Unternehmen, ihre Betriebsmodelle zu ändern, um sich an eine sich schnell verändernde Welt anzupassen. Im Rahmen meiner Retrospektive stelle ich fest, dass wir versuchen, den Wandel in eine Organisation zu induzieren, selbst wenn wir dabei menschliche Aspekte berücksichtigen. Wenn in dem neuen Betriebsmodell ein stressiges Ereignis eintritt, fallen die Menschen (und Teams) in der Regel in das alte Verhalten zurück.

Lassen Sie uns dem Artikel zuliebe ein begrenztes und eingegrenztes Beispiel nehmen. Als triviales Beispiel habe ich Organisationen beobachtet und mit ihnen zusammengearbeitet, die von einer siloartigen Umgebung zu durchgängig verantwortlichen Teams übergegangen sind. Wo die Verantwortlichkeiten für die Erstellung und den Betrieb von Software in verschiedenen Teams und/oder Abteilungen liegen, zu durchgängig verantwortlichen Teams (wir können sie als Teams bezeichnen, die nach DevOps-Prinzipien arbeiten), die die Software entwerfen, erstellen, freigeben und in der Produktion betreiben müssen. In einem Ausfallszenario haben die Teams jedoch Probleme zu reagieren und das Problem zu beheben, da sie es nicht gewohnt sind, in diesem neuen Kontext zu arbeiten. Es entsteht oft eine Hero-Kultur, in der einzelne Mitarbeiter die Probleme lösen. Auf lange Sicht ist das nicht ausreichend und kann zu einer dysfunktionalen und toxischen Kultur führen.

Ich hoffe, dass Sie sich mit diesem Beispiel identifizieren können. Es gibt eine größere und breitere Palette von Beispielen, und das Thema der Fähigkeit von Menschen, sich zu verändern, und der Managementfähigkeiten, dies zu fördern, ist ein großes Thema. Mein Kollege Thomas Kruitbosch und ich unterhalten uns häufig darüber und er fordert mich immer wieder heraus. :)

Im vorherigen Beispiel wird Stress in das System eingeführt. Und Teams neigen dazu, ihre Entscheidungen kurzfristig zu überschätzen (z.B. wenn das Ereignis noch in ihrem Gedächtnis präsent ist) und mittel- und langfristig zu unterschätzen (z.B. wenn die Erinnerung an das Ereignis verblasst ist). Dies stimmt mit der Analyse von Casey und Nora zu den Sicherheitsgrenzen überein. Es steht auch im Zusammenhang mit dem, was Ben Mosior und Jabe Bloom als geschickte Bewältigung beschreiben. Ich glaube, dass Manager Sicherheit schaffen und Mitarbeiter coachen und anleiten können, um ihren Entscheidungsprozess bezüglich der Sicherheitsgrenzen zu verbessern. Gleichzeitig können sie sich positiv auf die Organisationskultur auswirken und eine offene und vertrauenswürdige Kultur schaffen.

Chaos Engineering und Management

Nun, wir kommen zurück zum Titel dieses Blogbeitrags. Chaos Engineering! Nicht nur als technische Praxis für die Widerstandsfähigkeit des technischen Systems, sondern vor allem für die Fähigkeit einer Organisation, wirklich anpassungsfähig zu sein, z.B. antifragil. In einem soziotechnischen System interagieren Menschen und Technologie, und als Manager, der für einen Teil des Systems verantwortlich ist, haben Sie ein Werkzeug, mit dem Sie kontrollierte Experimente in das System einführen können, so dass Teams und Einzelpersonen ihre Fähigkeit trainieren können, mit einem Ereignis umzugehen (Skillful Coping). Nicht nur, wenn das technische System (Software, Infrastruktur und alles, was dazwischen liegt) über die richtigen Maßnahmen verfügt, sondern auch, wenn die Prozesse (welche Prozesse auch immer eine Organisation anwendet) für den jeweiligen Kontext angemessen sind. Es ist sehr ähnlich wie bei der Arbeitsweise von Ersthelfern, nämlich Feuerwehrleuten: 80 % ihrer Zeit üben sie, und 20 % der Zeit sind sie im Einsatz.

Und vielleicht fragen Sie sich jetzt: "Na und?". Um auf das Theoriekapitel dieses Blogbeitrags zurückzukommen: Die Lebensspanne eines Unternehmens ist voller Ereignisse. Einige mit größeren Auswirkungen als andere:

Kosten der Ereignisse im Laufe der Zeit. Copywrite João Rosa
Kosten der Ereignisse im Laufe der Zeit

Nach meiner Erfahrung und unter Verwendung des Modells von Jabe sind die Kosten eines Ereignisses und der Zeitraum nach der Stabilisierung höher. Bürokratie zur "Verhinderung" von Ereignissen der gleichen Art, was zu Produktivitätsverlusten führt; gesundheitliche Probleme wie Angstzustände und Burn-out; Mitarbeiter verlassen die Organisation aufgrund eines instabilen Umfelds. Und so weiter... Wenn Sie Chaos Engineering jedoch regelmäßig anwenden, sinken die Kosten für Ereignisse tendenziell:

Kosten von Ereignissen im Laufe der Zeit beim Einsatz von Chaos Engineering. Copywrite João Rosa
Kosten von Ereignissen im Laufe der Zeit bei Verwendung von Chaos Engineering

Die Kosten eines Ereignisses sinken tendenziell, und die Stabilisierungsphase ist kürzer. Der Einsatz von Chaos Engineering, um kontrollierte Ereignisse in das System zu injizieren, hilft der Organisation, ihre Optionen zu testen. Validieren Sie die verschiedenen Modelle anhand der Realität (in den meisten Fällen der Code und das Verhalten der Mitarbeiter) und helfen Sie den Mitarbeitern, Fähigkeiten aufzubauen, die es ihnen ermöglichen, mit Ereignissen umzugehen, die nicht durch Chaos Engineering ausgelöst werden. Anhand der anfänglichen Beispiele, der Urlaubssaison, kann die Organisation üben, was ein erheblicher Ausfall während des Spitzenverkehrs in der Urlaubssaison bedeutet und wie die Mitarbeiter und Teams darauf reagieren werden. Durch den Kontext der Übung, z.B. eine kontrollierte Umgebung, ist das Stressniveau niedriger und die individuelle Widerstandsfähigkeit wird aufgebaut. Auch von der technischen Seite können Erkenntnisse gewonnen werden (dazu gibt es genügend Literatur). Auf der Grundlage dieser Erkenntnisse können Einzelpersonen und Teams die Sensibilität für die Sicherheitsgrenzen des Systems erhöhen, und Manager können das Umfeld dafür fördern.

Und nicht zuletzt werden durch den Einsatz von Chaos Engineering mehr Ereignisse in das soziotechnische System eingespeist. Und wie wir wissen, entwickeln sich biologische Systeme in der Natur auf der Grundlage der Ereignisse, denen sie ausgesetzt sind. Dasselbe geschieht mit Organisationen: Je mehr Ereignisse eine Organisation erlebt, desto anpassungsfähiger ist sie, weil sie Wissen und Praktiken zu den möglichen Optionen aufbaut.

Wir können Chaos Engineering als Managementmethode einsetzen, um die Organisation in einen antifragilen Zustand zu führen und ein sicheres Umfeld zu schaffen, in dem Menschen und Teams Höchstleistungen erbringen können. Wie einige Organisationen zeigen, entfesseln die Menschen ihre Superkräfte, wenn das Umfeld sicher ist.

Seien Sie sich bewusst, dass ich nicht für ein Patentrezept plädiere. Es gehört mehr dazu, wenn es darum geht, eine gesunde Organisation zu schaffen, in der sich die Menschen sicher fühlen und für ihren Beitrag geschätzt werden. Ich werde dieses Thema in den nächsten Blogbeiträgen weiter vertiefen.

Wie schaffen Sie ein sicheres Umfeld? Welche Praktiken und Hilfsmittel verwenden Sie?

 

Dieser Artikel wurde ursprünglich in meinem persönlichen Blog veröffentlicht: Chaos Engineering als Managementpraxis/

Verfasst von

João Rosa

Contact

Let’s discuss how we can support your journey.