Artikel
Verlässlichkeit aufbauen: Warum SRE auf dem Radar jeder Führungskraft sein sollte

Blizzard Entertainment, der Videospielgigant, legt großen Wert darauf, dass seine Spiele der Warcraft-Franchise auch außerhalb der Stoßzeiten jederzeit für seine Kunden verfügbar sind. Aufgrund der Komplexität des zugrunde liegenden Systems ist jedoch eine ständige Wartung unerlässlich. Obwohl immer wieder Änderungen, Updates und Bugfixes erforderlich sind, arbeiten die SRE-Teams von Blizzard konsequent daran, Ausfallzeiten so weit wie möglich zu minimieren. Ausfallzeiten sind gefährlich, denn sie bedeuten, dass die Kunden nicht auf das Spiel zugreifen können, für das sie bezahlt haben. Das Unternehmen ist damit kurz- und langfristig frustrierten Kunden, Rufschädigung und finanziellen Verlusten ausgesetzt. SRE-Teams sind die stillen Helden, die dafür sorgen, dass die Spieler nach Herzenslust spielen können, und sie vor den Launen des Systems schützen.
IT-Organisationen wollen immer, dass ihre Produktionsumgebung läuft. Ausfallzeiten kosten Geld, Ansehen und letztlich auch Kunden. Softwaresysteme sind jedoch von Natur aus unvorhersehbar und werden immer irgendwann ausfallen, so dass der Schwerpunkt auf SRE liegt.
Site Reliability Engineering (SRE) ist eine Disziplin, die Software-Engineering und Betrieb kombiniert, um die Zuverlässigkeit und Leistung komplexer Systeme wie Webanwendungen, Cloud-/Netzwerkinfrastrukturen und Datenbanken zu verbessern. Der Schwerpunkt liegt dabei auf dem Aufbau und der Pflege skalierbarer, zuverlässiger und effizienter Systeme. Aber das ist noch nicht alles, was es bewirkt. Da SRE eine entscheidende Rolle bei der Reduzierung von Ausfallzeiten, der Verbesserung der Systemstabilität und der schnelleren Erkennung und Lösung von Problemen spielt, trägt es zu einer besseren Kundenerfahrung, einer höheren Benutzerzufriedenheit und einem höheren Umsatzpotenzial bei. Doch trotz seiner unbestreitbaren Auswirkungen auf die Unternehmensleistung ist es ein Thema, das sich auf die Tech-Teams beschränkt hat.
Das muss sich ändern.
Ein unzuverlässiges und unzureichend funktionierendes System wirkt sich nicht nur auf die technische Leistung und den Output des Systems aus, sondern hat wahrscheinlich auch Auswirkungen auf die allgemeine Unternehmensleistung. In dieser Blogserie werden wir untersuchen, wie wir IT- und Technik-Teams zusammenbringen können, um eine Zuverlässigkeitsstrategie zu entwickeln, von der das gesamte Unternehmen profitiert.
Verstehen Sie, wie Ihre IT-Systeme Ihr Unternehmen unterstützen:
In der Vergangenheit gab es eine Kluft zwischen IT- und Business-Teams, wenn es um den Einfluss geht, den sie aufeinander haben. Obwohl SRE ein "technisches Thema" ist, ist es
Es ist wichtig zu verstehen, wie einzelne Komponenten und das Gesamtsystem den Geschäftswert unterstützen und liefern.
Daher ist es wichtig, über die technischen Praktiken des Site Reliability Engineering (SRE) hinauszublicken. Nehmen wir zum Beispiel Observability. Observability ist die technische Praxis der Instrumentierung von Systemen, um durch Protokolle, Metriken und Traces die richtigen Informationen zu liefern. Die richtige Einsicht in die Leistung eines Systems ist zwar der Grundstein für eine erfolgreiche SRE-Implementierung, aber diese "Rohdaten" liefern für sich genommen keine aussagekräftigen Informationen. Sie müssen in den richtigen Kontext gestellt werden: Sie müssen relevante Maßnahmen und aussagekräftige Ziele für die Servicequalität schaffen.
Dies ist der Schlüssel, um SRE mit den Geschäftszielen in Einklang zu bringen - zu verstehen, wie die Komponenten des Systems zum Kundenerlebnis beitragen. Der erste Schritt zum Aufbau einer starken Zuverlässigkeitsstrategie besteht darin, die Bedeutung des Systems für die Bereitstellung dieses Wertes zu erkennen. Wir haben einen strukturierten Weg aufgezeigt, mit dem Sie dies erreichen können.
Wertstrom und Customer Journey Mapping
Nehmen wir eine E-Commerce-Website als Versuchskaninchen.
Im Allgemeinen besteht die Hauptstrategie und das Ziel eines Webshops darin, Einnahmen zu erzielen. Dazu muss der Webshop Systeme aufbauen, die das Suchen, Bestellen und Bezahlen der Produkte ermöglichen.
Der Webshop kann seine Geschäftsziele nur erreichen, wenn die Systeme und ihre Komponenten im Einklang mit den Elementen des Wertstroms konzipiert und entwickelt werden. Diese Systeme müssen nicht nur zusammenarbeiten, um die allgemeinen Geschäftsziele zu erreichen, sondern auch einzeln und unabhängig voneinander funktionieren, um ein reibungsloses Erlebnis für den Website-Besucher zu gewährleisten.
Mit dieser Wertstromkarte können wir uns nun die Reise des Kunden ansehen, während er die Produkte sucht, bestellt und bezahlt. So würde die Reise wahrscheinlich aussehen:
- Erstens können Kunden nach bestimmten Produkten suchen (z.B. nach den Top 10 Produkten einer Kategorie oder nach relevanten Empfehlungen).
- Zweitens möchten Sie vielleicht Produkte auswählen und in den Warenkorb legen und mit der Bestellung fortfahren, indem Sie die Versanddaten eingeben und Aktionscodes anwenden.
- Und schließlich müssen Sie die ausgewählten Produkte bezahlen.
Wenn eine der Komponenten des Wertstroms fehlschlägt, kann der Kunde die gewünschte Aktion nicht ausführen, was dazu führt, dass er das Produkt nicht kauft und letztlich den Umsatz des Unternehmens verringert.
Mit Hilfe von Wertstrom- und User Journey-Mapping können wir einen Ausgangspunkt schaffen, um zu verstehen, wie Systeme den Geschäftswert liefern, und ein einheitliches Verständnis und eine einheitliche Sprache zwischen Geschäfts- und IT-Stakeholdern fördern.
Service-Mapping
Ausgehend von diesem kombinierten, nicht-technischen Überblick über die Elemente des Wertstroms und die Customer Journey können wir nun untersuchen, wie Systeme und ihre Komponenten, z. B. Dienste, den Geschäftswert unterstützen und liefern. Dies wird durch das Service Mapping erreicht.
Nehmen wir das Element "Suche" aus unserem Wertstrom: die Suche nach einem Produkt, die Anzeige der 10 besten Produkte einer Kategorie und die Anzeige relevanter Empfehlungen. In unserem Beispiel wird jede dieser Benutzeraktionen durch einfache Dienste unterstützt, was zu einer 1:1-Zuordnung führt.
Die Anzeige relevanter Empfehlungen kann jedoch durch mehrere Dienste erreicht werden, z. B. durch die Verwendung der früheren Kaufhistorie des Kunden, die Verwendung von Analysen zur Anzeige von Produkten, die häufig zusammen gekauft werden, oder die Anzeige ähnlicher Alternativen. Wenn dies der Fall ist, müssen alle relevanten (nachgelagerten) Services abgebildet werden, um eine umfassende Service Map zu erstellen.
Wenn Sie einen unserer drei Dienste nicht nutzen können, können Sie die Produkte auch nicht bestellen und bezahlen.
Diese Dienste sind jedoch nicht unbedingt voneinander abhängig. Eine individuelle Produktsuche erfordert möglicherweise weder eine Liste der 10 besten Produkte pro Kategorie noch eine personalisierte Liste mit Empfehlungen.
Einzelne Services liefern nach wie vor einen geschäftlichen Nutzen, und die Messung der Qualität einzelner Services hilft uns, eine abgestimmte Sicht und Messung der Geschäfts- und IT-Leistung zu schaffen.
Es ist wichtig, die Auswirkungen von IT-Systemen auf das gesamte Unternehmen zu verstehen und technische Praktiken mit den Unternehmenszielen in Einklang zu bringen. Wertstrom- und Customer Journey Mapping sowie Service Mapping geben Aufschluss darüber, wie Systeme den Geschäftswert liefern und erleichtern ein einheitliches Verständnis zwischen Geschäfts- und IT-Stakeholdern. Durch die Messung der Qualität einzelner Dienste lässt sich ein umfassender Überblick über die Geschäfts- und IT-Leistung gewinnen. Insgesamt ist SRE unerlässlich, um die Zuverlässigkeit, die Effizienz und den Erfolg komplexer Systeme in der heutigen digitalen Landschaft zu gewährleisten.
Sind Sie daran interessiert, mehr über Site Reliability Engineering zu erfahren? Besuchen Sie unser Site Reliability Engineering Service-Seite.
Unsere Ideen
Weitere Artikel

War die Linksverschiebung der richtige Schritt?
Erfahren Sie, wie die Linksverschiebung bei DevOps die Teamleistung steigert, die kognitive Belastung reduziert und die Arbeit der Entwickler durch...
Sander Aernouts

Drei häufige Fallstricke bei der Plattformentwicklung und wie Sie sie vermeiden...
Entdecken Sie 3 Fallstricke im Platform Engineering und erfahren Sie, wie Sie diese vermeiden können, um Produktivität, Innovation und langfristigen...
Jelmer de Jong
Contact