Artikel

Intelligente IT-Überwachung und Ursachenanalyse braucht Big Data

Mark Bakker

Aktualisiert Februar 23, 2026

3 Minuten

Unsere Big Data-Engine ist bereit. Wir sind auf dem besten Weg, die Art und Weise zu verändern, wie IT-Abteilungen arbeiten und ihre IT-Abläufe verwalten.

Um zu verstehen, was in einem IT-Stack passiert, brauchen wir gute, detaillierte Daten. Und wie wir alle wissen, sammeln wir diese Daten über alle möglichen Systeme. Wir überwachen, messen und analysieren, wie Softwareanwendungen funktionieren, welche neuen Implementierungen wir vorgenommen haben, welche Änderungen wir an unserer Architektur vorgenommen haben oder welche Probleme wir haben und zu lösen versuchen. Alle diese Teile zusammen sind Teil eines großen Puzzles. Und wenn Sie Geschäftsprozesse, Dienste und Infrastrukturkomponenten einschließlich ihrer Abhängigkeiten und Zustände hinzufügen, erhalten Sie das, was wir Full Stack Chain Monitoring nennen. Ein einheitlicher Überblick in Echtzeit ist ein interessanter Ansatz, da er DevOps-Teams, Architekten oder IT-Servicemanagern Aufschluss darüber gibt, wie gesund ihr (Teil des) Stacks ist. Und es ist ein großartiges Tool für die Ursachenanalyse, da es sofort zeigt, woher tatsächliche Ausfälle oder Serviceunterbrechungen kommen.

Der nächste Schritt ist die Speicherung all dieses Wissens in einer großen Datenbank für die Analyse des IT-Betriebs.

Große Daten für einen pro-aktiven Ansatz

Aber was wäre, wenn wir all diese Echtzeitinformationen als Big Data speichern und sie nutzen könnten, um die Überwachung und die Ursachenanalyse besonders intelligent zu gestalten? Wir könnten die Live-IT-Stack-Übersicht als Zeitmaschine verwenden, um in die Vergangenheit zu gehen und zu sehen, wie Ihre Infrastruktur vor einem Monat aussah. Oder entdecken, wo, tief im Stack versteckt, vor 9 Stunden eine kleine Änderung oder ein Fehler eine andere Komponente "infiziert" hat und damit einen Dominoeffekt ausgelöst hat, der sich durch den Stack zieht und schließlich einen unserer Kerndienste trifft. Oder Sie entdecken Anomalien und können vorausschauend handeln und reparieren, bevor es zu kritischen Ausfällen von Services kommt. Eine proaktive Ursachenanalyse oder selbstheilende Mechanismen wären das Ergebnis.

Ein großer Schritt nach vorn - neue Technologie erforderlich

Der nächste Schritt des StackState-Konzepts von Echtzeit zu einer Kombination aus Echtzeit und vollständiger Historie erforderte spezielle Big Data-Technologie zum Speichern und Abrufen, die wir auf dem Markt nicht finden konnten. Manchmal brauchen großartige Ideen neuere oder bessere Technologien. In den letzten 6 Monaten haben wir hart daran gearbeitet, eine neue Big Data-Engine namens StackGraph zu entwickeln, die unsere Anforderungen erfüllt. Wir haben sie gerade in StackState integriert und glauben, dass dies die Art und Weise verändern wird, wie IT-Abteilungen Ursachenanalysen durchführen und ihren gesamten IT-Stack verwalten und kontrollieren, um ihre Servicequalität zu verbessern.

Open-Source-Graph-Datenbank

Bevor Sie jetzt anfangen, mir alle möglichen technischen Fragen zu Graphdatenbanken zu stellen (ich bin kein Ingenieur), habe ich gute Neuigkeiten für Sie. Wir planen die Veröffentlichung von StackGraph als Open-Source-Projekt, um diese großartigen Fähigkeiten mit der Welt zu teilen. Haben Sie also Geduld und bleiben Sie auf dem Laufenden.

Bei StackState bauen wir eine AIOps-Plattform auf, die IT-Betriebsteams aufwerten wird. Möchten Sie mehr erfahren? Laden Sie unseren kostenlosen Leitfaden herunter!