Artikel

Dunkle Datenanalyse

Prashant Shekhar

Aktualisiert Oktober 10, 2025
7 Minuten

blog headerhdpi

Dark Data, ein von Gartner geprägter Begriff Gartner Gartner definiert Dark Data als "die Informationsbestände, die Unternehmen im Rahmen ihrer regulären Geschäftsaktivitäten sammeln, verarbeiten und speichern, aber im Allgemeinen nicht für andere Zwecke nutzen - zum Beispiel für Analysen, Geschäftsbeziehungen und die direkte Monetarisierung. Ähnlich wie bei der dunklen Materie in der Physik machen dunkle Daten in den meisten Unternehmen das Universum der Informationswerte aus. "

44 zetabytehdpi

Die weltweit erzeugte Datenmenge beträgt allein im Jahr 2020 44 Zettabytes. Diese Datenmenge wächst exponentiell und hat sich um fast 1 0 Mal in den letzten sieben Jahren. Die Datenerzeugung ist zurückzuführen auf die kontinuierliche Zunahme der Nutzung digital vernetzter Geräte in allen Lebensbereichen, von Mobiltelefonen über vernetzte Autos bis hin zu intelligenten Häusern - was immer Sie wollen.

80%hdpi

Laut einer IBM-Studie sind 80% der Daten, die erzeugt werden, dunkle, unstrukturierte Daten, Daten, die die Computer in den letzten 40 Jahren entwickelt haben. Solche Daten werden nicht effizient analysiert, und daher entgehen uns 80 % des Wissens, das in diesen Daten steckt." Dieser Prozentsatz wird bis Ende 2020 voraussichtlich auf 93% ansteigen. Schon bald wird uns nur noch ein kleiner Teil der Daten zur Verfügung stehen, die traditionell (oder relational) sind.

Warum sind die Daten dunkel?

Dark Data bezieht sich auf Daten, die nicht täglich für Analysen, zur Verbesserung von Geschäftsprozessen oder zur Identifizierung neuer Möglichkeiten analysiert werden können. Es kann mehrere Gründe geben, warum die Daten als "dunkel" eingestuft werden können

Unstrukturierte DatenahdpiUnstrukturierte Daten: Aufgrund der Komplexität, die unstrukturierte Daten mit sich bringen, ist es schwierig, sie zu verarbeiten. Unstrukturierte Daten stellen eine Reihe von Herausforderungen in Bezug auf die Datenverwaltung dar. SLAs für die Erkennung und Klassifizierung von Daten, fehlende Tools und Infrastruktur zur Verarbeitung der Daten sind einige der größten Hindernisse.

firewallhdpi

Hinter der Firewall: Viele Unternehmensdaten, die hinter der Firewall liegen, wie E-Mails, Dokumente, Nachrichten, Protokolle, Benachrichtigungen usw., werden nicht für Analysen verwendet. Diese Daten sind meist textbasiert und liegen in verschiedenen Datenbanken in sichere Server aufgrund von Richtlinien zur Einhaltung von Daten und Vertraulichkeit.       

Mangel an Werkzeugshdpi

Fehlende Werkzeuge und Infrastruktur: Wie Sie sehen können, Bei der Mehrheit der Dark Data handelt es sich um unstrukturierte Daten mit hoher Geschwindigkeit und großem Volumen. Wenn sie mit Bildern, Audio- und Videodaten kombiniert werden, wird die Komplexität nur noch größer. In vielen Fällen sind die Unternehmen:

  • nicht über die notwendigen Werkzeuge und die Infrastruktur verfügen, um die dunklen Daten zu speichern,
  • fehlende Kenntnisse über Tools und Software zur Verarbeitung der Daten
  • vor kulturellen und personellen Herausforderungen stehen, um die Datenplattform zu modernisieren oder die Mitarbeiter zu qualifizieren. Schon jetzt sind die Tools zur Verarbeitung dieser Daten lex-Datenquellen werden immer mehr und die Fachkenntnisse sind rar.

    tiefe Webhdpi

Deep Web: Während wir uns auf Google und Bing verlassen, um uns den Alltag zu erleichtern, indem sie uns bei der Suche nach Antworten auf unsere täglichen Fragen helfen, gibt es immer noch fast 95 % der Daten, die noch nicht von den Suchmaschinen indiziert und daher nicht auffindbar sind (laut einer von IBM durchgeführten Untersuchung). Medizinische und finanzielle Aufzeichnungen, juristische Dokumente, behördliche und organisationsspezifische Datenspeicher sind einige der Beispiele für das Deep Web

Welche Auswirkungen hat Dark Data auf die Industrie?

Ungenutzte Daten sind in allen Branchen vorhanden. In einigen der traditionellen Branchen wie der Fertigung und der Lieferkette ist dies noch deutlicher.

Laut der von Gartner durchgeführten Umfrage Gartner, 85% der Befragten sind der Meinung, dass die Lieferkette eine erhebliche Komplexität und eine wachsende Herausforderung darstellt. Durch die globale Verteilung auf Händler, Lieferanten und Kunden fallen in dieser Branche riesige Mengen an Daten an, von denen nur 5 % analysiert werden. Es gibt viele Möglichkeiten, Big Data und damit verbundene Technologien in diesem Bereich zu nutzen.

In der traditionellen Pharmaproduktion können diese Daten genutzt werden, um die F&E-Aktivitäten zu beschleunigen. Wenn der Kundenauftrag eingeht und von der Bestellung zum Versandhafen geht, durchläuft er mehrere Abteilungen (Vertrieb und Marketing, Produktion, Lieferkette, Distribution). Ähnlich viele ungenutzte Daten liegen in Bereichen wie Real-World Evidence und Pharma Covigilance, um genaue Einblicke in das Verhalten des Medikaments außerhalb der kontrollierten Umgebung einer klinischen Studie zu erhalten.

Im Reise- und Gastgewerbe und im Einzelhandel beispielsweise ist es äußerst wichtig, eine 360°-Sicht auf den Kunden zu erhalten, um Kundenbindung, personalisiertes Marketing und ein besseres Verständnis der angebotenen Produkte und Dienstleistungen zu gewährleisten. Ein großer Teil der Daten wird jedoch durch mündliche Kommunikation und Umfragen auf Papier generiert, die zwar gespeichert, aber nicht für Verbesserungen genutzt werden.

Die Nutzung der von IoT und vernetzten Geräten erzeugten Daten öffnet die Türen für Anwendungsfälle wie vorausschauende Wartung und proaktive Warnung und Überwachung in allen Branchen.

Wie macht man sich Dark Data zunutze?

Wie Sie in den vorherigen Abschnitten gesehen haben, gibt es ein riesiges digitales Universum, das noch weitgehend ungenutzt ist und nicht für Analysen und Erkenntnisse genutzt wird. Dark Analytics bezieht sich auf die Fähigkeit, Dark Data zur Gewinnung von Erkenntnissen und Einsichten zu nutzen, die die Unternehmen dann verwenden können.

Der Umgang mit diesen Daten erfordert eine "Data first"-Mentalität in der gesamten Hierarchie. Das bedeutet, dass die Unternehmen die Art und Weise, wie sie mit ihren Daten umgehen, ändern müssen. Der gesamte Weg der Daten muss durchdacht werden, von der Erfassung, Verarbeitung, Speicherung und Nutzung. Viele Unternehmen erfassen die Daten nur unter dem Gesichtspunkt der Einhaltung von Vorschriften und Bestimmungen und nicht unbedingt, um sie den Benutzern zur Verfügung zu stellen. Daher landen die Daten in Silos und in unterschiedlichen Systemen ihrer Wahl. Diese "Datenhortung" führt zu riesigen Datenmengen, die nicht unbedingt alle nützlich und gleichzeitig fehleranfällig sind. Eine "Data First"-Strategie ermöglicht die Demokratisierung von Daten und gewährleistet gleichzeitig Datenqualität, Data Governance und Datensicherheit in Übereinstimmung mit den F.A.I.R.-Prinzipien (auffindbar, zugänglich, interoperabel und wiederverwendbar).

Was die Technologie betrifft, so ist dank der Verfügbarkeit von Public Cloud-Plattformen (Amazon, Google, Microsoft), um nur einige zu nennen, mit den sofort einsatzbereiten Serviceangeboten sowohl als PaaS (Platform as a Service) als auch als SaaS (Software as a Service) der Weg zu Dark Analytics jetzt viel einfacher geworden. Da sich die Technologie ständig weiterentwickelt, werden Text Mining, Video Analytics und Speech to Text langsam zu Standardimplementierungen. Die Video Analytics API von Google zum Beispiel kann jetzt jede Szene in einem Video durchgehen und bestimmte Elemente in den Szenen identifizieren. Anschließend kann eine Suchmaschine implementiert werden, die das Video durchsucht, um bestimmte Merkmale zu identifizieren und festzustellen, wann sie in dem Video auftauchen.

Die hohe Rechenleistung und Elastizität der Cloud, kognitive Analytik und Mustererkennung durch maschinelles Lernen machen es möglich, diese Daten für Analysen zu nutzen. Allerdings müssen Unternehmen auch sicherstellen, dass die präsentierten Analyseergebnisse vertrauenswürdig sind, den Vorschriften entsprechen und keine Bedrohungen für die Cybersicherheit darstellen.

Fazit

Bei Dark Data handelt es sich eindeutig nicht um strukturelle oder relationale Daten. Es handelt sich auch nicht um unstrukturierte Daten, solange Sie in der Lage sind, sie zu erfassen, zu klassifizieren und für Erkenntnisse zu nutzen. Es mag den Anschein haben, dass dies ein Synonym für Big Data ist, aber denken Sie daran, dass wir bei der Big Data-Analyse über Daten (strukturiert/unstrukturiert) sprechen, die wir sammeln und für Analysen verwenden.

Wenn Sie ein Unternehmen sind, das das enorme Potenzial von Dark Data nutzen möchte, sollten Sie mit den folgenden Schritten beginnen:

Bewertung der Quelldaten: Analysieren Sie die Punkte, an denen Daten generiert werden, und beschränken Sie sich dabei nicht nur auf die ERP- und Point-of-Sales-Systeme.

Bewertung der Datenplattform: Verstehen Sie die Grenzen und Möglichkeiten der bestehenden Datenplattform und ob sie bei der Datenerfassung und -extraktion helfen kann.

Erwägen Sie die Cloud: Die Cloud bietet unbegrenzte Elastizität und Flexibilität sowie eine Vielzahl sofort einsetzbarer Dienste, die als Ausgangspunkt für die Extraktion dieser Daten dienen können.

Identifizieren Sie einen Anwendungsfall: Um die Vorteile zu erkennen und das Vertrauen der Stakeholder zu gewinnen, sollten Sie einen Anwendungsfall für die schnelle Umsetzung und den erwarteten Nutzen identifizieren.

In der heutigen Welt sind fast alle Unternehmen Datenunternehmen. Um wettbewerbsfähig zu bleiben, müssen Unternehmen in der Lage sein, aus diesen Daten Kapital zu schlagen und darauf zu reagieren, um nicht Gefahr zu laufen, obsolet zu werden. Unternehmen wie Google, Amazon und Facebook tun dies bereits seit Jahren und sind daher führend in diesem Bereich. Aber es ist nie zu spät, damit anzufangen. Die Datenmodernisierung ist der Schlüssel dazu. Gleichzeitig sind Compliance, Sicherheit und Bedrohungen Bereiche, die berücksichtigt werden müssen. Wenn Sie es richtig anpacken, wird sich Ihnen eine ganz neue Welt voller Möglichkeiten eröffnen.

Contact

Let’s discuss how we can support your journey.