Blog

Wie sieht es mit dem Data Lake im Jahr 2021 aus?

Aktualisiert Oktober 20, 2025
7 Minuten

Die Idee des Data Lake ist relativ neu - der Begriff selbst wurde erstmals im Jahr 2010 verwendet. Interessanterweise waren fünf Jahre später nur 1,12% der Befragten der Meinung, dass dieses neue Konzept auf einer detaillierten Ebene ausreichend definiert und konsistent ist. Darüber hinaus bezeichnete der verstorbene Dave Needle (Co-Chefarchitekt von Amiga 1000) die "so genannten Data Lakes" als "eine der umstrittensten Methoden zur Verwaltung von Big Data". Und im Jahr 2016 veröffentlichte Forbes einen Artikel mit dem Titel "Why Data Lakes Are Evil".

Die Reaktion auf Data Lakes war jedoch nicht durchweg schlecht. Ganz im Gegenteil. Viele haben Data Lakes als eine Art Allheilmittel betrachtet - eine magische Lösung, die alle ihre Datenprobleme lösen kann.

Es stellt sich also die Frage, welche Sichtweise näher an der Wahrheit ist. Und ist die Situation im Jahr 2021 anders als noch vor ein paar Jahren?

Lassen Sie es uns herausfinden!

Datensee

Data Lake Konzept - Was ist ein Data Lake?

Das Konzept des Data Lake wurde als Antwort auf die immer wiederkehrenden Beschwerden über die Datenspeicherung entwickelt. Die neue Idee zielte darauf ab, die Daten aus mehreren Geschäftsanwendungen und Datensystemen in Rohform an einem Ort zusammenzuführen, um sie später zu strukturieren und zu verarbeiten (was für den Betrieb von Datenpipelines von großem Nutzen ist). Der Data Lake sollte also all die Träume von der schnellen Zusammenführung strukturierter und unstrukturierter Daten in einem einzigen Repository Shop für Geschäftseinblicke wahr werden lassen.

Und während die beliebten Data Warehouses dazu neigen, Unternehmen in enge Datenparadigmen und -silos zu zwingen, legt der Data Lake den Schwerpunkt auf eine ganzheitlichere und umfassendere Sicht der Analytik. Data Lakes sind entstanden, um den Bedarf an einem skalierbaren, kostengünstigen Datenspeicher zu decken, der es Unternehmen ermöglicht, alle Datentypen unabhängig von ihrer Quelle einfach zu speichern und diese Daten dann für eine evidenzbasierte Entscheidungsfindung zu analysieren.

Warum wurden sie dann überhaupt als "böse" angesehen?

Probleme mit der Data Lake-Technologie (und fehlerhafte Wahrnehmung)

Einer der Gründe, warum Data Lakes so viel negative Presse bekommen haben, könnte die Tatsache sein, dass ihr Zweck oft missverstanden wird (oder hoffentlich wurde).

Laut CIO konzentriert sich die Kontroverse um Data Lakes auf ihre vermeintlichen Nachteile. Sie sind angeblich zu schwierig zu verwalten, zu unstrukturiert und zu umfangreich. Dennoch ist es wichtig, sich daran zu erinnern, dass Data Lakes wichtige Funktionen bieten, die sie einzigartig wertvoll machen.

Data Lakes sind keineswegs eine alleinige Alternative zu Data Warehouses. Die Ziele beider Datenspeichersysteme sind unterschiedlich. Data Warehouses sind nützlich, um strukturierte Daten zu speichern, die einen klaren Zweck haben. Wie Sie inzwischen wissen, dienen Data Lakes hauptsächlich dem Gegenteil. Infolge dieser Missverständnisse scheitern einige Data-Lake-Projekte, weil Unternehmen erwarten, dass Data Lakes die Antwort auf alle ihre Probleme sind. Aber das müssen sie nicht unbedingt sein. Wenn ein Unternehmen hauptsächlich strukturierte Daten hat, aber beschließt, Data Lakes einzuführen, weil sie ein cooles Schlagwort sind, mit dem jeder in der Branche um sich wirft, dann könnte jemand sagen, dass Data Lakes nichts Besonderes sind und den Aufwand nicht wert sind.

Data Lake Storage - Vorteile

Schauen wir uns also die wichtigsten Vorteile eines Data Lake genauer an.

Einer der entscheidenden Vorteile von Data Lakes ist die kostengünstige und skalierbare Speicherung aller Daten an einem Ort. Sie können die gespeicherten Informationen jederzeit nutzen und warten, bis ein bestimmter analytischer Bedarf entsteht (ohne sich Sorgen zu machen, dass es sich nicht lohnt, viel Geld für die Speicherung auszugeben).

Entscheidend ist, dass Data Lakes im Hinblick auf die Datenaufnahme äußerst flexibel sind. Sie müssen sich nicht um die Strukturierung kümmern. Sie können mit der Speicherung Ihrer Daten in ihrem nativen Format beginnen. Und das jederzeit - auch wenn Sie noch an Ihrer ETL-Arbeitslast arbeiten; Sie müssen nicht warten, bis alles fertig ist.

Darüber hinaus zeichnet sich ein Data Lake im Gegensatz zu einem Data Warehouse dadurch aus, dass er die Verfügbarkeit großer Mengen kohärenter Daten zusammen mit Deep Learning-Algorithmen nutzt. Und mit einer gut verwalteten Data Lake-Struktur können Entscheidungsanalysen und ML-Aufgaben viel schneller durchgeführt werden.

Und, ganz wichtig, Data Lakes bieten auch einen breiteren Datenzugang. Um datengestützte Entscheidungen treffen zu können, benötigen Führungskräfte in vielen Unternehmen Unterstützung bei der Beschaffung relevanter Daten. Zum Beispiel müssen sie eine Datenabteilung um einen bestimmten Bericht bitten.Data Lakes haben das Potenzial, Daten für ein ganzes Unternehmen verfügbar zu machen. Und die Stärke, die darin liegt, ist kaum zu übersehen.

Data Lake... oder eher Data Swamp!

Die Herausforderungen, die mit Data Lakes verbunden sind, lassen sich sehr gut anhand von Datensümpfen veranschaulichen - ein höchst ungeordneter Datenspeicher, der so gut wie nutzlos ist. Und Vorsicht - Ihr Data Lake kann sich in einen Datensumpf verwandeln, ohne dass Sie es überhaupt merken. Das Ergebnis ist, dass Ihr Data Lake unzugänglich wird oder nur noch wenig Wert liefert.

Der Grund, warum es Datensümpfe gibt, liegt im größten Vorteil des Data Lakes - der Tatsache, dass er alle Daten Ihres Unternehmens problemlos speichern kann.

Sie können einen Datensee mit einem schwarzen Loch vergleichen: Er nimmt alles auf, was Sie ihm zuführen. Aber da enden die Gemeinsamkeiten auch schon. Denn während schwarze Löcher mehr oder weniger ewig existieren können und alles verschlingen, was ihnen über den Weg läuft, sind Data Lakes nicht so flexibel. Wenn Sie sie mit zu vielen Daten füttern, werden sie irgendwann unhandlich. Und da die in Data Lakes gespeicherten Informationen in der Regel aus allen möglichen Quellen stammen und höchstwahrscheinlich unstrukturiert sind, verwandeln sie sich irgendwann in einen chaotischen, unansehnlichen Cluster, der keinen wirklichen Nutzen mehr bringt (oder im schlimmsten Fall sogar die Abläufe verlangsamt, die eigentlich schnell sein sollten).

Glücklicherweise können Sie vermeiden, in einem Datensumpf zu enden. Sie müssen nur ein paar gute Praktiken befolgen.

Erstens: Sammeln Sie weniger Daten. Ich weiß, dass es verlockend ist, jedes bisschen Information zu speichern - schließlich könnte es irgendwann einmal nützlich sein, oder? Nun, nicht unbedingt. Stellen Sie sicher, dass Sie nur solche Daten speichern, die auch nur das geringste Potenzial haben, einen Wert zu liefern.

Als nächstes sollten Sie darauf achten, dass Sie Metadaten verwenden - Informationen, die andere Daten beschreiben. Ohne Metatags wird es fast unmöglich sein, etwas in Ihrem Data Lake zu finden. Selbst wenn Sie genau wissen, wonach Sie suchen. Ohne ein Tagging-System können Sie nicht effektiv nach verschiedenen Arten von Daten suchen... was Ihren Data Lake in einen Datensumpf verwandeln wird!

Darüber hinaus sollten Sie eine Strategie zur Datenbereinigung und automatisierte Prozesse zur Pflege des Data Lake einrichten. Wenn Sie all das tun, können Sie beruhigt schlafen.

Herausforderungen für Data Lake im Jahr 2021

Um zu unserer Ausgangsfrage zurückzukehren - wie werden Data Lakes im Jahr 2021 wahrgenommen?

Zum Glück habe ich eine großartige Möglichkeit, darauf zu antworten. Mit dem Einsatz von Daten!

Experten sagen voraus, dass der Data-Lake-Markt von 7,9 Mrd. USD im Jahr 2019 bis 2024 auf 20,1 Mrd. USD anwachsen wird, wobei eine Verlagerung zu Cloud-basierten Plattformen stattfindet. Darüber hinaus berichtet Business Wire, dass der Markt für Data Lakes im Jahr 2020 auf 3,74 Milliarden USD geschätzt wurde und bis 2026 voraussichtlich 17,60 Milliarden USD erreichen wird, bei einer CAGR von 29,9 % im Prognosezeitraum 2021 - 2026. Es ist also klar, dass Data Lakes keineswegs tot sind. Sie werden auch als unverzichtbar für bestimmte Arten von Projekten oder Organisationen angesehen. Zu letzteren gehören Start-ups, die Data Lakes als kostengünstige Option nutzen können, die dank der analytischen Möglichkeiten ihren Betrieb unterstützen kann.

Es gibt jedoch eine wichtige Herausforderung, die ich hervorheben möchte. Um Data Lakes zu verwalten, brauchen Sie qualifizierte Fachleute. Andernfalls könnten Sie mit einem Datensumpf enden. Wenn das passiert, werden Sie nicht nur keine nützlichen Erkenntnisse gewinnen, sondern auch für etwas bezahlen, das überhaupt keinen Wert hat (der wirtschaftliche Faktor ist dann natürlich kein Vorteil mehr).

Akzeptieren Sie Data Lakes - aber haben Sie auch einen Plan für sie

Im Jahr 2021 sind Data Lakes nützlich und beliebt. Ihre schlechte Presse kommt jedoch nicht von ungefähr. Wenn sie schlecht verwaltet werden, können Data Lakes tatsächlich als böse bezeichnet werden.

Wenn Sie diese Punkte jedoch im Auge behalten und einen klaren Zweck für Ihren Data Lake und die darin enthaltenen Daten definieren, kann Ihr Data Lake zu einer nützlichen und wirtschaftlichen Maßnahme werden, um wertvolle Erkenntnisse zu gewinnen und Informationen zu speichern.

Vielen Dank fürs Lesen!

Contact

Let’s discuss how we can support your journey.