Blog
Die sich ständig verändernde Rolle der Datenmodellierung

Einführung
In diesem Blogbeitrag untersuchen wir die Entwicklung der Datenmodellierung von den Anfängen mit Transaktionsdatenbanken bis hin zu ihrer Rolle bei der Ermöglichung von KI-gestützten Erkenntnissen heute. Wir erörtern die Auswirkungen des technologischen Fortschritts, des Cloud Computing und des Aufstiegs von KI/ML-Anwendungen auf die Datenmodellierungspraxis.
Da wir beabsichtigen, dass große Sprachmodelle (LLMs) in der Lage sein sollen, die in unseren Informationssystemen gespeicherten Daten abzufragen, müssen wir unsere Datenmodelle in die Lage versetzen, Abfragen zu generieren, die die richtigen Daten für analytische Zwecke abrufen.
Wir untersuchen die Herausforderungen und Möglichkeiten, die sich aus der Integration von tabellarischen Daten mit Kontextinformationen, Metadaten und KI/ML-Systemen ergeben. Der Bedarf an angereicherten Datenmodellen wird deutlich, die eine effektivere Nutzung dieser KI/ML-Systeme ermöglichen.
Während wir durch die sich ständig verändernde Landschaft der Datenmodellierung navigieren, heben wir die Bedeutung anderer Themen wie Datenqualität, ethische Überlegungen und Data Governance bei der Entwicklung robuster KI/ML-Anwendungen hervor.
Begleiten Sie uns auf unserer Reise durch die Transformation von Datenmodellen und bereiten Sie sich darauf vor, an der Spitze der KI/ML-Revolution zu stehen.
Die Anfänge der Datenmodellierung
Datenmodellierung ist nicht neu. Schon bevor es Computer gab, haben wir modelliert, wie Daten gespeichert werden und in Beziehung zueinander stehen. Allerdings hat sich die Datenmodellierung im Laufe der Jahre stark verändert, was auf den technologischen Fortschritt und den zunehmenden Einsatz von KI/ML-Anwendungen zurückzuführen ist.
Als vereinfachte Definition verstehen wir ein Datenmodell als eine Darstellung der Realität. Wenn auch vereinfacht, bedeutet dies, dass wir verschiedene Schemata oder Zeichnungen, Codes oder andere Darstellungen haben können, die es uns ermöglichen zu verstehen, wie die Daten in einem Datensystem gespeichert werden. Da Daten in verschiedenen Formaten gespeichert und abgerufen werden können, stehen uns mehrere Datenmodelle zur Auswahl, deren Unterschiede uns bei der Entscheidung helfen können, welches für den jeweiligen Anwendungsfall besser geeignet ist.
Bis in die 1990er Jahre hatte die Datenverarbeitung in Datenbanken erhebliche Einschränkungen. Die Speicherung war ziemlich teuer und komplexe Datenoperationen konnten sehr lange dauern, bis sie abgeschlossen waren. Die Datenmodelle dieser Ära konzentrierten sich darauf, die Rechengeschwindigkeit zu maximieren und den Speicherplatz zu reduzieren.
In dieser Zeit musste die Rechenleistung vor Ort gehostet oder "on-premise" bereitgestellt werden. Daher waren die Unternehmen durch ihre räumlichen Gegebenheiten eingeschränkt. Sie brauchten einen Raum speziell für diesen Zweck und ein Team, das sich darum kümmerte, ihn am Laufen zu halten.
(Erstellt mit DALL-E 3)
Das Data Warehouse war die wichtigste Veränderung im ersten Jahrzehnt der 2000er Jahre. Als vielen Unternehmen mehr Rechenleistung zur Verfügung stand und die explosionsartige Verbreitung des Internets große Datenmengen erzeugte, verlagerten sich die Daten von transaktionalen Datenbanken zu analytischen Workflows.
Die Datennutzer mussten diese Informationen auf eine für das Unternehmen verständliche Weise organisieren und gleichzeitig Wissen aus den Rohdaten extrahieren. Diese verwertbaren Erkenntnisse sollten dann genutzt werden, um die Entscheidungsfindung des Unternehmens schneller als je zuvor zu steuern. Die Datenmodelle dieser Ära entwickelten sich, um den Menschen durch Fakten und Dimensionen, die auf eine abstrakte, aber genaue Darstellung der Arbeitsweise des Unternehmens ausgerichtet waren, verwertbare Erkenntnisse zu vermitteln.
Das Cloud-Zeitalter
Die Einführung von Cloud Computing hat das Daten-Ökosystem in den 2010er Jahren durcheinander gebracht. Cloud-Umgebungen ermöglichen es Datennutzern, die Beschränkungen von Systemen vor Ort zu überwinden.
Die Speicherkosten sanken, und wenn der Datennutzer mehr Rechenleistung benötigte, brauchte er nur ein wenig mehr für mehr Rechner zu bezahlen, ohne die physische Infrastruktur in seinen Serverräumen zu verändern. Die größte Veränderung war die Einführung des verteilten Rechnens, um große Datenmengen effizient zu verarbeiten. Massive Parallel Processing (MPP) Engines wie Google BigQuery veränderten die Perspektive auf die Verarbeitung und Abfrage von Daten.
(Bildnachweis: Google)
Infolgedessen haben sich die Datenmodelle erneut geändert, um flexibler zu sein und Verknüpfungen zu vermeiden, da Informationen nun in verschiedenen Teilen der Welt gespeichert sein können. Es ist besser, wenn die für den analytischen Arbeitsablauf benötigten Daten zusammenbleiben.
In der Cloud-Ära entwickeln die Datennutzer die Anwendungsfälle ständig weiter und fügen Datenquellen hinzu oder entfernen sie. Das macht es schwierig, den traditionellen Datenmodellierungsprozess zu befolgen, bei dem zunächst ein konzeptionelles, dann ein logisches und schließlich ein physisches Datenmodell erstellt wird.
Jedes Unternehmen möchte aus den verschiedenen Arten von Informationen, die ihm zur Verfügung stehen, einen Nutzen ziehen. Traditionelle relationale Modelle, die auf Tabellen zur Speicherung von Daten beruhen, sind immer noch weit verbreitet. Doch die Unternehmen haben das Bedürfnis, andere Dateiformate wie PDF, Video, Bild, Ton oder semistrukturierte Datentypen wie JSON oder XML einzubeziehen, was die Datenmodelle zu neuen Formen treibt.
KI/ML und die Zukunft der Datenmodellierung
Die rasante Entwicklung im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML) schafft Möglichkeiten, diese Arten von nicht strukturierten oder semistrukturierten Daten durch KI/ML-Anwendungen in den analytischen Workflow einzubeziehen. In den letzten Jahren haben Large Language Models (LLMs) die Art und Weise, wie wir mit Technologie umgehen, in fast allen Bereichen verändert.
Heutzutage sieht man häufig Anwendungen mit Chatbots, die LLMs verwenden, bei denen der Benutzer fragen kann, was immer er möchte, und eine Antwort erhält. Dies vermittelt den falschen Eindruck, dass der LLM alles weiß und jede Frage beantworten kann.
LLMs sind jedoch darauf trainiert, in jedem Fall eine Antwort zu liefern, und manchmal produzieren diese Systeme ungenaue Antworten, sogenannte "Halluzinationen". Um dies zu vermeiden, benötigen LLMs den richtigen Kontext, um genaue Ergebnisse zu liefern. Mithilfe dieses Kontexts können LLMs Informationen aus unstrukturierten Daten extrahieren und sogar grundlegende analytische Workflows durchführen, indem sie Code zur Abfrage eines Datensystems generieren.
(Erstellt mit DALL-E 3)
Betrachten wir ein einfaches Beispiel: Nehmen wir an, wir möchten, dass ein LLM das Verhalten von Kunden auf der Grundlage ihrer Kaufhistorie analysiert. Wir müssen das Modell mit relevantem Kontext versorgen, wie z.B.:
- Metadaten über die Kunden (z. B. demografische Daten, Vorlieben)
- Etiketten, auf denen die Art der gekauften Produkte angegeben ist
- Anmerkungen, die die Beziehung zwischen Käufen und Kundensegmenten beschreiben
Durch die Bereitstellung dieses Kontexts ermöglichen wir es dem LLM, Muster und Beziehungen zu erkennen, die aus den einzelnen Datenpunkten in den Tabellen unseres Datensystems vielleicht nicht sofort ersichtlich sind.
In der Praxis bedeutet dies, dass je nach Anwendungsfall unterschiedliche Datenmodellierungsansätze verwendet werden. Zum Beispiel:
- Denormalisierung: Umwandlung von Daten in ein Format, das für Menschen oder Maschinen leichter lesbar ist
- Normalisierung: Organisieren von Daten auf eine Weise, die Redundanzen reduziert und die Abfrageleistung verbessert
Angenommen, wir haben diese Informationen in unserer Datenbank:
Normalisiertes Datenmodell (mehrere Tabellen)
In einem vereinfachten Geschäft möchten wir Informationen über die Produkte erhalten, die unsere Kunden bestellen.
- Kunden
| Kunden |
|---|
| kunde_id |
| Name |
| Adresse |
- Bestellungen
| Bestellungen |
|---|
| auftrag_id |
| kunde_id |
| auftrag_datum |
- Details zur Bestellung
| Details zur Bestellung |
|---|
| auftrag_id |
| produkt_name |
| Menge |
Um Daten für einen bestimmten Kunden abzurufen, müssen wir diese drei Tabellen miteinander verbinden:
SELECT c.name, o.order_date, od.product_name, od.quantity
FROM Customers c
JOIN Orders o ON c.customer_id = o.customer_id
JOIN Order Details od ON o.order_id = od.order_id
WHERE c.customer_id = 123;
Denormalisiertes Datenmodell (einzelne Tabelle)
In einem denormalisierten Datenmodell werden alle Informationen, die wir für einen bestimmten Kunden benötigen, in einer einzigen Tabelle gespeichert:
- Kundenbestellungen
| kunde_id | Name | Adresse | auftrag_datum | produkt_name | Menge |
| 123 | John Smith | 123 Hauptstraße | 2022-01-01 | Produkt A | 2 |
| 123 | John Smith | 123 Hauptstraße | 2022-01-15 | Produkt B | 3 |
| ... | ... | ... | ... | ... | ... |
Um Daten für einen bestimmten Kunden abzurufen, können wir einfach diese einzelne Tabelle abfragen:
SELECT * FROM Customer Orders WHERE customer_id = 123;
Im normalisierten Modell müsste der LLM wissen, wie er mehrere Tabellen miteinander verbinden kann, um die gewünschten Informationen zu erhalten. Im Gegensatz dazu bietet das denormalisierte Modell alle erforderlichen Daten an einem einzigen Ort, so dass der LLM leichter darauf zugreifen und sie verarbeiten kann.
Wir können die beste Strategie für unsere spezifischen Bedürfnisse wählen, wenn wir verstehen, wie sich diese Ansätze auf die LLM-Leistung auswirken.
Mit dem Aufkommen dieser neuen Anwendungsfälle und Technologien müssen wir darüber nachdenken, wie wir die Daten am besten speichern und dem Endbenutzer zur Verfügung stellen können, mit anderen Worten, wir müssen überlegen, ob unser Datenmodell die beste Option ist, um die von uns erwarteten Ergebnisse zu erzielen.
Jetzt sind wir an der Reihe, die Frage zu beantworten, wie sich die Datenmodelle an diese Entwicklung anpassen müssen. Zunächst einmal müssen unsere bestehenden Datenmodelle komplexe Beziehungen erfassen und kontextbezogene Informationen und Metadaten hinzufügen, die den Kontext für diese KI/ML-Anwendungen schaffen.
Die Datenmodelle, die entwickelt wurden, um die Interaktion zwischen Maschinen und Menschen zu ermöglichen, müssen nun auch die Integration von Maschinen untereinander erleichtern. Wir versuchen immer noch, die beste Form für unsere Datenmodelle zu finden, um diese Interaktion zu vereinfachen.
Anreicherung von Datenmodellen mit kontextuellen Informationen und Metadaten
Um eine hohe Leistung und Genauigkeit mit LLMs zu gewährleisten, müssen die Datenmodelle richtig vorbereitet werden. Andernfalls gilt das Prinzip 'garbage in equals garbage out', was zu minderwertigen Ergebnissen führt. Datennutzer können diese neuen Herausforderungen mit den folgenden Überlegungen angehen:
- Konzentrieren Sie sich auf die Datenqualität: Die Datenqualität ist von entscheidender Bedeutung, da sie sich auf die Leistung von KI/ML-Anwendungen auswirkt. Dazu gehören Datenbereinigung, Erkennung von Ausreißern und der Umgang mit fehlenden Werten.
- Reichern Sie Datenmodelle mit Kontext an: Sobald ein Datenmodell vorhanden ist, sollten Sie es mit Kontextinformationen und Metadaten anreichern, um ihm eine Bedeutung zu verleihen und die Analyse zu erleichtern. Dies ermöglicht es Maschinen, die richtigen Daten für LLM-Anwendungen zu finden.
- Beschreiben Sie Beziehungen mithilfe von Wissensgraphen und Ontologien: Durch die Beschreibung von Datenbeziehungen mithilfe von Wissensgraphen und ontologiebasierten Ansätzen können Datennutzer die Anwendung und Genauigkeit von LLMs maximieren.
- Nutzen Sie zusätzliche Tools und Techniken: Datenbenutzer können Datenwörterbücher, Datenkataloge, semantische Modelle, Wissensgraphen, Texteinbettungen und Vektordatenbanken verwenden, um ihre Datenmodelle für LLM-Anwendungen zu verbessern.
- Implementieren Sie Leitplanken und Sicherheitsmaßnahmen: LLMs erfordern Sicherheitsmaßnahmen, um die Offenlegung sensibler Informationen zu verhindern. Um den Datenschutz und die Einhaltung von Vorschriften zu gewährleisten, müssen geeignete Kennzeichnungs- und Verwaltungsregeln vorhanden sein.
Zusammenfassend lässt sich sagen, dass Datennutzer, die diese Schritte befolgen, gut vorbereitete Datenmodelle erstellen können, die die Leistung und Genauigkeit von KI/ML-Anwendungen maximieren. Analysten können ein tieferes Verständnis ihrer Daten gewinnen, indem sie die richtigen Anmerkungen, Beschriftungen und Metadaten einbeziehen. Die Berücksichtigung von Sicherheitsbedenken und ethischen Aspekten gewährleistet zudem die Einhaltung der sich entwickelnden Daten- und Datenschutzbestimmungen.
Fazit
Von transaktionalen Vorgängen bis hin zu KI-gesteuerten Erkenntnissen haben sich Datenmodelle entwickelt, die es Datennutzern ermöglichen, von Rohdaten zu nützlichen Informationen zu gelangen, diese in verwertbares Wissen umzuwandeln und schließlich in anwendbares Wissen umzuwandeln.
Datennutzer, die in der Lage sind, domänenspezifisches Wissen zu integrieren, mit semantischen Modellen und Metadaten den richtigen Kontext zu schaffen und zu verstehen, wie diese neuen Technologien mit unseren bestehenden Datenmodellen interagieren, werden an der Spitze der KI/ML-Revolution stehen, die jetzt stattfindet.
Wenn Sie oder Ihre Datennutzer Hilfe bei der Umsetzung dieser Änderungen benötigen, rufen Sie uns an. Wir von Xebia data sind bereit, Ihnen zu helfen, das Beste aus Ihren Daten herauszuholen.
Verfasst von

Ricardo Granados
Unsere Ideen
Weitere Blogs
Contact



