Artikel

Snowflake - Best Practices für moderne Data Warehouses

Aktualisiert Oktober 10, 2025
6 Minuten

Schneeflocken-Kopfzeile

Die Nutzung von Software as a Service nimmt zu, da immer mehr Unternehmen sie einsetzen. Die Cloud-Plattform von Snowflake hat sich als ein solches SaaS-Data Warehouse etabliert. Sie ermöglicht die Speicherung und Verarbeitung von Daten und bietet Analyselösungen, die flexibel, schnell und einfach zu nutzen sind. Der Unterschied zwischen herkömmlichen Datenwolken und Snowflake besteht darin, dass Snowflake unabhängig von Datenbanktechnologie oder Big Data-Softwareplattform ist. Es kombiniert eine SQL-Abfrage-Engine mit einem nativen Cloud-Architekturdesign. Es verfügt über eine 3-Schichten-Architektur mit Datenbankspeicherung, Abfrageverarbeitung und Cloud-Diensten als den wichtigsten Schichten. Als Nutzer von Snowflake verfügen Sie also über die Funktionalität einer analytischen Unternehmensdatenbank mit speziellen Funktionen und einzigartigen Möglichkeiten.  

Wie können Sie die Möglichkeiten von Snowflake nutzen? 

Da Snowflake von einem herkömmlichen Datenbanksystem abweicht, verfügt es über getrennte Rechen- und Speicherebenen, die beide sehr elastisch sind. Das Herzstück von Snowflake ist die Cloud-Plattform. Daher kann sie dynamisch skaliert werden, um der aktuellen Arbeitslast gerecht zu werden, insbesondere wenn die rohe Rechenleistung oder der Bedarf an Gleichzeitigkeit schwankt, um die Nachfrage zu befriedigen. Daher kann der Speicher für Tabellen, Metadaten und Datenbanken im Laufe der Zeit wachsen oder schrumpfen. Darüber hinaus ist Snowflake praktisch unbegrenzt und Kontoverwalter können das Ausmaß der Einschränkungen wählen, die sie zum Schutz vor unberechtigter Nutzung einrichten möchten.  

Die besten Praktiken die Sie bei der Verwendung der modernen Data-Warehousing-Plattform von Snowflake beachten sollten, sind.

  •  Ermöglichen Sie Data Warehouses die automatische Aussetzung

Um den Verbrauch von Guthaben in Ihren virtuellen Lagerhäusern zu stoppen, müssen Sie sie auf automatische Aussetzung einstellen. Wenn Sie diese Option verwenden, schalten sich die Data Warehouses nach der Verarbeitung von Abfragen automatisch aus. Sie können Abfragen durchführen, um die Warehouses zu identifizieren, bei denen die automatische Aussetzung nicht aktiviert ist, und sie so einstellen, dass sie sich selbst ausschalten, nachdem die Abfragen verarbeitet wurden.   

  • Automatisches Fortsetzen von Data Warehouses ermöglichen

Wenn Sie virtuelle Lagerhäuser so einstellen, dass sie automatisch angehalten werden, sollten Sie sie auch so einstellen, dass sie automatisch wieder aufgenommen werden, indem Sie entsprechende Zeitlimits festlegen. Wenn Sie die Option zur automatischen Wiederaufnahme nicht wählen, können die Benutzer das System nicht abfragen. Sie müssen Abfragen durchführen, um herauszufinden, bei welchen Lagern die automatische Wiederaufnahme nicht aktiviert ist, und Zeitlimits für die automatische Wiederaufnahme festlegen.  

  •  Angemessene Timeouts für Arbeitslasten festlegen

Alle virtuellen Data Warehouses müssen mit geeigneten Timeouts für ihre jeweiligen Arbeitslasten aktiviert werden. Bei Warehouses, die an der Aufgabe, dem Laden von Daten und ETL/ELT beteiligt sind, sollten Sie beispielsweise Zeitüberschreitungen vorsehen, um sie sofort nach Abschluss auszusetzen. Für BI- und SELECT-Abfrage-Warehouses sollten Sie die Aussetzungszeit auf 10 Minuten begrenzen, um sicherzustellen, dass die Datencaches für den häufigen Zugriff der Endbenutzer warm bleiben. Für Warehouses mit DevOps-, DataOps- und Data Science-Datenbanken kann die Zeitüberschreitung für die Aussetzung bei 5 Minuten gehalten werden, um Ad-hoc- und sehr einzigartige Abfragen anstelle von warmen Caches zu bevorzugen.   

  • Zeitüberschreitungen bei Kontoauszügen beibehalten

Mithilfe von Zeitüberschreitungsparametern für Kontoanweisungen wie Zeitüberschreitung in der Warteschlange und Zeitüberschreitungsbefehlen können Sie Abfragen, deren Ausführung aufgrund eines eingefrorenen Clusters oder eines Benutzerfehlers lange dauert, automatisch stoppen. Sie können sogar die Zeitüberschreitungsstufen für Sitzungen, Konten, Data Warehouse und Benutzer für Ihre langlaufenden Abfragen entsprechend Ihrer Datenstrategien anpassen.  

  • Prüfen Sie die durchschnittliche wöchentliche Kreditnutzung.

Bei langwierigen Projekten kann es schwierig sein, den Überblick über Ihre Kreditverbrauchsdaten zu behalten, insbesondere in Szenarien, in denen Ihr Kredit den gewünschten Betrag überschreitet. Eine nützliche Methode besteht darin, eine Abfrage zu erstellen, die Ihren siebentägigen Durchschnitt der Kreditnutzung überprüft und die Wochen herausfindet, die den Verbrauch überschreiten. Diese Methode kann Sie über die Aufgaben aufklären, die zu viel Platz und Zeit beanspruchen, aber nicht effizient ausgeführt werden.  

  • Überwachen Sie Data Warehouses beim Überschreiten von Abrechnungsschwellen.

In einem ähnlichen Verfahren wie oben können Sie eine Abfrage entwerfen, um Ihre Lagerhäuser zu untersuchen und die Dienste zu prüfen, deren Kosten einen höheren Prozentsatz der Arbeitslast ausmachen. Für ein Konto berechnet Snowflake 10 % des Kreditverbrauchs, der über dem täglichen Kreditbetrag für das virtuelle Lager liegt. Wenn Sie eine Abfrage erstellen, um Erhöhungen über diesem Schwellenwert zu untersuchen, können Sie Ihren Kreditverbrauch unter dem täglichen Freibetrag halten.   

  • Entfernen Sie ungenutzte Tische in den Lagerhallen.

Ungenutzte Tabellen sind die besten Kandidaten, um aus dem System entfernt zu werden. Bevor Sie eine Tabelle löschen, vergewissern Sie sich einfach, dass niemand sie abfragt. Es ist eine gute Praxis, alle Tabellen zu überprüfen, bevor Sie sie löschen. Dieser Tipp ist spezifisch für Datenbanken, daher sollten Sie sich die Tabellen in allen Ihren Datenbanken ansehen.   

  • Löschen Sie Benutzer, die inaktiv oder inaktiv sind.

In Ihrem Snowflake-Ökosystem wird es 2 Arten von Benutzern geben. Der erste Typ meldet sich häufig an, führt aber keine Aktivitäten aus. Der zweite Typ hat sich noch nie bei Snowflake angemeldet. Beide Arten von Benutzern können aus Snowflake entfernt werden.  

  • Erkennen Sie Data Warehouses, die keine Ressourcenüberwachung haben.

Ressourcenmonitore sind äußerst nützliche Tools zur Überwachung und Kontrolle von Workload-Budgets und zur Vermeidung unerwarteter Ressourcenspitzen. Ressourcenmonitore können zur Überprüfung der Nutzung von Benutzer- und Servicekonten in Snowflake verwendet werden. Ihre Workloads müssen für ELT, BI, Data Science, Reporting usw. getrennt gelagert werden. Abhängig von den Kreditkontingenten haben die Data Warehouses tägliche, wöchentliche, monatliche, jährliche und Gesamtabrechnungen. Sie können eine Abfrage erstellen, um alle Data Warehouses zu identifizieren, die keinen Ressourcenmonitor haben.   

  • Wenden Sie Ressourcenmonitore auf alle Data Warehouses an.

Nachdem Sie herausgefunden haben, welche Data Warehouses nicht über einen Ressourcenmonitor verfügen, können Sie die UI oder SQL verwenden und Ihre Ressourcenmonitor-Richtlinie anwenden. Sie können dann in Ihren Einstellungen eine Präferenz festlegen, die Sie benachrichtigt, wenn Ihr Verbrauch einen niedrigen oder hohen Schwellenwert erreicht. Sie können das Konto oder das Data Warehouse sperren, wenn der Ressourcenmonitor eine höhere Verbrauchsrate als die von Ihnen festgelegte Obergrenze feststellt.  

Snowflake ist ein einzigartiges, 3-stufiges und modernes Data Warehouse. Um die Dienste von Snowflake optimal zu nutzen, können Ihnen diese Praktiken nützlich sein. Wenn Sie Snowflake erforschen und mehr über Snowflake lernen, indem Sie experimentieren und die umfassende Dokumentation von Snowflake erneut lesen, können Sie die kleinen Hacks finden, die die Verwendung von Snowflake für Sie zu einer besseren Erfahrung machen. Bis dahin decken die oben genannten Praktiken alle notwendigen Punkte ab, die Sie im Auge behalten sollten, um übermäßige Ausgaben zu vermeiden und Ihre Abfragen effizient durchzuführen.  

Contact

Let’s discuss how we can support your journey.