Kurs

Optimizing Apache Spark and Tuning Best Practices

Dauer: 2 Tage
Sprache: EN

Erfahren Sie, wie Sie Apache Spark, eine der beliebtesten Analyse-Engines, optimieren können.

Einführung

Die effiziente Verarbeitung von Daten kann eine Herausforderung sein, wenn die Datenmenge wächst. Aufbauend auf den Erfahrungen, die wir bei den weltweit grössten Apache Spark-Benutzern gesammelt haben, geben wir Ihnen einen detaillierten Überblick über die Do's und Don'ts einer der beliebtesten Analyse-Engines auf dem Markt.

Inhalt

  • Fundamentals
    • Spark execution model: Driver/Executors
    • Spark resource managers (YARN, MESOS, K8s)
    • Understanding RDDs/DataFrames APIs and bindings
    • Difference between Actions and Transformations
    • How to read the Query plan (Physical/Logical)
  • Spark Internals
    • Spark Memory model
    • Understanding persistence (caching)
    • Catalyst optimizer and Tungsten project
    • Shuffle service and how is shuffle operation executed
    • Concept of fair scheduling and pools
    • Java and Kryo serializer
    • Step into the JVM world: what you need to know about GC when running Spark applications
  • Spark optimization: main problems and issues
    • The most common memory problems
    • Benefit of using early filtering
    • Understanding partition and predicate filtering
    • Join optimization
    • Combating data skew (preprocessing, broadcasting, salting)
    • Understanding shuffle partitions: how to tackle memory/disk spill
    • Downside of using UDF’s
    • Executor idle timeout
    • Data formats examples

Zielgruppe

  • Ingenieure für Daten und maschinelles Lernen, die sich mit der Transformation grosser Datenmengen beschäftigen und Code in Produktionsqualität benötigen.
  • Auch erfahrene Data Scientists können teilnehmen: Sie lernen, wie Sie die maximale Leistung aus Spark herausholen können und wie einfache Optimierungen die Leistung drastisch steigern können.

Voraussetzungen

Für die Teilnahme am Kurs wird ein eigener Laptop benötigt.
Über allfällige technische Voraussetzungen und Vorinstallationen werden die Kursteilnehmenden spätestens eine Woche vor dem Kurs informiert.