Xebia Academy is also available in EnglishSwitch to English
Close

Data Engineering training: Optimizing Apache Spark & Tuning Best Practices

Het efficiënt verwerken van data kan een uitdaging zijn wanneer de hoeveelheid data groter wordt. Op basis van de ervaringen van de grootste Apache Spark gebruikers ter wereld, geven we je informatie betreft de do’s en dont’s van de meest populaire analytische engines die er zijn.

Deze live-virtuele training is perfect voor:

Data en- Machine Learning Engineers die te maken hebben met de transformatie van grote hoeveelheden data en production-quality code nodig hebben. Expert Data Scientists kunnen ook deelnemen: zij leren hoe ze het meeste resultaat kunnen halen Spark en hoe simpele veranderingen kunnen zorgen voor extreem verbeterde prestaties.

Wat leer je tijdens Optimizing Apache Spark & Tuning Best Practices?

Na deze training heb je geleerd hoe Apache Spark intern werkt, de best practices om performant code te schrijven, en heb je essentiële vaardigheden om je Spark applicaties te debuggen en kleine aanpassingen aan te brengen.

Programma

Fundamentals

  • Spark execution model: Driver/Executors
  • Spark resource managers (YARN, MESOS, K8s)
  • Het begrijpen van RDDs/DataFrames APIs en bindings
  • Het verschil tussen Actions en Transformations
  • Hoe lees je het Query plan (Physical/Logical)

Spark internals

  • Spark Memory model
  • Het begrijpen van persistence (caching)
  • Catalyst optimizer en Tungsten project
  • Shuffle service en hoe Shuffle Operation uitgevoerd wordt
  • Concept van fair scheduling en pools
  • Java en Kryo serializer
  • Een stap in de JVM wereld: wat je moet weten over GC wanneer je een Spark applicatie gebruikt

Spark optimization: kern problemen en issues

  • De meest voorkomende geheugenproblemen
  • De voordelen van vroegtijdig filteren
  • Het begrijpen van partition en predicate filtering
  • Join optimization
  • Combating Data skew (preprocessing, broadcasting, salting)
  • Het begrijpen van shuffle partitions: hoe voorkom je geheugen/disk verspilling?
  • De nadelen van het gebruik van UDF’s
  • Executor idle timeout
  • Voorbeelden van data formats

Moving to production

  • Debugging / troubleshooting
  • Productionizing your Spark application
  • Dynamic allocation en dynamic partitioning
  • Profiling your Spark application (Sparklint)
  • JVM profiler

Data Engineering Trainers

Deze Data Science training wordt verzorgd door onze trainingspartner GoDataDriven. GoDataDriven experts zijn in hun vakgebied altijd op zoek naar innovatieve manieren om het maximale uit data te halen. Jouw trainer is een data goeroe die zijn of haar ervaring graag deelt om jou te leren werken met de nieuwste tools.

Ja! Ik wil meer weten over Apache Spark!

Na registratie ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar dieetwensen. Indien voorbereiding gewenst is, krijg je op dit moment ook de literatuur via de mail. Tot dan!

Virtuele of klassikale training: Deze training wordt zowel klassikaal op locatie als online gegeven. Als de training op locatie is, dan zullen er lunch, snacks en drankjes verzorgd worden. Daarom is er korting voor de virtuele trainingen.

contact-us

Contact opnemen

Ons team staat voor je klaar

Stuur ons een bericht! →

Of bel +31 (0)20 760 9844