Optimizing Apache Spark & Tuning Best Practices

25 april, 2024Amsterdam, The Netherlands

2 days
In Person
Data Engineering

Naarmate datasets groter worden, wordt het efficiënter verwerken van gegevens steeds belangrijker. Voortbouwend op onze ervaring als een van ’s werelds meest significante gebruikers van Apache Spark, biedt deze 2-daagse cursus een diepgaand overzicht van de do’s en don’ts van een van de meest populaire analyse-engines op de markt.

Vind een geschikte datum

Registreer je nu

Wil je je team(s) of organisatie bijscholen?

Nico helpt je graag verder met trainingsoplossingen op maat.

Neem contact op

Duur

2 days

Tijd

09:00 – 17:00

Taal

English

Lunch

Included

Certificering

No

Level

Professional

Wat ga je leren?

Na de training ben je in staat om

Te begrijpen wat Apache Spark onder de motorkap doet.

Best practices om krachtige code te schrijven.

Spark-toepassingen te tweaken en te debuggen.

Uitleg te geven over de fundamenten van Spark, inclusief het executiemodel: Driver/Executors

Te werken met caching, shuffle-service en eerlijk plannen .

Problemen met optimalisatie op te lossen

Overzicht

Fundamentals

  1. Spark execution model: Driver/Executors. 
  2. Spark gebruikersinterface voor het monitoren van applicaties.
  3. Inzicht in RDDs/DataFrames API’s en bindingen.
  4. Verschil tussen acties en transformaties
  5. Het Queryplan lezen (Fysiek/Logisch)

Spark Internals

  1. Spark Geheugenmodel
  2. Persistentie (caching) begrijpen
  3. Catalyst optimizer, Tungsten project, and Adaptive Query Execution 
  4. Shuffle-service en hoe wordt shuffle uitgevoerd
  5. Concept of fair scheduling and pools 

Spark-optimalisatie: belangrijkste problemen en kwesties

  1. De meest voorkomende geheugenproblemen
  2. Het voordeel van vroegtijdig filteren
  3. Partition en predicate filtering  begrijpen
  4. Optimalisatie
  5. Omgaan met de scheefheid van gegevens (voorbewerken, uitzenden, zouten)
  6. Inzicht in shuffle-partities: hoe geheugen/morst aan te pakken
  7. De keerzijde van het gebruik van UDF’s
  8. Time-out inactieve uitvoerder
  9. Voorbeelden van gegevensindelingen met een inleiding tot Delta-bestandsindeling

Naar productie

  1. Debuggen / problemen oplossen
  2. Je Spark-applicatie produceren
  3. Dynamische toewijzing en dynamische partitionering
  4. JVM profiler

Programma

De trainer faciliteert de inhoud met behulp van notitieblokken die in een cloudomgeving worden gehost. Elke deelnemer krijgt een Spark-cluster om mee te experimenteren.

  • Theorie over verschillende basisprincipes van vonken en geavanceerde onderwerpen
  • Optimalisaties in de praktijk toepassen
  • Doorgaan met theorie
  • Gegevensverzameling begrijpen
  • Hackathon

Voor wie is deze training?

Deze training is voor jou geschikt als je een data of machine learning engineer bent die grote hoeveelheden data transformeert, code van productiekwaliteit nodig heeft en je Spark applicaties wilt optimaliseren. De cursus is ook zeer geschikt voor ervaren data scientist die eenvoudige aanpassingen willen leren om de prestaties van Spark drastisch te verhogen.

Requirements

Algemene kennis van en ervaring met Python met Spark (PySpark) is noodzakelijk.

Waarom zou je deze training volgen?

Leer meer over Apache Spark, het gebruik van best practices om krachtige code te schrijven en het tweaken en debuggen van Spark-applicaties.

Begrijp de basisprincipes van Spark, inclusief het executiemodel: Driver/Executors, caching, shuffle service en eerlijk plannen.

Leer van en netwerk met Apache Spark data experts.

Wat moet je nog meer weten?

Na registratie voor deze training ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar eventuele dieetwensen en delen we literatuur uit als je je moet voorbereiden.

We kijken uit naar jouw deelname!

Training informatie

Alle literatuur en cursusmaterialen zijn bij de prijs inbegrepen.

Nadat je je hebt ingeschreven voor deze cursus, ontvang je een bevestigingsmail met praktische informatie.

Ook interessant voor jou

Bekijk alle trainingen
dbt Learn

In samenwerking met dbt Labs bieden wij je de dbt Learn training aan. Verbeter nu je dbt-vaardigheden (data build tool).

Lucy Sheppard

Data Engineering
Data Science
3 days
Virtual

Next:

5 jun, 2024

From:

€1045

Bekijk training
Data Storytelling

Gebruik de kracht van data storytelling in Python met onze Data Visualization and Storytelling training.

Data Analytics
Data Engineering
Data Science
2 days
Virtual

Next:

27 – 30 mei, 2024

From:

€1310

Bekijk training
Obeya Coach Opleiding

De Obeya Coach training is een driedaagse training voor ervaren en gecertificeerde Obeya Builders en Obeya Hosts.

Laurens Bonnema

Obeya
3 days
In Person

Next:

14 nov, 2024

From:

€2795

Bekijk training
Impact Mapping

Leer over Impact Mapping voor zakelijk succes door stakeholders op één lijn te brengen, effectief te plannen en jouw impact te vergroten.

Product Eigenaar
Product Owner
Software Architecture
1 day
In Person

Next:

11 okt, 2024

From:

€895

Bekijk training
ASP.NET Core Fundamentals

Word een ASP.NET Core 5 expert met onze diepgaande training. Doe met ons mee voor een transformerende leerervaring!

Gill Cleeren

ASP.NET
3 days
In Person

Next:

17 jun, 2024

From:

€2195

Bekijk training

Staat de training die je zoekt er niet tussen? Er is meer!