Data Science
with Spark

27 mei, 2024Virtual

3 days
Virtual
Apache Spark
Data Science

Apache Spark is een krachtige, open-source verwerkingsengine die is gebouwd rondom snelheid, gebruiksgemak en geavanceerde analyses. In deze training leer je om het volledige potentieel te benutten en dit uitdagende gereedschap onder de knie te krijgen.

Vind een geschikte datum

Registreer je nu

Wil je je team(s) of organisatie trainen?

Nico helpt je graag verder met trainingsoplossingen op maat.

Neem contact op

Duur

3 days

Tijd

09:00 – 17:00

Taal

English

Lunch

Included

Certificering

No

Level

Advanced

Wat leer je?

Na de training ben je in staat om:

Grootschalige datasets te verwerken met PySpark.

De fundamenten van Apache Spark te begrijpen.

Machine learning uit te voeren op grootschalige datasets.

Belangrijkste leerdoelen

Basisprincipes van Spark

  1. Spark-uitvoering en de Spark-sessie.
  2. Transformaties vs. acties.
  3. Laziness en lineage: hoe Spark code optimaliseert.
  4. Hoe de Spark UI te gebruiken.

Spark DataFrames

  1. Spark DataFrames vs pandas DataFrames.
  2. Hoe DataFrames laden en opslaan.
  3. Hoe gegevens samenvoegen.
  4. Door gebruikers gedefinieerde functies en door gebruikers gedefinieerde functies van pandas (met gevolgen voor de prestaties).
  5. Vensterbewerkingen.

Advanced Spark

  1. Hoe te partitioneren en hoe Spark gegevens leest en schrijft.
  2. Schudden, smalle en brede bewerkingen en hun invloed op prestaties.
  3. De katalysatoroptimalisator.
  4. Over planning en taakuitvoering.
  5. Over caching en persistentie niveaus.

Spark machine learning

  1. Machine learning met Spark.
  2. Gegevens voorbewerken en feature engineering.
  3. Modelkeuze.
  4. API voor pijpleidingen.
  5. Onderwerpen voor gevorderden.

Gestructureerd leren Spark

  1. Gestructureerde streaming.
  2. Machine learning en streaming.
  3. Vensters en aggregaties.
  4. Fouttolerantie en Kafka.
  5. Kafka als bron en gootsteen.

Programma

  • Spark-uitvoering en Spark-sessies
  • DataFrame methoden, eigenschappen en acties
  • API’s: (Py)Spark DataFrame vs Spark SQL
  • Data lezen en schrijven in Spark

Voor wie is het?

Deze training is perfect voor iedereen die in een organisatie werkt die Apache Spark gebruikt en daar het maximale uit wil halen. De training is niet beperkt tot Data Scientists die hun projecten willen opschalen. Data-engineers, data-analisten, softwareprogrammeurs en databasebeheerders die Apache Spark willen gebruiken, zullen ook baat hebben bij deze cursus.

Vereisten

Ervaring met Python of softwareprogrammering is vereist.

Ervaring met databasetalen zoals SQL en pandas is nuttig maar niet verplicht.

Waarom zou ik deze training volgen?

Leer de grondbeginselen van Apache Spark

Leer van de Spark experts

Leren om grootschalige gegevens te verwerken met PySpark en machine learning uit te voeren

Wat moet ik nog meer weten?

Na registratie voor deze training ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar eventuele dieetwensen en delen we literatuur uit als je je moet voorbereiden.

Tot ziens!

Training informatie

Alle literatuur en trainingsmaterialen zijn bij de prijs inbegrepen.

Nadat je je hebt ingeschreven voor deze training, ontvang je een bevestigingsmail met praktische informatie.

Ook interessant voor jou

View all trainings
Data Science Bootcamp

Word een gecertificeerde Data Scientist in slechts 12 weken met onze Data Science Bootcamp.

Lucy Sheppard

Data Science
Python
11 days
Virtual

Next:

16 apr, 2024

From:

€2625

Bekijk training
Python for Data Analysis

Leren coderen in Python en data-analyses uit te voeren met de Python for Data Analysts training.

James Hayward

Data Science
Gegevens en AI
Python
2 days
Virtual

Next:

19 – 20 mrt, 2024

From:

€1360

Bekijk training
Advanced Data Science with Python 

Duik dieper in Advanced Data Science met Python en ontwikkel je vaardigheden nog verder.

Data Science
2 days
Virtual

Next:

25 – 26 apr, 2024

From:

€1465

Bekijk training
Data Processing at Scale

Leer Apache Spark gebruiken om grote gegevenssets te verwerken met onze Data Processing at Scale training.

Apache Spark
Data Analytics
Bekijk training
dbt Learn

In samenwerking met dbt Labs bieden wij je de dbt Learn training aan. Verbeter nu je dbt-vaardigheden (data build tool).

Data Engineering
Data Science
3 days
Virtual

Next:

11 mrt, 2024

From:

€1045

Bekijk training

Staat de training die je zoekt er niet tussen? Er is meer!