Data Science
with Spark
27 mei, 2024 – Virtual
Apache Spark is een krachtige, open-source verwerkingsengine die is gebouwd rondom snelheid, gebruiksgemak en geavanceerde analyses. In deze training leer je om het volledige potentieel te benutten en dit uitdagende gereedschap onder de knie te krijgen.
Wil je je team(s) of organisatie trainen?
Nico helpt je graag verder met trainingsoplossingen op maat.
Neem contact opDuur
3 days
Tijd
09:00 – 17:00
Taal
English
Lunch
Included
Certificering
No
Level
Advanced
Wat leer je?
Na de training ben je in staat om:
Grootschalige datasets te verwerken met PySpark.
De fundamenten van Apache Spark te begrijpen.
Machine learning uit te voeren op grootschalige datasets.
Belangrijkste leerdoelen
Basisprincipes van Spark
- Spark-uitvoering en de Spark-sessie.
- Transformaties vs. acties.
- Laziness en lineage: hoe Spark code optimaliseert.
- Hoe de Spark UI te gebruiken.
Spark DataFrames
- Spark DataFrames vs pandas DataFrames.
- Hoe DataFrames laden en opslaan.
- Hoe gegevens samenvoegen.
- Door gebruikers gedefinieerde functies en door gebruikers gedefinieerde functies van pandas (met gevolgen voor de prestaties).
- Vensterbewerkingen.
Advanced Spark
- Hoe te partitioneren en hoe Spark gegevens leest en schrijft.
- Schudden, smalle en brede bewerkingen en hun invloed op prestaties.
- De katalysatoroptimalisator.
- Over planning en taakuitvoering.
- Over caching en persistentie niveaus.
Spark machine learning
- Machine learning met Spark.
- Gegevens voorbewerken en feature engineering.
- Modelkeuze.
- API voor pijpleidingen.
- Onderwerpen voor gevorderden.
Gestructureerd leren Spark
- Gestructureerde streaming.
- Machine learning en streaming.
- Vensters en aggregaties.
- Fouttolerantie en Kafka.
- Kafka als bron en gootsteen.
Programma
- Spark-uitvoering en Spark-sessies
- DataFrame methoden, eigenschappen en acties
- API’s: (Py)Spark DataFrame vs Spark SQL
- Data lezen en schrijven in Spark
Voor wie is het?
Deze training is perfect voor iedereen die in een organisatie werkt die Apache Spark gebruikt en daar het maximale uit wil halen. De training is niet beperkt tot Data Scientists die hun projecten willen opschalen. Data-engineers, data-analisten, softwareprogrammeurs en databasebeheerders die Apache Spark willen gebruiken, zullen ook baat hebben bij deze cursus.
Vereisten
Ervaring met Python of softwareprogrammering is vereist.
Ervaring met databasetalen zoals SQL en pandas is nuttig maar niet verplicht.
Waarom zou ik deze training volgen?
Leer de grondbeginselen van Apache Spark
Leer van de Spark experts
Leren om grootschalige gegevens te verwerken met PySpark en machine learning uit te voeren
Wat moet ik nog meer weten?
Na registratie voor deze training ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar eventuele dieetwensen en delen we literatuur uit als je je moet voorbereiden.
Tot ziens!
Training informatie
Alle literatuur en trainingsmaterialen zijn bij de prijs inbegrepen.
Nadat je je hebt ingeschreven voor deze training, ontvang je een bevestigingsmail met praktische informatie.