Xebia Academy is also available in EnglishSwitch to English
Close
Data Science

Data Science met Spark - Virtual

Deze GoDataDriven training biedt een 3-daagse deep-dive in Apache Spark. Leer de tools die Apache Spark biedt onder de knie te krijgen, ontsluit het potentieel en boost je Data Science skills.

Apache Spark is een krachtige open-source processing engine gebouwd voor meer snelheid, gebruiksgemak en geavanceerde analytics. Van onze ervaren consultants leer je het volledige potentieel van Apache Spark te ontsluiten en deze uitdagende tool onder de knie te krijgen.

"Ik vond elk aspect van deze training goed en wil de trainers bedanken. Ze hebben uitstekend werk verricht door uit te leggen hoe je Spark kan gebruiken voor Data Science. Dit is de vierde GoDataDriven training die ik heb gevolgd. Stuk voor stuk waren ze te gek, maar dit was de beste tot nu toe." - Data Scientist, Knab

Deze training is perfect voor

Iedereen die met Apache Spark werkt en er het maximale uit wil halen. De training beperkt zich niet tot Data Scientists die projecten willen schalen. Ook Data Engineers, Data Analisten, Software Programmeurs and Database Managers die Apache Spark willen gebruiken, hebben baat bij deze training. Ervaring met Python of software programmering is vereist. Ervaring met database languages zoals SQL en pandas is handig, maar niet vereist voor deelname. 

Wat leer je tijdens deze training?

We delen een combinatie van theorie, hands-on ervaring en best practices, waarmee jij het maximale uit Apache Spark kan halen. Na afloop van de training ben je in staat om Apache Spark vol vertrouwen te gebruiken voor Data Science op schaal.

Programma

Het programma bestaat uit een zowel theorie als hands-on oefeningen.

Dag 1:

  • Spark basics
  • Advanced Spark
  • DataFrames

Dag 2:

  • Spark.ML

Dag 3:

  • Spark structured streaming
  • Spark hands-on lab (d.w.z., installeer en draai Spark lokaal, pas online statistieken toe op Meetup data met Spark Streaming, bouw een film recommender met behulp van Spark ML, wij assisteren hierbij). 

Je leert:

Spark basics

  • Spark gebruiken
  • SparkSession
  • Transformaties vs. acties
  • Luiheid en lineage: hoe Spark code optimaliseert
  • Hoe gebruik je de Spark UI?
  • Spark voor professionals
  • Partitioneren en hoe Spark data leest en schrijft
  • Verschillende operaties en impact op de prestaties
  • De 'Catalyst-optimizer'
  • De opdracht plannen en uitvoeren
  • Caching en persistance

DataFrames

  • De basisbegrippen
  • Alles over Spark DataFrames en pandas DataFrames
  • Hoe je DataFrames kan laden en opslaan
  • De functies API
  • Hoe kan ik data toevoegen?
  • User-defined functions en pandas' user-defined functions
  • Window operations

Spark.ml

  • Machine Learning met Spark
  • Data voorbewerken en feature-engineering
  • Selectie van modellen
  • Pipeline API
  • Advanced topics

Spark structured streaming

  • Structured streaming
  • Machine Learning & streaming
  • Sources en sinks
  • Windows & Aggregates
  • Checkpointing & watermerken
  • Fouttolerantie & Kafka
  • Kafka als source en sink

Data Science Trainers

Deze Data Science training wordt verzorgd door onze trainingspartner GoDataDriven. GoDataDriven experts zijn in hun vakgebied altijd op zoek naar innovatieve manieren om het maximale uit data te halen. Jouw trainer is een data goeroe die zijn of haar ervaring graag deelt om jou te leren werken met de nieuwste tools.

Data Science Learning Journey

Jouw Data Science Learning Journey begint met een Foundation training, zoals Data Science met R, Data Science voor Product Owners of Data Science met Python. Wij bieden ook een 3-daagse GoDataDriven Deep Learning training aan op Professional level. Wil je een training volgen op Expert level? Deze 3-daagse Data Science met Spark leert je alles over Data Science op schaal.

Ja, ik wil aan de slag met Apache Spark!

Na registratie ontvang je een bevestigingsmail met praktische informatie. Een week voor de training vragen we je naar dieetwensen. Indien voorbereiding gewenst is, krijg je op dit moment ook de literatuur via de mail. Tot dan!

Wat moet ik nog meer weten?

  • Voor deze training is een laptop nodig. De hands-on labs worden in een online omgeving uitgevoerd, waardoor het niet nodig is om software te installeren.
  • Deze training wordt je aangeboden door onze trainingspartner GoDataDriven
  • Literatuur en een lekkere lunch zijn bij de prijs inbegrepen.
  • Reis- en verblijfkosten zijn niet inbegrepen

Contact opnemen
contact-us

Ons team staat voor je klaar

Stuur ons een bericht!

Of bel +31 (0)35 538 1921