Opleiding: Transform data with pySpark dataframes

Algemene omschrijving

In de training Transform data with pySpark dataframes leer je hoe jij Python in kunt zetten op Spark clusters (zoals pySpark) voor het implementeren van dataplatformen. Door te werken met Databricks, Microsoft Synapse Spark pools en Microsoft Fabric Spark pools, zul je ontdekken hoe jij op schaal data klaar kunt stomen voor diverse toepassingen.

Verder leer je in de cursus Transform data with pySpark dataframes hoe jij Spark DataFrames kunt maken op basis van databestanden die lokaal of in een Data Lake opgeslagen zijn. Vervolgens pas je transformaties toe om de ingelezen data precies zodanig aan te passen als je nodig hebt, zodat het helemaal aansluit op jouw analyses.

Na de transformatie van jouw data zul je in de training Transform data with pySpark dataframes zien hoe jij deze weg kunt schrijven naar de gewenste locatie. Of het nu voor rapportages, dashboards of andere toepassingen bedoeld is, jij hebt de vrijheid om data precies op te slaan daar waar het nodig is.

Doelgroep

De training Transform data with pySpark dataframes is geschikt voor iedereen die Spark wil gebruiken om datamanipulaties uit te voeren.

Dit betreft met name de volgende mensen:

  • Microsoft Fabric-gebruikers.
  • Data-analisten.
  • Data engineers.
  • Data scientists (datawetenschappers).
  • Mensen met vergelijkbare functies binnen het vakgebied van datawetenschap en -analyse.

Leerdoelen

Door de training Transform data with pySpark dataframes te volgen, zul je de volgende kennis en vaardigheden verkrijgen:

  • Dataframes aanmaken op basis van verschillende bronnen.
  • Data koppelen, filteren, aggregeren en op andere wijze transformeren.
  • Werken met delta-tabellen.
  • Data binnen Data Lakes partitioneren.

Voorkennis

Voordat je deelneemt aan de training Transform data with pySpark dataframes, raden wij aan dat jij beschikt over enige kennis van de programmeertalen Python en SQL, echter is dit niet verplicht.

Onderwerpen

In de training Transform data with pySpark dataframes, zullen de volgende onderwerpen aan bod komen:

  • Inleiding op Spark.
  • Data lezen.
    • Dataframes creëren.
    • Csv, json, SQL table.
    • Schema.
  • Data transformeren.
    • Kolommen selecteren.
      • Berekende kolommen toevoegen.
  • Rijen filteren.
  • Join.
  • Groeperen.
    • Ranking en windowing.
  • SQL gebruiken.
  • Naar bestanden en tabellen schrijven.
  • Partition by.
  • Werken met delta-tabellen.
  • Optimaliseren.
Meer...
€995
ex. BTW
Aangeboden door
Startel bv
Onderwerp
Niveau
Looptijd
2 dagen
Taal
nl
Type product
cursus
Lesvorm
Klassikaal
Tijdstip
Overdag
Tijden en locaties
Startel (Drachten)
do 19 dec. 2024
Virtual
do 19 dec. 2024
Startel (Drachten)
di 21 jan. 2025
Virtual
di 21 jan. 2025
Startel (Drachten)
do 20 feb. 2025
Virtual
do 20 feb. 2025
Startel (Drachten)
ma 24 mrt. 2025
Virtual
ma 24 mrt. 2025
Startel (Drachten)
do 24 apr. 2025
Virtual
do 24 apr. 2025
Startel (Drachten)
ma 26 mei 2025
Virtual
ma 26 mei 2025
Startel (Drachten)
di 24 jun. 2025
Virtual
di 24 jun. 2025
Keurmerken aanbieder
AgilePM - Agile Project Management (APMG)
ASL
Axelos
BISL
EC-Council
EC-Council Certified
EXIN
ITIL
Lean IT
NRTO