Opleiding: Transform data with pySpark dataframes
Algemene omschrijving
In de training Transform data with pySpark dataframes leer je hoe jij Python in kunt zetten op Spark clusters (zoals pySpark) voor het implementeren van dataplatformen. Door te werken met Databricks, Microsoft Synapse Spark pools en Microsoft Fabric Spark pools, zul je ontdekken hoe jij op schaal data klaar kunt stomen voor diverse toepassingen.
Verder leer je in de cursus Transform data with pySpark dataframes hoe jij Spark DataFrames kunt maken op basis van databestanden die lokaal of in een Data Lake opgeslagen zijn. Vervolgens pas je transformaties toe om de ingelezen data precies zodanig aan te passen als je nodig hebt, zodat het helemaal aansluit op jouw analyses.
Na de transformatie van jouw data zul je in de training Transform data with pySpark dataframes zien hoe jij deze weg kunt schrijven naar de gewenste locatie. Of het nu voor rapportages, dashboards of andere toepassingen bedoeld is, jij hebt de vrijheid om data precies op te slaan daar waar het nodig is.
Doelgroep
De training Transform data with pySpark dataframes is geschikt voor iedereen die Spark wil gebruiken om datamanipulaties uit te voeren.
Dit betreft met name de volgende mensen:
- Microsoft Fabric-gebruikers.
- Data-analisten.
- Data engineers.
- Data scientists (datawetenschappers).
- Mensen met vergelijkbare functies binnen het vakgebied van datawetenschap en -analyse.
Leerdoelen
Door de training Transform data with pySpark dataframes te volgen, zul je de volgende kennis en vaardigheden verkrijgen:
- Dataframes aanmaken op basis van verschillende bronnen.
- Data koppelen, filteren, aggregeren en op andere wijze transformeren.
- Werken met delta-tabellen.
- Data binnen Data Lakes partitioneren.
Voorkennis
Voordat je deelneemt aan de training Transform data with pySpark dataframes, raden wij aan dat jij beschikt over enige kennis van de programmeertalen Python en SQL, echter is dit niet verplicht.
Onderwerpen
In de training Transform data with pySpark dataframes, zullen de volgende onderwerpen aan bod komen:
- Inleiding op Spark.
- Data lezen.
- Dataframes creëren.
- Csv, json, SQL table.
- Schema.
- Data transformeren.
- Kolommen selecteren.
- Berekende kolommen toevoegen.
- Kolommen selecteren.
- Rijen filteren.
- Join.
- Groeperen.
- Ranking en windowing.
- SQL gebruiken.
- Naar bestanden en tabellen schrijven.
- Partition by.
- Werken met delta-tabellen.
- Optimaliseren.