skoleni.net Školení, kurzy, semináře # apache spark for data engineers - advanced op timizations

KURZ: Apache Spark for Data Engineers - Advanced Optimizations & Delta-Lake

Apache Spark je distribuovaný výpočetní engine, který poskytuje unifikovaný framework pro zpracování velkých objemů dat, interaktivní analýzu, machine learning, analýzu grafu a streaming. V průběhu posledních několika let se stává standardem pro zpracování těchto workloadů a to nejen v prostředí velkých dat. Jedním z důvodů proč roste popularita Sparku je také jeho programové API, neboli tzv. DataFramy, které nabízejí univerzální datovou abstrakci, již je možné použít ve všech výše zmíněnýc

Program kurzu

Cíle kurzu :

Rozumět a orientovat se ve fyzických plánech Spark SQL
Přepsat query za účelem dosažení efektivnějšího plánu
Používat některá konfigurační nastavení
Připravit Sparkem data pro efektivní analytiku ve Sparku
Diagnostikovat botlneck Sparkoveho jobu Pochopit význam moderních tabulkových formátů Naučit se pracovat s Delta tabulkami

* :

Rozumět a orientovat se ve fyzických plánech Spark SQL
Přepsat query za účelem dosažení efektivnějšího plánu
Používat některá konfigurační nastavení
Připravit Sparkem data pro efektivní analytiku ve Sparku
Diagnostikovat botlneck Sparkoveho jobu Pochopit význam moderních tabulkových formátů Naučit se pracovat s Delta tabulkami

Garant kurzu : David pracuje v Emplifi (dříve Socialbakers) jako datový inženýr. Na denní bázi se zabývá optimalizací Spakových aplikací a vyvíjí Sparkové joby, které zpracovávají data na různých škálách od jednotek GBs až po desítky TBs. Vedle toho se zabývá výukou Sparkových trainingů a jeho školeními již prošla celá řada týmů zejména datový analytici, scientisti a inženýři. David je také Sparkovým kontributorem, přispěl do zdrojového kódu a pravidelně mluví na konferencích a meetupech jako je Spark + AI Summit, MLPrague nebo Spark + AI Prague meetup.
Osnova : Spark SQL internals (Query Execution)

Logical planning (Catalog, Analyzer, Cache Management, Optimizer)
Physical planning
- Query planner, strategies
- Spark plan
- Executed plan
- Understanding operators in the physical plan

Query optimization

Shuffle elimination
- Bucketing
- Data repartition (when and how)
- Data reuse

Optimization tips

Choose the appropriate number of shuffle partitions
Nondeterministic expressions
Configuration settings

Data layout

Partitioning and bucketing
- How bucketing works
- When it makes sense
Hive tables
- Data upsert
- Schema evolution
- Discussing various problems and challenges
Delta-Lake
Basic features (table history, timel travel, optimize, cacuum)
Schema evolution
Data Change Feed
Advanced features (Liquid Clustering, Deletion Vectors,...)

Předpoklady účastníka: Tento kurz je navazujícím kurzem ke školení Apache Spark - od jednoduchých transformací po vysoce výkonné joby , ve kterém člověk mimo jiné získá dobrou znalost DataFramového API a základní přehled o interních procesech ve Sparku. Pro absolvování tohoto kurzu je tedy dobré mít předchozí zkušenosti se Sparkem (např. na úrovni výše zmíněného kurzu ), znát DataFramové API a chápat základní principy distribuovaného počítání.

Cíl školení - poznámka ke kurzu Cíle kurzu: Rozumět a orientovat se ve fyzických plánech Spark SQL Přepsat query za účelem dosažení efektivnějšího plánu Používat některá konfigurační nastavení Připravit Sparkem data pro efektivní analytiku ve Sparku Diagnostikovat botlneck Sparkoveho jobu Pochopit význam moderních tabulkových formátů Naučit se pracovat s Delta tabulkami

Podrobnosti o kurzu

Kurz je určen pro

Cílová skupina: Datoví inženýři, scientisti, analysti a další uživatelé Sparku, kteří již mají se Sparkem nějakou zkušenost a chtějí se naučit optimalizovat Sparkové joby pro dosažení maximálního výkonu.
Lektor kurzu

: David pracuje v Emplifi (dříve Socialbakers) jako datový inženýr. Na denní bázi se zabývá optimalizací Spakových aplikací a vyvíjí Sparkové joby, které zpracovávají data na různých škálách od jednotek GBs až po desítky TBs. Vedle toho se zabývá výukou Sparkových trainingů a jeho školeními již prošla celá řada týmů zejména datový analytici, scientisti a inženýři. David je také Sparkovým kontributorem, přispěl do zdrojového kódu a pravidelně mluví na konferencích a meetupech jako je Spark + AI Summit, MLPrague nebo Spark + AI Prague meetup.
Pořadatel kurzu

DataScript s.r.o.
Další organizační náležitosti k danému školení

Předpoklady účastníka: Tento kurz je navazujícím kurzem ke školení Apache Spark - od jednoduchých transformací po vysoce výkonné joby , ve kterém člověk mimo jiné získá dobrou znalost DataFramového API a základní přehled o interních procesech ve Sparku. Pro absolvování tohoto kurzu je tedy dobré mít předchozí zkušenosti se Sparkem (např. na úrovni výše zmíněného kurzu), znát DataFramové API a chápat základní principy distribuovaného počítání.
Obchodní podmínky

Objednavateli bude zaslána závazná přihláška k podpisu. Poté bude účastník na školení registrován. Objednavatel uhradí částku kurzovného za výše uvedeného posluchače na základě faktury vystavené poskytovatelem.

Dotazy a komentáře ke kurzu

Přihláška na kurz

Odesláním formuláře 'Přihláška na kurz' se zaregistruje Vaše přihláška a na zadaný email přijde potvrzení o odeslání této přihlášky. V případě poskytnutí osobních údajů, souhlasíte s archivací těchto údajů v souladu s podmínkami zákona č. 101/2000 Sb., o ochraně osobních údajů, ve znění pozdějších předpisů. Souhlas se zpracováním osobních údajů pro marketingové účely nevyžadujeme, tyto data nezpracováváme. Server pouze zprostředkovává objednávky kurzů & kontakt na jejich pořadatele. Před odesláním přihlášky je nutno souhlasit s obchodními podmínkami účasti na kurzu daného pořadatele kurzu. Neodpovídáme za správnost uvedených údajů. © OBEC.net, sro.

URL >> https://skoleni.net/skoleni_145001_apache-spark-for-data-engineers---advanced-optimizations-&-delta-lake.html

Apache Spark Data Engineers Advanced Optimizations Delta-Lake

Počet kurzů: 149586
Máte zájem nabízet Vaše kurzy na těchto stránkách? - Pošlete nám email na adresu info(at)skoleni.net

✨ Budoucnost vzdělávání je tady

KURZ: Apache Spark for Data Engineers - Advanced Optimizations & Delta-Lake

Program kurzu

Podrobnosti o kurzu

Přihláška na kurz