Gratuito

Parliamo di Delta Lake e Apache Spark @Meetup Online XstreamData (TO)

Informazioni sull'evento

Condividi questo evento

Data e ora

Località

Località

Torino - Online

via online

10121 Torino

Italy

Visualizza Mappa

Descrizione evento
Community Xstream Data Meetup online: Apache Spark, Delta Lake, DataLake, DataBricks, Data Processing, BigData,

Informazioni sull'evento

Agenda

18:30 - 18:35 - Welcome & Intro

18:35 – 19.10 - Delta Lake: un iniezione di ACIDità in Apache Spark (Andrea Picasso)

19.10 – 19.30- Q&A e Networking finale

----------------------------------------------------------------------

Delta Lake: un iniezione di ACIDità in Apache Spark

ABSTRACT: Negli ultimi anni si è maggiormente focalizzata l'attenzione, sia nel mondo accademico sia in quello industriale, sul concetto di datalake. Questo interesse pratico ha guidato l'evoluzione di progetti, come Delta Lake, e di standard cpme Apache Spark

=> Apache Spark rappresenta un consolidato standard per il Massive Parallel Processing per flussi di dato in batch, le sue performance nel processamento parallelo sono indiscusse.

=> Delta Lake è un progetto open source proveniente dal mondo Databricks che introduce in Spark: transazioni ACID, schema evolution e concurrency control sull'accesso ai dati in formato parquet. La loro integrazione permette la realizzazione di workflow complessi su datalake in grado di gestire flussi SCD (Slow Changing Dimension) e permette a molteplici utenti di processare in maniera concorrente il dato salvato in formato parquet; inoltre, il transaction log può essere sfruttato per fare audity e time travel sul dato presente in datalake.

Grazie alle features di Delta Lake è ora possibile integrare alcuni use cases, in precedenza propri solo del mondo Data Warehouse, all'interno di infrastrutture di nuova generazione basate sul concetto di datalake.

BIO: Andrea Picasso è Senior Big Data Engineer @NTTData. Il suo background accademico è in ingegneria del software con specializzazione in Big Data architecture e Machine Learning modeling. A Singapore ha preso parte in progetti di ricerca nel mondo dell'intelligenza artificiale. Da quando è tornato in Italia, le sue attività principali sono il design e lo sviluppo di architetture Big Data per il workflow delle funzioni di ETL e di Analytics in ambito industriale ed i suoi strumenti sono i tool per il processing distribuito come Spark e Flink, la programmazione funzionale ed il linguaggio Scala.

IMPORTANTE: I nostri eventi online sono aperti a tutti, e naturalmente sono gratuiti, ma la registrazione alla piattaforma di webmeeting è obbligatoria

-----------------------------------------------------------------------------------------------------------------------

Unisciti ai nostri gruppi anche su :

XSTREAMDATA @Linkedin : bit.ly/XStreamData-Lin

XSTREAMDATA @Linkedin : bit.ly/XStreamData-M

XSTREAMDATA @Telegram : t.me/XStreamData

--------------------------------------------------------------------------------------------------------------------------

Condividi con gli amici

Data e ora

Località

Torino - Online

via online

10121 Torino

Italy

Visualizza Mappa

Salva questo evento

Evento salvato