SlideShare uma empresa Scribd logo
1 de 54
Baixar para ler offline
COSA SONO I BIG DATA?
Luca Naso
3 novembre 2018 @ Acadevmy
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
AGENDA
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
AGENDA
1 COSA SONO I BIG DATA?
Google Trends
Definizione
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
GOOGLE TRENDS
Google Trends (trends.google.it/trends) riporta quante volte è stata cercata una
certa keyword, in una certa nazione ed in un certo periodo di tempo.
E’ un modo di misurare l’interesse diffuso della società.
Ad esempio, se cercassimo "Facebook" cosa vi aspettate di trovare?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
FACEBOOK TRENDS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
IPHONE 8 VS IPHONE 5
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
BUSINESS INTELLIGENCE
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
QUANDO SONO NATI I BIG DATA?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
Google Trends
Definizione
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DEFINIZIONE
Big Data secondo l’Oxford Dictionary:
big data n. Computing (also with capital initials) data of a very large size,
typically to the extent that its manipulation and management present significant
logistical challenges; (also) the branch of computing involving such data.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DEFINIZIONE
Big Data secondo Gartner:
Big data is high-volume, high-velocity and high-variety information assets that
demand cost-effective, innovative forms of information processing for
enhanced insight and decision making.
Da qui sono nate le famose 3 V dei Big Data:
Volume Velocità Varietà
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
QUANTI DATI CI SONO OGGI (2013)?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
VOLUME
2.5 Exabytes di dati creati ogni giorno
Facebook: 200 PB di dati nel 2012, (+ 0.5 PB ogni giorno)
In 3 anni il CERN ha raccolto 75 PB di data (LHC)
La maggior parte delle aziende USA ha 100 TB di dati
1 EB = 1000 PB = 10002 TB = 10003 GB
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
VELOCITÀ
“Velocità” ha due possibili interpre-
tazioni:
1 Generazione dei dati
2 Elaborazione dei dati
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
COSA SUCCEDE SU INTERNET IN 1 MINUTO?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
VARIETÀ
Si referisce alla natura dei dati. Ce ne sono di 3 tipi:
1 Strutturati
2 Semi-Strutturati
3 Non-Strutturati
Tutti possono essere Big Data.
La principale novità sono quelli non-strutturati.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DATI STRUTTURATI
1 Dati in campi fissi all’interno di record (fogli di calcolo, Database
Relazionali)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DATI NON-STRUTTURATI
2 Data conservati senza alcun modello, o che non hanno alcuna
organizzazione (tetso libero)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
DATI SEMI-STRUTTURATI
3 XML, JSON, CSV (Testo con colonne, con un separatore, con dei tag)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
Due progetti
3 TECNOLOGIE
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVENZIONE INCENDI A NEW YORK
Problema: squilibrio tra richiesta e disponibilità
Troppe chiamate (25k l’anno)
Troppo pochi ispettori (200)
Non si riescono a gestire tutte le chiamate
Come scegliere dove mandare gli ispettori?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVENZIONE INCENDI A NEW YORK
Soluzione
1 Raccolta di quante più informazioni possibile sugli edifici (tasso di
criminalità, chiamate al pronto soccorso, utilizzo di corrente, acqua, gas,
regolarità nei pagamenti, ...)
2 Confronto con lo storico degli incendi dei medesimi edifici, alla ricerca di
correlazioni (tra il punto 1 e gli incendi)
3 Previsione di rischio (stima la probabilità di incendio) per ogni nuova
chiamata
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVENZIONE INCENDI A NEW YORK
Risultati
L’efficienza degli ispettori è aumentata dal 13% al 70%
Il confronto con lo storico ha mostrato che:
tipo di edificio ed anno di costruzione influenza il rischio d’incendio
aver un permesso per lavori di muratura esterni correla con minori rischi
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVISIONE IN TEMPO REALE PER LE EPIDEMIE
I metodi tradizionali sono troppo lenti (~2 settimane). Per questo Google ha
sviluppato un metodo molto alternativo.
Ogni giorno, milioni di utenti nel mondo si informano online riguardo la loro
salute.
E’ quindi naturale aspettarsi che durante la stagione invernale si cerchino più
termini relativi all’influenza.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVISIONE IN TEMPO REALE PER LE EPIDEMIE
Soluzione
1 Raccolta delle ricerche effettuate su Google sulle top 50M keyword
2 Confronto con i dati storici (2003-2008), raccolti dalle Autorità Sanitarie
(CDC negli US), alla ricerca di correlazioni tra il numero di malati e le
keywords
3 Previsione del numero di malati sulla base delle ricerche effettuate nel
giorno stesso
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PREVISIONE IN TEMPO REALE PER LE EPIDEMIE
Risultati
Tra le 50M di keywords analizzate 45 correlano bene con i dati
La correlazione è sia temporale, che spaziale (diverse nazioni coinvolte)
Il lavoro è stato pubblicato su Nature nel 2009
Le previsioni fatte in questo modo sono state più accurate fino al 50%
[Royal Society Open Science, 2014]
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
RISULTATI
Google Flu Trend GFT Project: www.google.org/flutrends/
Esempio della potenza e del fallimento dei Big Data
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
E MOLTI ALTRI ANCORA
Finanza
Retail
Telecomunicazioni
Energia
Sport
Automotive
Pubblicità
Sanità
Sicurezza
Politica
Formula 1
Giochi Online
Social Media
Scienza
. . .
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
Calcolo parallelo
Ecosistema Hadoop
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
FACCIAMO UN TEST!
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
COSA È IL CALCOLO PARALLELO?
Un nuovo modo di risolvere problemi esistenti.
Suddivisione del problema iniziale in parti independenti
Molti “lavoratori” da assegnare a ciascuna delle parti:
tutte le parti vengono risolte contemporaneamente, e non una dopo l’altra
Un “master” che gestisca e coordini il lavoro di tutti come un unico
processo
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
CALCOLO PARALLELO - SCHEMA
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SOLUZIONE SERIALE - UNA LUNGA CODA
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SOLUZIONE PARALLELA - MOLTE CODE CORTE
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
Calcolo parallelo
Ecosistema Hadoop
4 BONUS
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
STRUMENTI BIG DATA
Il calcolo parallelo consente di analizzare grandi moli di dati e in tempi
ragionevoli. La prima tecnologia ad usare questo sistema era fatta da Hadoop
+ MapReduce.
Hadoop rappresenta il cluster di computer (lavoratore = computer);
MapReduce rappresenta l’algoritmo di parallellizazione del lavoro
(distribuisce il lavoro ed esegue su ciascun computer).
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
HADOOP - DEFINIZIONE
Hadoop è un framework software open-source (Apache)
per storage distribuito e processing distribuito
di Big Data su cluster di hardware di base (economico).
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
ECOSISTEMA HADOOP
A partire dal 2012, il ter-
mine "Hadoop" si riferisce
all’"Ecosistema Hadoop".
Include tutto il software
addizionale che può essere
installato ed utilizzato su
Hadoop.
Sono coinvolte migliaia di aziende, tra loro connesse.
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
ALCUNI STRUMENTI DELL’ECOSISTEMA
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SERVONO VERAMENTE TUTTI?
Una ricerca del 2014 di O’Reilly mostra che:
esistono più di 300 strumenti per lavorare con Big Data
la maggior parte dei professionisti ne usa tra 6 e 10
i più pagati ne usano più di 20
gli stumenti più comuni sono: SQL, Excel, R, Python
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
BIG DATA VS BUSINESS INTELLIGENCE VS HADOOP
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
1 COSA SONO I BIG DATA?
2 PROGETTI BIG DATA
3 TECNOLOGIE
4 BONUS
Riflessioni e nuovi lavori
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
PERCHÈ ADESSO?
Per 4 motivi, tutti interconessi:
1 Nuove tecnologie (Hadoop, MapReduce, NoSQL, . . . )
2 Nuove conoscenze (Machine Learning, Data Science, . . . )
3 Le aziende stanno investendo davvero tante risorse (soldi, tempo,
persone)
4 Si sta diffondendo una cultura dei dati (data-driven business)
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
NUOVI PARADIGMI
I Big Data richiedono implicitamente 3 cambi di paradigma:
1 da “alcuni” a “tutti”
2 dall’ “ordinato” al “disordinato”
3 dalla “causazione” alla
“correlazione”
1 campione -> popolazione
2 alta qualità -> bassa qualità
3 perchè? -> cosa?
Attenzione al punto 3: il rapporto di causa ed effetto va sempre considerato!
Altrimenti . . .
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
UNA FORTE CORRELAZIONE?
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
IL NUOVO LAVORO: “DATA SCIENTIST”
McKinsey: “By 2018, US alone shortage of 140k to 190k people with deep
analytical skills as well as 1.5 million managers and analysts with the
know-how to use the analysis of big data to make effective decisions.”
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
COMPETENZE MULTIDISCIPLINARI
McKinsey stima per il settore IT la creazione di 4.4 milioni di posti di lavoro in
tutto il mondo (2015). I più ricercati tra questi saranno sicuramente i Data
Scientist.
I Data Scientist devono avere molte qualità, provenienti da 3 grandi macro
aree:
1 Matematica e Statistica
2 Tecnologia e Programmazione
3 Comunicazione e Business
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
RIEPILOGO
1 COSA SONO I BIG DATA?
Google Trends
Definizione
2 PROGETTI BIG DATA
Due progetti
3 TECNOLOGIE
Calcolo parallelo
Ecosistema Hadoop
4 BONUS
Riflessioni e nuovi lavori
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
4 PUNTI DA RICORDARE
1 Le 3 V dei Big Data:
Volume, Velocità, Varietà
2 Caratteristiche dei progetti Big Data:
Raccogliere, Analizzare (correlazioni), Utilizzare (previsioni)
3 Calcolo parallelo ed ecosistema Hadoop
4 Cambi di pardigma e multidisciplinarietà
COSA SONO I
BIG DATA?
LUCA NASO
COSA SONO I
BIG DATA?
GOOGLE TRENDS
DEFINIZIONE
PROGETTI BIG
DATA
DUE PROGETTI
TECNOLOGIE
CALCOLO PARALLELO
ECOSISTEMA
HADOOP
BONUS
RIFLESSIONI E NUOVI
LAVORI
SAPERNE DI PIÙ SUI BIG DATA
www.facebook.com/bigdata4you/

Mais conteúdo relacionado

Mais procurados

지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)Myungjin Lee
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
stackconf 2021 | Weaviate Vector Search Engine – Introduction
stackconf 2021 | Weaviate Vector Search Engine – Introductionstackconf 2021 | Weaviate Vector Search Engine – Introduction
stackconf 2021 | Weaviate Vector Search Engine – IntroductionNETWAYS
 
Architecting Agile Data Applications for Scale
Architecting Agile Data Applications for ScaleArchitecting Agile Data Applications for Scale
Architecting Agile Data Applications for ScaleDatabricks
 
Unifying Space Mission Knowledge with NLP & Knowledge Graph
Unifying Space Mission Knowledge with NLP & Knowledge GraphUnifying Space Mission Knowledge with NLP & Knowledge Graph
Unifying Space Mission Knowledge with NLP & Knowledge GraphVaticle
 
Pandas UDF: Scalable Analysis with Python and PySpark
Pandas UDF: Scalable Analysis with Python and PySparkPandas UDF: Scalable Analysis with Python and PySpark
Pandas UDF: Scalable Analysis with Python and PySparkLi Jin
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
Data Modeling, Data Governance, & Data Quality
Data Modeling, Data Governance, & Data QualityData Modeling, Data Governance, & Data Quality
Data Modeling, Data Governance, & Data QualityDATAVERSITY
 
LDM Slides: How Data Modeling Fits into an Overall Enterprise Architecture
LDM Slides: How Data Modeling Fits into an Overall Enterprise ArchitectureLDM Slides: How Data Modeling Fits into an Overall Enterprise Architecture
LDM Slides: How Data Modeling Fits into an Overall Enterprise ArchitectureDATAVERSITY
 
How We Optimize Spark SQL Jobs With parallel and sync IO
How We Optimize Spark SQL Jobs With parallel and sync IOHow We Optimize Spark SQL Jobs With parallel and sync IO
How We Optimize Spark SQL Jobs With parallel and sync IODatabricks
 
Top 5 Mistakes to Avoid When Writing Apache Spark Applications
Top 5 Mistakes to Avoid When Writing Apache Spark ApplicationsTop 5 Mistakes to Avoid When Writing Apache Spark Applications
Top 5 Mistakes to Avoid When Writing Apache Spark ApplicationsCloudera, Inc.
 
Elasticsearch for beginners
Elasticsearch for beginnersElasticsearch for beginners
Elasticsearch for beginnersNeil Baker
 
Vectors are the new JSON in PostgreSQL
Vectors are the new JSON in PostgreSQLVectors are the new JSON in PostgreSQL
Vectors are the new JSON in PostgreSQLJonathan Katz
 
Lessons learned from building practical deep learning systems
Lessons learned from building practical deep learning systemsLessons learned from building practical deep learning systems
Lessons learned from building practical deep learning systemsXavier Amatriain
 
Introduction to PySpark
Introduction to PySparkIntroduction to PySpark
Introduction to PySparkRussell Jurney
 

Mais procurados (20)

RDD
RDDRDD
RDD
 
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
지식그래프 개념과 활용방안 (Knowledge Graph - Introduction and Use Cases)
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
stackconf 2021 | Weaviate Vector Search Engine – Introduction
stackconf 2021 | Weaviate Vector Search Engine – Introductionstackconf 2021 | Weaviate Vector Search Engine – Introduction
stackconf 2021 | Weaviate Vector Search Engine – Introduction
 
Architecting Agile Data Applications for Scale
Architecting Agile Data Applications for ScaleArchitecting Agile Data Applications for Scale
Architecting Agile Data Applications for Scale
 
Unifying Space Mission Knowledge with NLP & Knowledge Graph
Unifying Space Mission Knowledge with NLP & Knowledge GraphUnifying Space Mission Knowledge with NLP & Knowledge Graph
Unifying Space Mission Knowledge with NLP & Knowledge Graph
 
Pandas UDF: Scalable Analysis with Python and PySpark
Pandas UDF: Scalable Analysis with Python and PySparkPandas UDF: Scalable Analysis with Python and PySpark
Pandas UDF: Scalable Analysis with Python and PySpark
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
Data Modeling, Data Governance, & Data Quality
Data Modeling, Data Governance, & Data QualityData Modeling, Data Governance, & Data Quality
Data Modeling, Data Governance, & Data Quality
 
LDM Slides: How Data Modeling Fits into an Overall Enterprise Architecture
LDM Slides: How Data Modeling Fits into an Overall Enterprise ArchitectureLDM Slides: How Data Modeling Fits into an Overall Enterprise Architecture
LDM Slides: How Data Modeling Fits into an Overall Enterprise Architecture
 
How We Optimize Spark SQL Jobs With parallel and sync IO
How We Optimize Spark SQL Jobs With parallel and sync IOHow We Optimize Spark SQL Jobs With parallel and sync IO
How We Optimize Spark SQL Jobs With parallel and sync IO
 
Top 5 Mistakes to Avoid When Writing Apache Spark Applications
Top 5 Mistakes to Avoid When Writing Apache Spark ApplicationsTop 5 Mistakes to Avoid When Writing Apache Spark Applications
Top 5 Mistakes to Avoid When Writing Apache Spark Applications
 
Elasticsearch for beginners
Elasticsearch for beginnersElasticsearch for beginners
Elasticsearch for beginners
 
Appunti di big data
Appunti di big dataAppunti di big data
Appunti di big data
 
Map Reduce
Map ReduceMap Reduce
Map Reduce
 
Presentation on Big Data
Presentation on Big DataPresentation on Big Data
Presentation on Big Data
 
Big data
Big dataBig data
Big data
 
Vectors are the new JSON in PostgreSQL
Vectors are the new JSON in PostgreSQLVectors are the new JSON in PostgreSQL
Vectors are the new JSON in PostgreSQL
 
Lessons learned from building practical deep learning systems
Lessons learned from building practical deep learning systemsLessons learned from building practical deep learning systems
Lessons learned from building practical deep learning systems
 
Introduction to PySpark
Introduction to PySparkIntroduction to PySpark
Introduction to PySpark
 

Semelhante a Big Data - Breve panoramica

Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiVincenzo Manzoni
 
Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiVincenzo Manzoni
 
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...Free Your Talent
 
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Vincenzo Manzoni
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data MiningAndrea Frison
 
Big Data Vs. Open Data
Big Data Vs.  Open Data Big Data Vs.  Open Data
Big Data Vs. Open Data Consulthinkspa
 
Big data segnali dal futuro
Big data segnali dal futuroBig data segnali dal futuro
Big data segnali dal futuroMarco Domizio
 
Big data and science
Big data and scienceBig data and science
Big data and scienceGiulia Annovi
 
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiAnalytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiFilippo Ragazzo
 
Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Carlo Vaccari
 
Big Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaBig Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaValerio Torriero
 
Approfondimento sui Big Data
Approfondimento sui Big DataApprofondimento sui Big Data
Approfondimento sui Big DataMartinaSalvini
 
Industria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficientiIndustria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficientiGemax Consulting
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata MadeeGianluigi Cogo
 
Big Data, Bigger Practices
Big Data, Bigger PracticesBig Data, Bigger Practices
Big Data, Bigger PracticesEmanuela Zaccone
 
Big data, bigger practices
Big data, bigger practicesBig data, bigger practices
Big data, bigger practicesAIDA Monitoring
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaGianluigi Cogo
 

Semelhante a Big Data - Breve panoramica (20)

Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei dati
 
Introduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei datiIntroduzione ai Big Data e alla scienza dei dati
Introduzione ai Big Data e alla scienza dei dati
 
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
Digital Transformation: Big Data, User Targeting ed Etica - Project Work Mast...
 
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)
 
FANTIN BIG DATA (1)
FANTIN BIG DATA (1)FANTIN BIG DATA (1)
FANTIN BIG DATA (1)
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data Mining
 
Big Data Vs. Open Data
Big Data Vs.  Open Data Big Data Vs.  Open Data
Big Data Vs. Open Data
 
Big data segnali dal futuro
Big data segnali dal futuroBig data segnali dal futuro
Big data segnali dal futuro
 
Big data and science
Big data and scienceBig data and science
Big data and science
 
Analytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggiAnalytics 3.0 - Breve storia della Data Analysis ad oggi
Analytics 3.0 - Breve storia della Data Analysis ad oggi
 
Big data analytics vaccari oct2013
Big data analytics vaccari oct2013Big data analytics vaccari oct2013
Big data analytics vaccari oct2013
 
Big data-simonetta
Big data-simonettaBig data-simonetta
Big data-simonetta
 
Big Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaBig Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social Media
 
Approfondimento sui Big Data
Approfondimento sui Big DataApprofondimento sui Big Data
Approfondimento sui Big Data
 
Industria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficientiIndustria 4.0 soluzioni efficienti
Industria 4.0 soluzioni efficienti
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata Madee
 
Zeebra big dataanalytics_v1.1
Zeebra big dataanalytics_v1.1Zeebra big dataanalytics_v1.1
Zeebra big dataanalytics_v1.1
 
Big Data, Bigger Practices
Big Data, Bigger PracticesBig Data, Bigger Practices
Big Data, Bigger Practices
 
Big data, bigger practices
Big data, bigger practicesBig data, bigger practices
Big data, bigger practices
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital Accademia
 

Mais de Luca Naso

Workshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in PythonWorkshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in PythonLuca Naso
 
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit DetailsMachine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit DetailsLuca Naso
 
Machine learning: Definizione e Tipologie
Machine learning: Definizione e TipologieMachine learning: Definizione e Tipologie
Machine learning: Definizione e TipologieLuca Naso
 
Machine Learning - Breve panoramica
Machine Learning - Breve panoramicaMachine Learning - Breve panoramica
Machine Learning - Breve panoramicaLuca Naso
 
Cos'è il Machine Learning?
Cos'è il Machine Learning?Cos'è il Machine Learning?
Cos'è il Machine Learning?Luca Naso
 
Introduzione sul Machine Learning
Introduzione sul Machine LearningIntroduzione sul Machine Learning
Introduzione sul Machine LearningLuca Naso
 
Problem Solving
Problem SolvingProblem Solving
Problem SolvingLuca Naso
 
The What, Why and How of Big Data
The What, Why and How of Big DataThe What, Why and How of Big Data
The What, Why and How of Big DataLuca Naso
 
How to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 stepsHow to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 stepsLuca Naso
 

Mais de Luca Naso (9)

Workshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in PythonWorkshop introduttivo al Machine Learning in Python
Workshop introduttivo al Machine Learning in Python
 
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit DetailsMachine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
Machine Learning Workshop - EPS YM CT - parte 1 (8 Maggio 2021) Edit Details
 
Machine learning: Definizione e Tipologie
Machine learning: Definizione e TipologieMachine learning: Definizione e Tipologie
Machine learning: Definizione e Tipologie
 
Machine Learning - Breve panoramica
Machine Learning - Breve panoramicaMachine Learning - Breve panoramica
Machine Learning - Breve panoramica
 
Cos'è il Machine Learning?
Cos'è il Machine Learning?Cos'è il Machine Learning?
Cos'è il Machine Learning?
 
Introduzione sul Machine Learning
Introduzione sul Machine LearningIntroduzione sul Machine Learning
Introduzione sul Machine Learning
 
Problem Solving
Problem SolvingProblem Solving
Problem Solving
 
The What, Why and How of Big Data
The What, Why and How of Big DataThe What, Why and How of Big Data
The What, Why and How of Big Data
 
How to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 stepsHow to plan a successful Digital Signage Campaign in 5 steps
How to plan a successful Digital Signage Campaign in 5 steps
 

Big Data - Breve panoramica

  • 1. COSA SONO I BIG DATA? Luca Naso 3 novembre 2018 @ Acadevmy
  • 2. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI AGENDA 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS
  • 3. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI AGENDA 1 COSA SONO I BIG DATA? Google Trends Definizione 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS
  • 4. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI GOOGLE TRENDS Google Trends (trends.google.it/trends) riporta quante volte è stata cercata una certa keyword, in una certa nazione ed in un certo periodo di tempo. E’ un modo di misurare l’interesse diffuso della società. Ad esempio, se cercassimo "Facebook" cosa vi aspettate di trovare?
  • 5. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI FACEBOOK TRENDS
  • 6. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI IPHONE 8 VS IPHONE 5
  • 7. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI BUSINESS INTELLIGENCE
  • 8. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI QUANDO SONO NATI I BIG DATA?
  • 9. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? Google Trends Definizione 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS
  • 10. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DEFINIZIONE Big Data secondo l’Oxford Dictionary: big data n. Computing (also with capital initials) data of a very large size, typically to the extent that its manipulation and management present significant logistical challenges; (also) the branch of computing involving such data.
  • 11. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DEFINIZIONE Big Data secondo Gartner: Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. Da qui sono nate le famose 3 V dei Big Data: Volume Velocità Varietà
  • 12. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI QUANTI DATI CI SONO OGGI (2013)?
  • 13. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI VOLUME 2.5 Exabytes di dati creati ogni giorno Facebook: 200 PB di dati nel 2012, (+ 0.5 PB ogni giorno) In 3 anni il CERN ha raccolto 75 PB di data (LHC) La maggior parte delle aziende USA ha 100 TB di dati 1 EB = 1000 PB = 10002 TB = 10003 GB
  • 14. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI VELOCITÀ “Velocità” ha due possibili interpre- tazioni: 1 Generazione dei dati 2 Elaborazione dei dati
  • 15. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI COSA SUCCEDE SU INTERNET IN 1 MINUTO?
  • 16. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI VARIETÀ Si referisce alla natura dei dati. Ce ne sono di 3 tipi: 1 Strutturati 2 Semi-Strutturati 3 Non-Strutturati Tutti possono essere Big Data. La principale novità sono quelli non-strutturati.
  • 17. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DATI STRUTTURATI 1 Dati in campi fissi all’interno di record (fogli di calcolo, Database Relazionali)
  • 18. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DATI NON-STRUTTURATI 2 Data conservati senza alcun modello, o che non hanno alcuna organizzazione (tetso libero)
  • 19. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI DATI SEMI-STRUTTURATI 3 XML, JSON, CSV (Testo con colonne, con un separatore, con dei tag)
  • 20. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA Due progetti 3 TECNOLOGIE 4 BONUS
  • 21.
  • 22. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVENZIONE INCENDI A NEW YORK Problema: squilibrio tra richiesta e disponibilità Troppe chiamate (25k l’anno) Troppo pochi ispettori (200) Non si riescono a gestire tutte le chiamate Come scegliere dove mandare gli ispettori?
  • 23. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVENZIONE INCENDI A NEW YORK Soluzione 1 Raccolta di quante più informazioni possibile sugli edifici (tasso di criminalità, chiamate al pronto soccorso, utilizzo di corrente, acqua, gas, regolarità nei pagamenti, ...) 2 Confronto con lo storico degli incendi dei medesimi edifici, alla ricerca di correlazioni (tra il punto 1 e gli incendi) 3 Previsione di rischio (stima la probabilità di incendio) per ogni nuova chiamata
  • 24. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVENZIONE INCENDI A NEW YORK Risultati L’efficienza degli ispettori è aumentata dal 13% al 70% Il confronto con lo storico ha mostrato che: tipo di edificio ed anno di costruzione influenza il rischio d’incendio aver un permesso per lavori di muratura esterni correla con minori rischi
  • 25.
  • 26. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVISIONE IN TEMPO REALE PER LE EPIDEMIE I metodi tradizionali sono troppo lenti (~2 settimane). Per questo Google ha sviluppato un metodo molto alternativo. Ogni giorno, milioni di utenti nel mondo si informano online riguardo la loro salute. E’ quindi naturale aspettarsi che durante la stagione invernale si cerchino più termini relativi all’influenza.
  • 27. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVISIONE IN TEMPO REALE PER LE EPIDEMIE Soluzione 1 Raccolta delle ricerche effettuate su Google sulle top 50M keyword 2 Confronto con i dati storici (2003-2008), raccolti dalle Autorità Sanitarie (CDC negli US), alla ricerca di correlazioni tra il numero di malati e le keywords 3 Previsione del numero di malati sulla base delle ricerche effettuate nel giorno stesso
  • 28. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PREVISIONE IN TEMPO REALE PER LE EPIDEMIE Risultati Tra le 50M di keywords analizzate 45 correlano bene con i dati La correlazione è sia temporale, che spaziale (diverse nazioni coinvolte) Il lavoro è stato pubblicato su Nature nel 2009 Le previsioni fatte in questo modo sono state più accurate fino al 50% [Royal Society Open Science, 2014]
  • 29. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI RISULTATI Google Flu Trend GFT Project: www.google.org/flutrends/ Esempio della potenza e del fallimento dei Big Data
  • 30. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI E MOLTI ALTRI ANCORA Finanza Retail Telecomunicazioni Energia Sport Automotive Pubblicità Sanità Sicurezza Politica Formula 1 Giochi Online Social Media Scienza . . .
  • 31. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE Calcolo parallelo Ecosistema Hadoop 4 BONUS
  • 32. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI FACCIAMO UN TEST!
  • 33. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI COSA È IL CALCOLO PARALLELO? Un nuovo modo di risolvere problemi esistenti. Suddivisione del problema iniziale in parti independenti Molti “lavoratori” da assegnare a ciascuna delle parti: tutte le parti vengono risolte contemporaneamente, e non una dopo l’altra Un “master” che gestisca e coordini il lavoro di tutti come un unico processo
  • 34. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI CALCOLO PARALLELO - SCHEMA
  • 35. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SOLUZIONE SERIALE - UNA LUNGA CODA
  • 36. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SOLUZIONE PARALLELA - MOLTE CODE CORTE
  • 37. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE Calcolo parallelo Ecosistema Hadoop 4 BONUS
  • 38. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI STRUMENTI BIG DATA Il calcolo parallelo consente di analizzare grandi moli di dati e in tempi ragionevoli. La prima tecnologia ad usare questo sistema era fatta da Hadoop + MapReduce. Hadoop rappresenta il cluster di computer (lavoratore = computer); MapReduce rappresenta l’algoritmo di parallellizazione del lavoro (distribuisce il lavoro ed esegue su ciascun computer).
  • 39. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI HADOOP - DEFINIZIONE Hadoop è un framework software open-source (Apache) per storage distribuito e processing distribuito di Big Data su cluster di hardware di base (economico).
  • 40. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI ECOSISTEMA HADOOP A partire dal 2012, il ter- mine "Hadoop" si riferisce all’"Ecosistema Hadoop". Include tutto il software addizionale che può essere installato ed utilizzato su Hadoop. Sono coinvolte migliaia di aziende, tra loro connesse.
  • 41.
  • 42. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI ALCUNI STRUMENTI DELL’ECOSISTEMA
  • 43. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SERVONO VERAMENTE TUTTI? Una ricerca del 2014 di O’Reilly mostra che: esistono più di 300 strumenti per lavorare con Big Data la maggior parte dei professionisti ne usa tra 6 e 10 i più pagati ne usano più di 20 gli stumenti più comuni sono: SQL, Excel, R, Python
  • 44. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI BIG DATA VS BUSINESS INTELLIGENCE VS HADOOP
  • 45. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 1 COSA SONO I BIG DATA? 2 PROGETTI BIG DATA 3 TECNOLOGIE 4 BONUS Riflessioni e nuovi lavori
  • 46. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI PERCHÈ ADESSO? Per 4 motivi, tutti interconessi: 1 Nuove tecnologie (Hadoop, MapReduce, NoSQL, . . . ) 2 Nuove conoscenze (Machine Learning, Data Science, . . . ) 3 Le aziende stanno investendo davvero tante risorse (soldi, tempo, persone) 4 Si sta diffondendo una cultura dei dati (data-driven business)
  • 47. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI NUOVI PARADIGMI I Big Data richiedono implicitamente 3 cambi di paradigma: 1 da “alcuni” a “tutti” 2 dall’ “ordinato” al “disordinato” 3 dalla “causazione” alla “correlazione” 1 campione -> popolazione 2 alta qualità -> bassa qualità 3 perchè? -> cosa? Attenzione al punto 3: il rapporto di causa ed effetto va sempre considerato! Altrimenti . . .
  • 48. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI UNA FORTE CORRELAZIONE?
  • 49.
  • 50. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI IL NUOVO LAVORO: “DATA SCIENTIST” McKinsey: “By 2018, US alone shortage of 140k to 190k people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”
  • 51. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI COMPETENZE MULTIDISCIPLINARI McKinsey stima per il settore IT la creazione di 4.4 milioni di posti di lavoro in tutto il mondo (2015). I più ricercati tra questi saranno sicuramente i Data Scientist. I Data Scientist devono avere molte qualità, provenienti da 3 grandi macro aree: 1 Matematica e Statistica 2 Tecnologia e Programmazione 3 Comunicazione e Business
  • 52. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI RIEPILOGO 1 COSA SONO I BIG DATA? Google Trends Definizione 2 PROGETTI BIG DATA Due progetti 3 TECNOLOGIE Calcolo parallelo Ecosistema Hadoop 4 BONUS Riflessioni e nuovi lavori
  • 53. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI 4 PUNTI DA RICORDARE 1 Le 3 V dei Big Data: Volume, Velocità, Varietà 2 Caratteristiche dei progetti Big Data: Raccogliere, Analizzare (correlazioni), Utilizzare (previsioni) 3 Calcolo parallelo ed ecosistema Hadoop 4 Cambi di pardigma e multidisciplinarietà
  • 54. COSA SONO I BIG DATA? LUCA NASO COSA SONO I BIG DATA? GOOGLE TRENDS DEFINIZIONE PROGETTI BIG DATA DUE PROGETTI TECNOLOGIE CALCOLO PARALLELO ECOSISTEMA HADOOP BONUS RIFLESSIONI E NUOVI LAVORI SAPERNE DI PIÙ SUI BIG DATA www.facebook.com/bigdata4you/