Big data
Come trattare le masse di dati
Autore: Andrea Pacchiarotti
Ultimo aggiornamento: 11 Marzo 2024
Categoria: Web Marketing Big data
I Big data diventano sempre più grandi e il loro significato viene spesso usato superficialmente senza conoscerne effettivamente tutte le implicazioni. In questa pagina cercherò di spiegarti cosa realmente sono e come potrebbero aiutarti.
Curioso? Leggi
Big data
Sommario Big data
- Definizione di Big data
- Storia dei Big data
- Le 5 V dei Big data
- Big data analytics
- Tendenze nel mondo Big data analytics
- Big data analysis
- Vantaggi ad analizzare i Big Data
- Competenze per gestire progetti di Big data
- Big data e quantum computing
- Tutela dei dati personali
Definizione di Big data
In campo scientifico il termine Big data indica una raccolta massiva di dati eterogenei, strutturati e non strutturati, così estesa in volume, velocità e varietà, d’aver bisogno di apposite tecnologie e metodi per produrre conoscenza scoprendo relazioni tra fenomeni diversi e anticipandone di futuri.
Quantità e complessità che qualificano un insieme di dati come Big data è un tema dibattuto. Alcuni considerano il petabyte come soglia, altri gli exabyte.
La più piccola unità di misura è detta Bit
8 Bit formano un Byte
1024 Byte = 1KB Chilobyte 103
1024 KB = 1MB Megabyte 106
1024 MB = 1GB Gigabyte 109
1024 GB = 1TB Terabyte 1012
1024 TB = 1PB Petabyte 1015
1024 PB = 1EB Exabyte 1018
1024 EB = 1ZB Zettabyte 1021
1024 ZB = 1YB Yottabyte 1024
Pensiamo alla nostra vita quotidiana: quando utilizziamo il computer, lo smartphone, la carta di credito o il bancomat, interagiamo sui social media, clicchiamo su un link, apriamo una app, usiamo una qualsiasi tessera dotata di microchip o facciamo una miriade di altre azioni, lasciamo una traccia digitale.
Pochi sanno quanto Google ci conosca profondamente o quanto Facebook, con il suo oltre miliardo di iscritti e 3 milioni di post al minuto, sappia sui nostri amici, stati d’animo, preferenze, aspettative e bisogni. Entrambi questi colossi sono in grado di profilarci in base a come navighiamo e ci suggerisce pubblicità mirate. Ma i Big data sono sfruttati anche da molteplici altre realtà come ad esempio Amazon, Bing, Yahoo o dagli Internet Provider che sanno costantemente su cosa navighiamo, anche se pensiamo di farlo in incognito.
Le nostre attività digitali creano dunque una sempre crescente mole di dati, che viene analizzata per creare nuova conoscenza adatta a prendere decisioni migliori (per chi?), a tutti i livelli.
Supercomputer e algoritmi esaminano costantemente quest’enorme volume di dati e i computer quantistici accelereranno il processo.
Storia dei Big data
Utilizzo e conservazione dei dati sono pratiche antiche di millenni. Pensiamo per esempio all’abaco, il primo dispositivo usato per fare calcoli fin dal Duemila a.C. in Cina e nella Mezzaluna Fertile e alla biblioteca di Alessandria del III secolo a.C., la più grande e ricca dell’antichità; ciò prova come l’essere umano coltiva da sempre la passione di preservare le informazioni, per poterle consultare successivamente.
Nel 1880 Herman Hollerith (che anni dopo fondò una società che a seguito di fusioni e ridenominazione diventò, nel 1924, l’IBM), addetto ai censimenti negli Stati Uniti, studiò un modo per organizzare le informazioni raccolte riuscendo a ridurre clamorosamente il tempo da dedicare al lavoro di catalogazione.
Nel 1958 il tedesco Hans Peter Luhn, ricercatore e inventore, mentre stava lavorando per IBM, coniò il termine Business Intelligence, una locuzione che sottintende un modo di ottenere vantaggio sui concorrenti raccogliendo e analizzando dati importanti per il business.
Nel 1965 venne costruito il primo data center negli Stati Uniti e, a distanza di qualche anno, uno sviluppatore creò in IBM il primo framework per un database relazionale (come ad esempio MySql o Microsoft Access), lo standard odierno più comune per la raccolta dei dati.
Nel 1991 nacque Internet, che iniziò a rendere le informazioni accessibili a tutto il mondo.
Nel 1999 venne coniato il neologismo Internet of Things, Internet delle cose (IoT o IdC), l’insieme delle informazioni che arrivano ai sistemi IT dalla rete di dispositivi collegati.
Sempre nel 1999 nasce la parola Big data, ma le tecnologie non erano ancora in grado di elaborare in modo ottimale la mole di dati immagazzinati, perché troppi e troppo vari per i database tradizionali. Questi ultimi infatti, manipolavano solo dati strutturati o strutturabili in database relazionali. I Big data sono formati però anche da informazioni destrutturate provenienti dal web.
Oggi i Big data sono spesso gestiti con silos o Data Warehouse, ma sempre più aziende stanno migrando verso soluzioni più avanzate come i Data Lake.
A oggi, per la gestione di grandi volumi di dati, strutturati o meno, si ricorre spesso a una libreria software open source chiamata Hadoop della Apache Foundation. Anche Amazon Web Services, come altre aziende, offre un servizio per il medesimo fine.
Le 5 V dei Big data
Nel 2001, Douglas Laney definì il Modello delle 3 V dei Big data (che nel corso del tempo è divenuto 5 V):
- Volume - Le organizzazioni conservano un’enorme mole di dati
- Velocità - Dati generati, acquisiti e analizzati velocemente
- Varietà - Dati di vario tipo per fonte e formato: da strutturati e numerici in database relazionali a non strutturati come documenti testuali, e-mail, video, audio, interazioni sui canali social, transazioni finanziarie disponibili in diversi formati
E i due nuovi: - Veridicità - Dati affidabili e di qualità
- Variabilità - I flussi di dati possono avere picchi, è importante saperli gestire
Big data analytics
Unendo gli analytics ai Big data è possibile ad esempio:
- Determinare in real time cause di guasti o difetti
- Ricalcolare velocemente interi portafogli di rischio
- Migliorare le prestazioni operative
- Prevenire comportamenti che possano indicare una condotta fraudolenta, individuando il colpevole
- Ottimizzare i prezzi di prodotti e servizi, espandendo il proprio raggio d’azione e accrescendo i ricavi
- Analizzare il comportamento dei clienti per migliorare la loro esperienza, aumentando tassi di conversione, vendite e fidelizzazione
- Dispiegare le forze dell’ordine dove i reati hanno più probabilità di verificarsi
- Dare agli educatori dati sempre più corretti per impattare sul mondo scolastico, identificando ad esempio studenti a rischio o sviluppando sistemi valutatovi migliori
- Ottimizzare la gestione di servizi pubblici come ad esempio la viabilità e l’assistenza sanitaria
- Migliorare la qualità e la produzione minimizzando gli sprechi
- Prevedere lo sviluppo della domanda
- Trovare nuove opportunità di business
Tendenze nel mondo Big data analytics
- Data Monetization i dati sono una materia prima che attira sempre più investimenti, venderne le informazioni derivanti significa guadagnare
- Hybrid Cloud connettere il proprio ambiente con sistemi di Public Cloud consente di limitare i movimenti dei dati
- Machine Learning che già permette di prevedere il comportamento dei clienti e il riconoscimento di immagini
- Nuove Architetture sistemi open source come Hadoop contribuiscono alla nascita di nuovi modelli di Analytics
- Real Time Analytics l’analisi dei dati in tempo reale ne favorisce la velocità
Big data analysis
Per far sì che i Big data possano dare un’ottimale rappresentazione della realtà, è necessario uno scenario di tipo Data Driven (cioè effettuato dopo un'analisi dei dati) formato da 4 tipologie di Data Analysis. L’adozione degli analytics nelle grandi imprese contempla:
- L'analisi descrittiva risponde alla domanda Cos’è successo e perché? Le Descriptive Analytics sono costituite dagli strumenti che rappresentano, anche graficamente, le performance di date situazioni o processi (sei interessato ai grafici Excel?).
- L'analisi predittiva calcola la probabilità che un dato evento si verificherà. Le Predictive Analytics si basano su modelli e tecniche matematiche come ad esempio il Forecasting.
- L'analisi prescrittiva risponde alla domanda Cosa si deve fare se si verifica l'evento x? Le Prescriptive Analytics danno indicazioni strategiche o soluzioni operative basate sia sull’Analisi Descrittiva che Predittiva
- L'analisi automatica attiva autonomamente un’azione sulla base del risultato di analisi svolte. Le Automated Analytics consentono quindi di entrare nell’automazione con soluzioni di Analytics
Vantaggi ad analizzare i Big Data
Questo enorme flusso di informazioni aiuta le imprese a centrare i propri obiettivi: pensiamo ad esempio ai già citati Facebook e Google (e alle tante altre aziende), il cui successo dipende proprio dai Big Data che consentono una panoramica a 360 gradi sulle preferenze, sugli interessi, sui bisogni, ecc. dei navigatori che usano i loro servizi.
Questa mole di dati dà indicazioni sul grado d’attrazione del mercato verso un certo marchio, fanno capire cosa spinge i consumatori a scegliere un determinato bene o servizio, forniscono un affidabile schema predittivo. Tutto ciò si traduce in un contenimento dei costi tramite l’ottimizzazione delle procedure e quindi a un aumento dei profitti, che è proprio il target ultimo della Big Data Analytics.
Inevitabile la nascita di nuove figure professionali, come il Data Scientist, il Data Engineer e il Data Analyst.
Competenze per gestire progetti di Big data
- Data Scientist – Le grandi aziende con almeno uno Scienziato dei Dati sono circa la metà. Il Data Scientist deve saper gestire i Big data e trarne informazioni rilevanti, deve quindi avere competenze interdisciplinari e informatiche, statistiche e matematiche che gli permettano di vedere oltre il dato, individuando i modelli
- Data Engineer – Deve progettare l’infrastruttura, costruire e manutenere la data pipeline. A oggi quasi la metà delle grandi aziende italiane ha un Ingegnere dei dati al proprio interno
- Data Analyst – Esplora, analizza e interpreta i Big data per estrapolare informazioni utili al processo decisionale. È presente in oltre la metà delle grandi aziende italiane
Big data e quantum computing
I computer quantistici sono rivoluzionari sotto ogni aspetto del trattamento dei dati: memorizzazione, elaborazione, trasmissione. La gestione dei Big Data è una dura battaglia per i computer classici, ma i computer quantistici a regime l’affronteranno in tempi decisamente ridotti e più efficacemente. A tal proposito utilissimi sono gli studi sul Quantum Machine Learning, l’apprendimento automatico su elaboratori quantistici, attraverso cui la macchina apprende dai dati mediante algoritmi artificiali. È dimostrato che un neurone artificiale può essere implementato proficuamente su un processore quantistico per costruire reti neurali artificiali quantistiche che velocizzano di gran lunga l’apprendimento. Il Quantum Machine Learning è già in parte disponibile in cloud. Ulteriori studi dimostrano anche come non serva un computer quantistico di grandi dimensioni per affrontare matematicamente alcuni problemi applicati ai Big data. A proposito del quantum computing potrebbe interessarti leggere come i computer quantistici ci renderanno simili a Dio.
Tutela dei dati personali
Naturalmente tutto questo uso di dati pone un problema di privacy e di sicurezza informatica (la cosiddetta cyber security). Analisi e gestione dei Big data implica smisurate criticità sul trattamento dei dati personali e sulla tutela della privacy. L’entrata in vigore del GDPR ha reso più restrittivi i confini relativi alla protezione dei dati personali, favorendo eventuali sanzioni.
Se Big data ti è piaciuto, condividilo!