Big Data VS Small Data: 10 differenze pratiche

Tre aspetti fondamentali dei Big Data sono le 3 V: Volume, Velocità e Varietà.

Esistono, tuttavia, anche differenze pratiche con gli Small Data. Jules Berman, nel suo libro intitolato “Principi di Big Data: preparazione, condivisione e analisi di informazioni complesse” elenca 10 differenze rispetto ai dati di piccole dimensioni. Elenchiamoli singolarmente.

1) Obiettivo. I piccoli dati vengono solitamente raccolti per un obiettivo specifico. Nei Big data esiste un obiettivo iniziale che però può evolvere o prendere direzioni inaspettate.

2) Posizione. Negli small data abbiamo un singolo file su un unico computer. I big data invece possono essere file multipli su più server e computer in diverse posizioni geografiche.

3) Struttura dei dati e contenuto. I piccoli dati solitamente sono strutturati, ad esempio su un foglio di calcolo di Excel I Big Data, invece, possono avere molti formati in diversi file e risorse.

4) Preparazione dei dati. Nei Big Data solitamente chi prepara il dato è diverso da chi lo usa ed analizza.

5) Longevità. I Big Data hanno longevità maggiore degli small data che, invece, hanno una durata che non supera i 5 anni.

6) Misurazioni. Negli Small Data le misurazioni vengono effettuate utilizzando un’unica scala (ad esempio metri) mentre con i Big Data le scale differiscono poiché coinvolgono diversi dati, diversi paesi.

7) Riproducibilità. Piccoli set di dati possono essere riprodotti nella loro interezza se qualcosa va storto nel processo. Grandi set di dati, invece, siccome sono disponibili in così tante forme diverse, potrebbero non essere riproducibili da capo. In questo caso occorre lavorare su di essi per poterli riprodurre.

8) Costi. Con i big data i progetti possono costare centinaia di milioni di dollari, perdere i dati o corrompere i dati può essere disastroso per il progetto e per il team che lavora al progetto.

9) Introspezione. In un piccolo set di dati le singole informazioni possono essere identificate e correlate traloro; di solito è chiaro il loro significano poichè sono strutturate in maniera facilmente interpretabile. Tuttavia, in un grande insieme di dati, si può finire con informazioni non identificabili, non classificabili o prive di significato. E’ quindi importante comprendere il significato della grande mole di dati attraverso tecniche di Data Mining.

10) Analisi. Di solito è possibile analizzare i singoli dati da un singolo file del computer. I Big Data, tuttavia, sono distribuiti su molti file e server diversi; potrebbe, pertanto, essere necessario eseguire l’estrazione, la revisione, la riduzione, la normalizzazione, la trasformazione e altri passaggi e gestire una parte dei dati gestibile, e quindi aggregare i risultati.

Pertanto, già analizzando queste 10 differenze si può facilmente capire che i Big Data vanno ben oltre le 3 V (volume, velocità e varietà) e per gestire questa enorme mole di dati occorrono sistemi innovativi e tecniche sofisticate.