Data Cleaning: 3 step per renderlo efficace

Il Data Cleaning è importante perché permette di non perdere tempo con analisi incerte o addirittura errate ed evitare così di giungere a conclusioni sbagliate. Inoltre, rende l’analisi più veloce perché i dati corretti, puliti e formattati accelerano il calcolo degli algoritmi avanzati.

Tecniche di Data Cleaning

Il processo di data cleaning segue tre step principali:

Individuare i dati sporchi;
Eliminare i dati sporchi;
Ripetere il procedimento.

Individuare i dati sporchi

La prima cosa da fare è identificare cosa c’è di sbagliato nei dati, ad esempio controllare se questi sono consistenti, se ci sono righe con spazi vuoti, colonne senza alcun dato o valori impossibili e stabilire quali sono i dati mancanti.

Eliminare i dati sporchi

In base alla tipologia di data dirt che si ha di fronte, si avrà bisogno di tecniche diverse di pulizia, un unico approccio non è sufficiente per risolvere tutti i problemi di data cleaning. Nel caso in cui ci siano dei dati mancanti, esistono tre diversi approcci:

Eliminare le righe o le colonne con i dati mancanti;
Codificare i dati mancanti in un formato diverso, ad esempio se si ha una colonna “payment_date” vuota perché non ci sono stati ancora pagamenti, si può modificare in “payed_yet” e riempirla con 0 per “no” e 1 per “si”, in questo modo la colonna non sarà più vuota;
Inserire i valori mancanti realizzando una stima del valore probabile, specialmente per le analisi di serie temporali in cui i dati mancanti possono distorcere le conclusioni.

Se i dati presentano dei valori anomali, esistono tre diversi approcci:

Eliminare i valori anomali dall’analisi escludendo la più alta e più bassa percentuale dai dati;
Separare i valori anomali da quelli considerati normali in due gruppi differenti. Questa differenziazione è utile anche per effettuare strategie di marketing su coloro che ad esempio acquistano molto al di sopra della media.
Usare metodi di statistica differenti per l’analisi dei valori anomali, in questo modo non peseranno in maniera negativa sull’analisi.

Nel caso in cui i dati risultino inconsistenti, dopo averli individuati, l’unico modo è standardizzare tutti gli elementi nello stesso formato. Se invece i dati risultano non validi la soluzione è modificare le funzioni e le trasformazioni che hanno reso il dato non valido, se questo non è possibile è meglio rimuovere il dato.

Talvolta i dati possono risultare duplicati, in questo caso si può agire in due modi:

Trovare i record duplicati ed eliminarli tutti tranne uno;
Raggruppare i record duplicati, compararli e scegliere quello più rilevante (ad esempio quello più recente).

Ripetere il procedimento

Una volta che i dati sono puliti, bisognerà ripetere i primi due step. Tutto ciò è utile per trovare i problemi nascosti o scovarne di nuovi. In questo modo si avrà la sicurezza che i dati siano perfettamente puliti e utilizzabili.

Automazione del Data Cleaning

Alcuni dei task più lunghi e ripetitivi del processo di pulizia dei dati possono essere automatizzati, in particolare è possibile rendere automatiche due tipologie di operazioni:

Individuazione dei problemi. Attraverso un visualization tool è possibile individuare velocemente i valori mancanti e la diversa distribuzione dei dati;
Trasformare i dati nella forma desiderata. Ad esempio è possibile rimuovere tutti gli spazi bianchi, dividere le stringhe in parole oppure eliminare tutte le lettere maiuscole.

La pulizia dei dati è un processo complesso e lungo ma è fondamentale per ottenere informazioni affidabili e di qualità.