Digital Strategy
Data Cleaning: 3 step per renderlo efficace

Il Data Cleaning è importante perché permette di non perdere tempo con analisi incerte o addirittura errate ed evitare così di giungere a conclusioni sbagliate. Inoltre, rende l’analisi più veloce perché i dati corretti, puliti e formattati accelerano il calcolo degli algoritmi avanzati.
Tecniche di Data Cleaning
Il processo di data cleaning segue tre step principali:
- Individuare i dati sporchi;
- Eliminare i dati sporchi;
- Ripetere il procedimento.
Individuare i dati sporchi
La prima cosa da fare è identificare cosa c’è di sbagliato nei dati, ad esempio controllare se questi sono consistenti, se ci sono righe con spazi vuoti, colonne senza alcun dato o valori impossibili e stabilire quali sono i dati mancanti.
Eliminare i dati sporchi
In base alla tipologia di data dirt che si ha di fronte, si avrà bisogno di tecniche diverse di pulizia, un unico approccio non è sufficiente per risolvere tutti i problemi di data cleaning. Nel caso in cui ci siano dei dati mancanti, esistono tre diversi approcci:
- Eliminare le righe o le colonne con i dati mancanti;
- Codificare i dati mancanti in un formato diverso, ad esempio se si ha una colonna “payment_date” vuota perché non ci sono stati ancora pagamenti, si può modificare in “payed_yet” e riempirla con 0 per “no” e 1 per “si”, in questo modo la colonna non sarà più vuota;
- Inserire i valori mancanti realizzando una stima del valore probabile, specialmente per le analisi di serie temporali in cui i dati mancanti possono distorcere le conclusioni.
Se i dati presentano dei valori anomali, esistono tre diversi approcci:
- Eliminare i valori anomali dall’analisi escludendo la più alta e più bassa percentuale dai dati;
- Separare i valori anomali da quelli considerati normali in due gruppi differenti. Questa differenziazione è utile anche per effettuare strategie di marketing su coloro che ad esempio acquistano molto al di sopra della media.
- Usare metodi di statistica differenti per l’analisi dei valori anomali, in questo modo non peseranno in maniera negativa sull’analisi.
Nel caso in cui i dati risultino inconsistenti, dopo averli individuati, l’unico modo è standardizzare tutti gli elementi nello stesso formato. Se invece i dati risultano non validi la soluzione è modificare le funzioni e le trasformazioni che hanno reso il dato non valido, se questo non è possibile è meglio rimuovere il dato.
Talvolta i dati possono risultare duplicati, in questo caso si può agire in due modi:
- Trovare i record duplicati ed eliminarli tutti tranne uno;
- Raggruppare i record duplicati, compararli e scegliere quello più rilevante (ad esempio quello più recente).
Ripetere il procedimento
Una volta che i dati sono puliti, bisognerà ripetere i primi due step. Tutto ciò è utile per trovare i problemi nascosti o scovarne di nuovi. In questo modo si avrà la sicurezza che i dati siano perfettamente puliti e utilizzabili.
Automazione del Data Cleaning
Alcuni dei task più lunghi e ripetitivi del processo di pulizia dei dati possono essere automatizzati, in particolare è possibile rendere automatiche due tipologie di operazioni:
- Individuazione dei problemi. Attraverso un visualization tool è possibile individuare velocemente i valori mancanti e la diversa distribuzione dei dati;
- Trasformare i dati nella forma desiderata. Ad esempio è possibile rimuovere tutti gli spazi bianchi, dividere le stringhe in parole oppure eliminare tutte le lettere maiuscole.
La pulizia dei dati è un processo complesso e lungo ma è fondamentale per ottenere informazioni affidabili e di qualità.
Torna al blog