Curățarea datelor, sau spălarea datelor, este procesul de detectare și corectare (sau eliminare) a înregistrărilor corupte sau inexacte dintr-un set de înregistrări, tabel sau bază de date și se referă la identificarea părților incomplete, incorecte, inexacte sau irelevante ale datelor și apoi înlocuirea, modificarea sau ștergerea datelor ”murdare” sau irelevante. Curățarea datelor poate fi efectuată în mod interactiv cu instrumente de dispută a datelor, sau ca procesare în lot prin scripting.
După curățare, setul de date rezultat ar trebui să fie în concordanță cu alte seturi de date similare din sistem. Inconsecvențele detectate sau eliminate pot fi cauzate inițial de erori de introducere a utilizatorului, de corupție în transmisie sau stocare sau de diferite definiții ale dicționarului de date ale entităților similare din diferite zone de stocare. Curățarea datelor diferă de validarea datelor prin aceea că validarea aproape invariabil înseamnă că datele sunt respinse din sistem la intrare și sunt efectuate în momentul introducerii, mai degrabă decât pe loturi de date.
Procesul propriu-zis de curățare a datelor poate implica eliminarea erorilor tipografice sau validarea și corectarea valorilor față de o listă cunoscută de entități. Validarea poate fi strictă (cum ar fi respingerea oricărei adrese care nu are un cod poștal valid) sau neclară (cum ar fi corectarea înregistrărilor care se potrivesc parțial cu înregistrările existente, cunoscute). Unele soluții de curățare a datelor vor curăța datele prin verificare încrucișată cu un set de date validat. O practică obișnuită de curățare a datelor este îmbunătățirea datelor, în care datele sunt completate prin adăugarea de informații aferente. De exemplu, adăugarea adreselor cu orice numere de telefon asociate adresei respective. Curățarea datelor poate implica, de asemenea, activități precum armonizarea datelor și standardizarea datelor. De exemplu, armonizarea codurilor scurte (str, dr, etc.) cu cuvintele reale (stradă, drum, etc.). Standardizarea datelor este un mijloc de schimbare a unui set de date de referință la un nou standard, de exemplu, utilizarea codurilor standard.
Motivația
Din punct de vedere administrativ, datele incorecte sau inconsecvente pot duce la concluzii false și investiții greșite direcționate atât la scară publică, cât și la scară privată. De exemplu, guvernul poate dori să analizeze cifrele recensământului populației pentru a decide ce regiuni necesită cheltuieli și investiții suplimentare în infrastructură și servicii. În acest caz, va fi important să aveți acces la date fiabile pentru a evita deciziile fiscale eronate.
În lumea afacerilor, datele incorecte pot fi costisitoare. Multe companii folosesc baze de date cu informații despre clienți care înregistrează date precum informații de contact, adrese și preferințe. De exemplu, dacă adresele sunt inconsecvente, compania va suporta costul retrimiterii e-mailului sau chiar pierderea clienților.
Profesia de contabilitate criminalistică și de investigare a fraudelor utilizează curățarea datelor în pregătirea datelor și se face aceasta de obicei înainte ca datele să fie trimise la un depozit de date pentru investigații ulterioare.
Există pachete disponibile astfel încât să puteți curăța/spăla datele adresei în timp ce le introduceți în sistem. Acest lucru se face în mod normal printr-un API și va solicita personalul pe măsură ce se introduce adresa.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns