- Auditarea datelor: datele sunt auditate prin utilizarea metodelor statistice și a bazelor de date pentru a detecta anomalii și contradicții: aceasta oferă în cele din urmă o indicație asupra caracteristicilor anomaliilor și a locațiilor acestora. Mai multe pachete software comerciale vă vor permite să specificați constrângeri de diferite tipuri (folosind o gramatică conformă cu cea a unui limbaj de programare standard, de exemplu, JavaScript sau Visual Basic) și apoi să generați cod care verifică datele pentru încălcarea acestor constrângeri. Acest proces este menționat mai jos în punctele „specificația fluxului de lucru” și „execuția fluxului de lucru”. Pentru utilizatorii care nu au acces la software de curățare de ultimă generație, pachetele de baze de date Microcomputer, cum ar fi Microsoft Access sau File Maker Pro, vă vor permite, de asemenea, să efectuați astfel de verificări, în funcție de constrângere, în mod interactiv, cu puțină sau deloc programare necesară în multe cazuri .
- Specificația fluxului de lucru: detectarea și eliminarea anomaliilor se realizează printr-o secvență de operații asupra datelor cunoscută sub numele de flux de lucru. Este specificată după procesul de auditare a datelor și este esențială pentru obținerea produsului final de date de înaltă calitate. Pentru a realiza un flux de lucru adecvat, cauzele anomaliilor și erorilor din date trebuie luate în considerare îndeaproape.
- Execuția fluxului de lucru: în această etapă, fluxul de lucru este executat după ce specificația sa este finalizată și este verificată corectitudinea acestuia. Implementarea fluxului de lucru ar trebui să fie eficientă, chiar și pe seturi mari de date, ceea ce reprezintă inevitabil un compromis, deoarece execuția unei operațiuni de curățare a datelor poate fi costisitoare din punct de vedere computațional.
- Post procesare și control: după executarea fluxului de lucru de curățare, rezultatele sunt inspectate pentru a verifica corectitudinea. Datele care nu au putut fi corectate în timpul execuției fluxului de lucru sunt corectate manual, dacă este posibil. Rezultatul este un nou ciclu în procesul de curățare a datelor în care datele sunt auditate din nou pentru a permite specificarea unui flux de lucru suplimentar pentru a curăța în continuare datele prin procesare automată.
Datele sursă de bună calitate au de-a face cu „Cultura calității datelor” și trebuie inițiate la vârful organizației. Nu este doar o chestiune de implementare a unor verificări de validare puternice pe ecranele de intrare, pentru că aproape, indiferent cât de puternice sunt aceste verificări, ele pot fi adesea ocolite de utilizatori. Există un ghid în nouă pași pentru organizațiile care doresc să amelioreze calitatea datelor:
- Declarați un angajament la nivel înalt față de o cultură a calității datelor
- Conduceți reingineria proceselor la nivel executiv
- Cheltuiți bani pentru a îmbunătăți mediul de introducere a datelor
- Cheltuiți bani pentru a îmbunătăți integrarea aplicațiilor
- Cheltuiți bani pentru a schimba modul în care funcționează procesele
- Promovați gradul de conștientizare complet al echipei
- Promovați cooperarea interdepartamentală
- Sărbătoriți în mod public excelența calității datelor
- Măsurați și îmbunătățiți continuu calitatea datelor
Aprofundarea curățării
Analiza: pentru detectarea erorilor de sintaxă. Un parser decide dacă un șir de date este acceptabil în cadrul specificațiilor de date permise. Acest lucru este similar modului în care un parser funcționează cu gramatici și limbi.
- Transformarea datelor: transformarea datelor permite maparea datelor din formatul dat în formatul așteptat de aplicația corespunzătoare. Aceasta include conversiile valorilor sau funcțiile de traducere, precum și normalizarea valorilor numerice pentru a se conforma valorilor minime și maxime.
- Eliminarea dublurilor: detectarea dublurilor necesită un algoritm pentru a determina dacă datele conțin reprezentări duplicate ale aceleiași entități. De obicei, datele sunt sortate după o cheie care ar apropia intrările duplicate pentru o identificare mai rapidă.
- Metode statistice: analizând datele utilizând valorile mediei, abaterea standard, intervalul sau algoritmii de grupare, este posibil ca un expert să găsească valori care sunt neașteptate și, prin urmare, eronate. Deși corectarea unor astfel de date este dificilă, deoarece valoarea adevărată nu este cunoscută, aceasta poate fi rezolvată prin setarea valorilor la o valoare medie sau altă valoare statistică. Metodele statistice pot fi folosite și pentru a gestiona valorile lipsă, care pot fi înlocuite cu una sau mai multe valori plauzibile, care sunt de obicei obținute prin algoritmi extinși de creștere a datelor.
Sistem de curățare a datelor
Sarcina esențială a acestui sistem este de a găsi un echilibru adecvat între repararea datelor necorespunzătoare și menținerea datelor cât mai aproape de datele originale din sistemul de producție sursă. Aceasta este o provocare pentru arhitectura ETL.
Sistemul ar trebui să ofere o arhitectură care poate curăța datele, poate înregistra evenimente de calitate și poate măsura/controla calitatea datelor din depozitul de date.
Un început bun este să efectuați o analiză amănunțită de profilare a datelor care va ajuta la definirea complexității necesare a sistemului de curățare a datelor și, de asemenea, să vă ofere o idee despre calitatea actuală a datelor în sistemul(ele) sursă.
Ecrane de calitate
O parte a sistemului de curățare a datelor este un set de filtre de diagnosticare cunoscute sub numele de ecrane de calitate. Fiecare implementează un test în fluxul de date care, dacă eșuează, înregistrează o eroare în Schema de evenimente de eroare. Ecranele de calitate sunt împărțite în trei categorii:
- Ecrane de coloane. Testarea coloanei individuale, de ex. pentru valori neașteptate precum valorile NULL; valori nenumerice care ar trebui să fie numerice; valori în afara intervalului; etc.
- Ecrane structurale. Acestea sunt folosite pentru a testa integritatea diferitelor relații dintre coloane (de obicei chei străine/primare) din același tabel sau din diferite tabele. Ele sunt, de asemenea, folosite pentru a testa dacă un grup de coloane este valid în conformitate cu o definiție structurală pe care ar trebui să o respecte.
- Ecrane cu reguli de afaceri. Cel mai complex dintre cele trei teste. Ele testează pentru a vedea dacă datele, poate din mai multe tabele, respectă anumite reguli comerciale. Un exemplu ar putea fi că, dacă un client este marcat ca un anumit tip de client, trebuie respectate regulile comerciale care definesc acest tip de client.
Când un ecran de calitate înregistrează o eroare, poate fie să oprească procesul de flux de date, fie să trimită datele defecte în altă parte decât sistemul țintă sau să eticheteze datele. Ultima opțiune este considerată cea mai bună soluție, deoarece prima opțiune necesită ca cineva să se ocupe manual de problema de fiecare dată când apare, iar a doua implică faptul că lipsesc date din sistemul țintă (integritate) și de multe ori nu este clar ce ar trebui se întâmplă cu aceste date.
Critica instrumentelor și proceselor existente
Principalele motive invocate sunt:
- Costurile proiectului: costurile de obicei sunt de sute de mii de dolari
- Timp: lipsa timpului suficient pentru a face față cu software-ul de curățare a datelor la scară largă
- Securitate: preocupări privind partajarea informațiilor, acordarea accesului unei aplicații între sisteme și efectele asupra sistemelor vechi
Schema de evenimente de eroare
Această schemă este locul în care sunt înregistrate toate evenimentele de eroare de la ecranele de calitate. Constă dintr-un tabel Error Event Fact cu chei străine pentru tabelele cu trei dimensiuni care reprezintă data (când), jobul lot (unde) și ecranul (cine a produs eroarea). De asemenea, deține informații despre exact când a apărut eroarea și gravitatea erorii. În plus, există un tabel de fapte cu detalii despre evenimentul de eroare cu o cheie străină pentru tabelul principal, care conține informații detaliate despre tabelul, înregistrarea și câmpul în care a apărut eroarea și starea de eroare.
Provocări și probleme
- Corectarea erorilor și pierderea de informații: cea mai dificilă problemă în cadrul curățării datelor rămâne corectarea valorilor pentru a elimina dublurile și intrările nevalide. În multe cazuri, informațiile disponibile despre astfel de anomalii sunt limitate și insuficiente pentru a determina transformările sau corecțiile necesare, lăsând ștergerea unor astfel de intrări ca soluție principală. Ștergerea datelor, totuși, duce la pierderea informațiilor; această pierdere poate fi deosebit de costisitoare dacă există o cantitate mare de date șterse.
- Întreținerea datelor curățate: curățarea datelor este un proces costisitor și consumator de timp. Deci, după ce ați efectuat curățarea datelor și ați obținut o colectare de date fără erori, ați dori să evitați re-curățarea datelor în întregime după modificarea unor valori în culegerea de date. Procesul trebuie repetat numai pe valorile care s-au modificat; aceasta înseamnă că ar trebui păstrată o descendență de curățare, ceea ce ar necesita tehnici eficiente de colectare și gestionare a datelor.
- Curăţarea datelor în medii virtual integrate: în sursele virtual integrate, cum ar fi IBM DiscoveryLink, curățarea datelor trebuie efectuată de fiecare dată când datele sunt accesate, ceea ce crește considerabil timpul de răspuns și scade eficiența.
- Cadru de curățare a datelor: în multe cazuri, nu va fi posibil să se obțină un grafic complet de curățare a datelor pentru a ghida procesul în avans. Acest lucru face ca curățarea datelor să fie un proces iterativ care implică o explorare și o interacțiune semnificativă, care poate necesita un cadru sub forma unei colecții de metode pentru detectarea și eliminarea erorilor, în plus față de auditarea datelor. Acesta poate fi integrat cu alte etape de prelucrare a datelor, cum ar fi integrarea și întreținerea.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
Lasă un răspuns