Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Calitatea datelor în analiza datelor

Calitatea datelor în analiza datelor

Datele de înaltă calitate trebuie să treacă printr-un set de criterii de calitate. Acestea includ:

  • Validitate: gradul în care măsurile se conformează regulilor sau constrângerilor de afaceri definite. Atunci când tehnologia modernă a bazelor de date este utilizată pentru a proiecta sisteme de captare a datelor, validitatea este destul de ușor de asigurat: datele nevalide apar mai ales în contexte vechi (unde constrângerile nu au fost implementate în software) sau în care a fost folosită tehnologia de captare a datelor necorespunzătoare (de exemplu, foi de calcul, unde este foarte greu să limitezi ceea ce un utilizator alege să introducă într-o celulă). Constrângerile de date se încadrează în următoarele categorii:
    • Constrângeri de tip de date – de exemplu, valorile dintr-o anumită coloană trebuie să fie de un anumit tip de date, de exemplu, boolean, numeric (întreg sau real), dată etc.
    • Constrângeri de interval: de obicei, numerele sau datele ar trebui să se încadreze într-un anumit interval. Adică au valori minime și/sau maxime admise.
    • Constrângeri obligatorii: anumite coloane nu pot fi goale.
    • Constrângeri unice: un câmp sau o combinație de câmpuri trebuie să fie unic într-un set de date. De exemplu, două persoane nu pot avea același număr de securitate socială.
    • Constrângeri de set de membru: valorile pentru o coloană provin dintr-un set de valori sau coduri discrete. De exemplu, sexul unei persoane poate fi Femeie, Bărbat sau Necunoscut (neînregistrat).
    • Constrângeri de cheie străină: acesta este cazul mai general al apartenenței setului. Setul de valori dintr-o coloană este definit într-o coloană a altui tabel care conține valori unice. De exemplu, într-o bază de date a contribuabililor din SUA, coloana „stat” trebuie să aparțină unuia dintre statele sau teritoriile definite din SUA: setul de state/teritorii permise este înregistrat într-un tabel separat de state. Termenul cheie externă este împrumutat din terminologia bazelor de date relaționale.
    • Modele obișnuite de expresie: uneori, câmpurile de text vor trebui validate în acest mod. De exemplu, poate fi necesar ca numerele de telefon să aibă modelul (999) 9999999.
    • Validare între câmpuri: anumite condiții care utilizează mai multe câmpuri trebuie să fie valabile. De exemplu, în medicina de laborator, suma componentelor numărului diferenţial de globule albe trebuie să fie egală cu 100 (din moment ce toate sunt procente). Într-o bază de date de spital, data externării unui pacient nu poate fi anterioară data admiterii.
  • Curățirea înseamnă detectarea erorilor și eliminarea lor sintactică pentru o programare mai bună.
  • Acuratețe: gradul de conformitate al unei măsuri cu un standard sau cu o valoare adevărată. Acuratețea este foarte greu de obținut prin curățarea datelor în cazul general, deoarece necesită accesarea unei surse externe de date care conține valoarea adevărată: astfel de date „standard de aur” sunt adesea indisponibile. Acuratețea a fost obținută în anumite contexte de curățare, în special în datele de contact ale clienților, prin utilizarea bazelor de date externe care potrivesc codurile poștale cu locațiile geografice (oraș și stat) și, de asemenea, ajută la verificarea existenței efective a adreselor străzilor din aceste coduri poștale.
  • Completitudine: gradul în care sunt cunoscute toate măsurile necesare. Incompletitudinea este aproape imposibil de remediat cu metodologia de curățare a datelor: nu se pot deduce fapte care nu au fost capturate atunci când datele în cauză au fost înregistrate inițial. (În unele contexte, de exemplu, datele interviului, este posibil să se remedieze caracterul incomplet revenind la sursa inițială de date, adică reintervievarea subiectului, dar nici măcar acest lucru nu garantează succesul din cauza problemelor de reamintire. – de exemplu, într-un interviu pentru a culege date despre consumul de alimente, este posibil ca nimeni să nu-și amintească exact ce a mâncat acum șase luni. În cazul sistemelor care insistă că anumite coloane nu trebuie să fie goale, se poate rezolva problema desemnând o valoare care indică „necunoscut” sau „lipsă”, dar furnizarea valorilor implicite nu implică faptul că datele au fost complete.
  • Consecvență: gradul în care un set de măsuri este echivalent în toate sistemele. Incoerența apare atunci când două elemente de date din setul de date se contrazic: de exemplu, un client este înregistrat în două sisteme diferite ca având două adrese curente diferite și numai una dintre ele poate fi corectă. Remedierea inconsecvenței nu este întotdeauna posibilă: necesită o varietate de strategii – de exemplu, să se decidă care date au fost înregistrate mai recent, care sursă de date este probabil să fie cea mai fiabilă (aceste din urmă cunoștințe pot fi specifice unei anumite organizații) sau pur și simplu încercarea de a găsiți adevărul testând ambele elemente de date (de exemplu, apelând clientul).
  • Uniformitate: gradul în care un set de măsurători de date sunt specificate folosind aceleași unități de măsură în toate sistemele. În seturile de date reunite din diferite locații, greutatea poate fi înregistrată fie în livre, fie în kilograme, și trebuie convertită într-o singură măsură folosind o transformare aritmetică.

Termenul de integritate cuprinde acuratețea, consecvența și unele aspecte ale validării, dar este rareori folosit singur în contexte de curățare a datelor, deoarece este insuficient de specific. (De exemplu, „integritate referențială” este un termen folosit pentru a se referi la aplicarea constrângerilor de cheie străină de mai sus.)

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat 19.26 lei46.39 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat 14.43 lei33.21 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Inteligența competitivă - Concept - Studii
Inteligența competitivă – Concept – Studii

Inteligența competitivă: instrumentul esențial pentru succesul în afaceri

Nu a fost votat 9.61 lei15.20 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *