Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Business Intelligence » Profilarea datelor în business intelligence

Profilarea datelor în business intelligence

Profilarea datelor este procesul de examinare a datelor disponibile într-o sursă de date de informații existente (de exemplu, o bază de date sau un fișier) și de colectare a statisticilor sau a rezumatelor mici, dar informative, despre acele date. Scopul acestor statistici poate fi:

  1. Aflați dacă datele existente pot fi utilizate cu ușurință în alte scopuri
  2. Îmbunătățiți capacitatea de a căuta în date etichetându-le cu cuvinte cheie, descrieri sau atribuindu-le unei categorii
  3. Oferiți valori privind calitatea datelor, inclusiv dacă datele sunt conforme cu anumite standarde sau modele
  4. Evaluați riscul implicat în integrarea datelor pentru aplicații noi, inclusiv provocările asocierii
  5. Descoperiți metadatele bazei de date sursă, inclusiv modele și distribuții de valori, candidați cheie, candidați cu cheie străină și dependențe funcționale
  6. Evaluați dacă metadatele cunoscute descriu cu acuratețe valorile reale din baza de date sursă
  7. Înțelegerea provocărilor legate de date la începutul oricărui proiect care necesită multe date, astfel încât surprizele târzii ale proiectului să fie evitate. Găsirea târzie a problemelor de date în proiect poate duce la întârzieri și depășiri de costuri.
  8. Aveți o vizualizare de întreprindere a tuturor datelor, pentru utilizări precum gestionarea datelor de bază în care sunt necesare datele cheie sau guvernanța datelor pentru îmbunătățirea calității datelor.

Profilarea datelor se referă la analizarea surselor de date candidate pentru un depozit de date pentru a clarifica structura, conținutul, relațiile și regulile de derivare a datelor. Profilarea ajută nu numai la înțelegerea anomaliilor și la evaluarea calității datelor, ci și la descoperirea, înregistrarea și evaluarea metadatelor întreprinderii. Astfel, scopul profilării datelor este atât de a valida metadatele atunci când sunt disponibile, cât și de a descoperi metadatele atunci când nu sunt disponibile. Rezultatul analizei este folosit atât din punct de vedere strategic, pentru a determina adecvarea sistemelor sursă candidate și pentru a oferi baza pentru o decizie timpurie, cât și din punct de vedere tactic, pentru a identifica problemele pentru proiectarea ulterioară a soluțiilor și pentru a nivela așteptările sponsorilor.

Cum se face profilarea datelor

Profilarea datelor utilizează diferite tipuri de statistici descriptive, cum ar fi minim, maxim, medie, mod, percentilă, abatere standard, frecvență și variație, precum și alte agregate, cum ar fi numărul și suma. Informațiile suplimentare despre metadate obținute în timpul profilării datelor ar putea fi tipul de date, lungimea, valorile discrete, unicitatea, apariția valorilor nule, modelele tipice de șir și recunoașterea tipului abstract. Metadatele pot fi apoi folosite pentru a descoperi probleme cum ar fi valorile ilegale, greșelile de ortografie, valorile lipsă, reprezentarea variată a valorilor și duplicatele.

Sunt efectuate diferite analize pentru diferite niveluri structurale. De exemplu. coloanele individuale ar putea fi profilate individual pentru a înțelege distribuția frecvenței diferitelor valori, tip și utilizare a fiecărei coloane. Dependențe de valoare încorporată pot fi expuse într-o analiză pe mai multe coloane. În cele din urmă, seturile de valori care se suprapun, care reprezintă eventual relații de chei străine între entități, pot fi explorate într-o analiză inter-tabel.

În mod normal, instrumentele create special sunt utilizate pentru crearea profilului datelor pentru a ușura procesul. Complexitatea calculului crește atunci când treceți de la o singură coloană, la un singur tabel, la profilarea structurală încrucișată. Prin urmare, performanța este un criteriu de evaluare pentru instrumentele de profilare.

Când să se efectueze profilarea datelor

Potrivit lui Kimball, profilarea datelor este efectuată de mai multe ori și cu intensitate diferită pe parcursul procesului de dezvoltare a depozitului de date. Ar trebui efectuată o evaluare ușoară a profilului de îndată ce sistemele sursă candidate au fost identificate imediat după achiziționarea cerințelor de afaceri DW/BI. Scopul este de a clarifica într-un stadiu incipient dacă datele potrivite sunt disponibile la nivelul de detaliu adecvat și dacă anomaliile pot fi tratate ulterior. Dacă nu este cazul, proiectul poate fi încheiat.

Profilarea mai detaliată se face înainte de procesul de modelare dimensională pentru a vedea ce este necesar pentru a converti datele în modelul dimensional. Profilarea detaliată se extinde în procesul de proiectare a sistemului ETL pentru a determina ce date să extragă și ce filtre să aplice.

În plus, datele pot fi efectuate în procesul de dezvoltare a depozitului de date după ce datele au fost încărcate în staging, data mart etc. Efectuarea datelor în aceste etape vă ajută să vă asigurați curățarea și transformările corecte a datelor, conform cerințelor.

Beneficii

Beneficiile profilării datelor sunt îmbunătățirea calității datelor, scurtarea ciclului de implementare a proiectelor majore și îmbunătățirea înțelegerii datelor pentru utilizatori. Descoperirea cunoștințelor de afaceri încorporate în datele în sine este unul dintre beneficiile semnificative derivate din profilarea datelor. Profilarea datelor este una dintre cele mai eficiente tehnologii pentru îmbunătățirea acurateței datelor în bazele de date corporative.

Deși profilarea datelor este eficientă și utilă pentru fiecare sector al vieții noastre de zi cu zi, poate fi o provocare să nu alunecăm în „paralizia analizei”.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3.99$7.99 Selectează opțiunile
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3.99 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2.99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *