Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Modelarea Data Vault a bazelor de date

Modelarea Data Vault a bazelor de date

Modelarea Data Vault (a seifului de date) este o metodă de modelare a bazelor de date care este concepută pentru a oferi stocare istorică pe termen lung a datelor care provin de la mai multe sisteme operaționale. Este, de asemenea, o metodă de examinare a datelor istorice care tratează probleme precum auditarea, urmărirea datelor, viteza de încărcare și rezistența la schimbare, precum și sublinierea necesității de a urmări de unde provin toate datele din baza de date. Aceasta înseamnă că fiecare rând dintr-un seif de date trebuie să fie însoțit de sursa de înregistrare și de atribute de date de încărcare, permițând unui auditor să urmărească valorile până la sursă.

Modelarea Data Vault nu face nicio distincție între datele bune și cele rele („rele”, adică neconformitatea cu regulile de afaceri). Acest lucru este rezumat în declarația conform căreia un seif de date stochează „o singură versiune a faptelor” (exprimat și de Dan Linstedt ca „toate datele, tot timpul”), spre deosebire de practica din alte metode de depozitare de date de stocare „ o singură versiune a adevărului” în care datele care nu sunt conforme cu definițiile sunt eliminate sau „curățate”.

Metoda de modelare este concepută pentru a fi rezistentă la schimbările din mediul de afaceri din care provin datele stocate, separând în mod explicit informațiile structurale de atributele descriptive. Data Vault este conceput pentru a permite încărcarea paralelă cât mai mult posibil, astfel încât implementările foarte mari să poată fi extinse fără a fi nevoie de o reproiectare majoră.

Istorie și filosofie

În modelarea depozitului de date există două opțiuni concurente binecunoscute pentru modelarea stratului în care sunt stocate datele. Fie modelezi după Ralph Kimball, cu dimensiuni conformate și un bus de date enterprise, fie modelezi după Bill Inmon cu baza de date normalizată. Ambele tehnici au probleme atunci când se confruntă cu modificările sistemelor care alimentează depozitul de date. Pentru dimensiunile conformate, trebuie, de asemenea, să curățați datele (pentru a le conforma) și acest lucru este de nedorit în unele cazuri, deoarece acest lucru va pierde în mod inevitabil informații. Data Vault este proiectat pentru a evita sau a minimiza impactul acestor probleme, prin mutarea acestora în zone ale depozitului de date care se află în afara zonei de stocare istorică (curățarea se face în magazinele de date) și prin separarea elementelor structurale (cheile de afaceri și asocieri între cheile de afaceri) din atributele descriptive.

Dan Linstedt, creatorul metodei, descrie baza de date rezultată după cum urmează:

”Modelul Data Vault este un set de tabele normalizate, orientat spre detalii, de urmărire istorică și legat în mod unic, care acceptă una sau mai multe domenii funcționale ale afacerii. Este o abordare hibridă care cuprinde cele mai bune dintre a treia formă normală (3NF) și schema stea. Designul este flexibil, scalabil, consecvent și adaptabil la nevoile întreprinderii”

Filosofia Data Vault este că toate datele sunt date relevante, chiar dacă nu sunt în conformitate cu definițiile și regulile de afaceri stabilite. Dacă datele nu sunt conforme cu aceste definiții și reguli, atunci aceasta este o problemă pentru companie, nu pentru depozitul de date. Determinarea faptului că datele sunt „eronate” este o interpretare a datelor care provine dintr-un anumit punct de vedere care poate să nu fie valabil pentru toată lumea sau în orice moment. Prin urmare, seiful de date trebuie să capteze toate datele și numai atunci când raportează sau extrage date din seiful de date, datele sunt interpretate.

O altă problemă la care Data Vault este un răspuns este că din ce în ce mai mult este nevoie de auditabilitate și trasabilitate completă a tuturor datelor din depozitul de date. Datorită cerințelor Sarbanes-Oxley din SUA și măsurilor similare din Europa, acesta este un subiect relevant pentru multe implementări de business intelligence, prin urmare, obiectivul oricărei implementări a Data Vault este trasabilitatea completă și auditabilitatea tuturor informațiilor.

Data Vault 2.0 este noua specificație, este un standard deschis. Noua specificație conține componente care definesc cele mai bune practici de implementare, metodologia (SEI/CMMI, Six Sigma, SDLC etc.), arhitectura și modelul. Data Vault 2.0 se concentrează pe includerea de noi componente, cum ar fi Big Data, NoSQL – și se concentrează, de asemenea, pe performanța modelului existent. Vechea specificație (documentată aici în cea mai mare parte) este foarte axată pe modelarea Data Vault. Este documentat în cartea: Building a Scalable Data Warehouse with Data Vault 2.0.

Este necesar să evoluăm specificația pentru a include noile componente, împreună cu cele mai bune practici, pentru a menține sistemele EDW și BI la curent cu nevoile și dorințele afacerilor de astăzi.

Istorie

Modelarea seifului de date a fost concepută inițial de Dan Linstedt în 1990 și a fost lansată în 2000 ca metodă de modelare a domeniului public. Într-o serie de cinci articole din The Data Administration Newsletter, regulile de bază ale metodei Data Vault sunt extinse și explicate. Acestea conțin o prezentare generală, o prezentare generală a componentelor, o discuție despre datele de încheiere și alăturari, tabele de linkuri și un articol despre practicile de încărcare.

Un nume alternativ (și rar folosit) pentru metodă este „Arhitectura de modelare a integrării fundamentale comune”.

Data Vault 2.0 a ajuns pe scenă din 2013 și aduce la masă Big Data, NoSQL, integrarea fără întreruperi nestructurată, semi-structurată, împreună cu metodologie, arhitectură și cele mai bune practici de implementare.

Interpretări alternative

Potrivit lui Dan Linstedt, modelul de date este inspirat (sau modelat) de o viziune simplistă a neuronilor, dendritelor și sinapselor – unde neuronii sunt asociați cu huburi și sateliți de huburi, legăturile sunt dendrite (vectori de informații), iar alte legături sunt sinapsele (vectori în sens invers). Folosind un set de algoritmi de extragere a datelor, linkurile pot fi punctate cu evaluări de încredere și de forță. Ele pot fi create și aruncate din mers, în conformitate cu învățarea despre relații care în prezent nu există. Modelul poate fi transformat, adaptat și ajustat automat pe măsură ce este utilizat și alimentat cu noi structuri.

O altă viziune este că un model Data Vault oferă o ontologie enterprise în sensul că descrie termenii din domeniul întreprinderii (huburi) și relațiile dintre ei (legături), adăugând atribute descriptive (sateliți) acolo unde este necesar.

Un alt mod de a gândi un model Data Vault este ca un model grafic. Modelul Data Vault oferă de fapt un model „bazat pe grafic” cu huburi și relații într-o lume a bazelor de date relaționale. În acest mod, dezvoltatorul poate folosi SQL pentru a obține relații bazate pe grafice cu răspunsuri sub secunde.

Noțiuni de bază

Data Vault încearcă să rezolve problema de a face față schimbărilor din mediu prin separarea cheilor de afaceri (care nu se modifică la fel de des, deoarece identifică în mod unic o entitate comercială) și asocierile dintre acele chei de afaceri, de atributele descriptive ale acelor chei. .

Cheile de afaceri și asocierile lor sunt atribute structurale, formând scheletul modelului de date. Metoda Data Vault are ca una dintre principalele sale axiome că cheile de afaceri reale se schimbă numai atunci când afacerea se schimbă și, prin urmare, sunt elementele cele mai stabile din care să derivăm structura unei baze de date istorice. Dacă folosiți aceste chei ca o coloană vertebrală a unui depozit de date, puteți organiza restul datelor în jurul lor. Aceasta înseamnă că alegerea cheilor corecte pentru huburi este de o importanță primordială pentru stabilitatea modelului dvs. Cheile sunt stocate în tabele cu câteva constrângeri asupra structurii. Aceste tabele de chei sunt numite huburi.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat 2.746.30 Selectează opțiunile
Excel - Ghid pentru începători
Excel – Ghid pentru începători

Acest ghid este destinat să vă ajute să învățați și să lucrați cu Microsoft Excel. Se bazează pe utilizarea Excel 2016 pe un computer Windows, dar conceptele și instrumentele acoperite rămân destul de consistente cu unele versiuni mai vechi de … Citeşte mai mult

Nu a fost votat 0.00 Selectează opțiunile
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat 3.668.80 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *