Metode de proiectare
Design de jos în sus
În abordarea de jos în sus, magazinele de date sunt create mai întâi pentru a oferi rapoarte și capabilități analitice pentru anumite procese de afaceri. Aceste magazine de date pot fi apoi integrate pentru a crea un depozit de date cuprinzător. Arhitectura magistralei depozitului de date este în primul rând o implementare a „magistralei”, o colecție de dimensiuni conformate și fapte conformate, care sunt dimensiuni partajate (într-un mod specific) între fapte în două sau mai multe magazine de date.
Design de sus în jos
Abordarea de sus în jos este concepută utilizând un model de date de întreprindere normalizat. Datele „atomice”, adică datele la cel mai înalt nivel de detaliere, sunt stocate în depozitul de date. Magazinele de date dimensionale care conțin date necesare pentru anumite procese de afaceri sau departamente specifice sunt create din depozitul de date.
Design hibrid
Depozitele de date (DW) seamănă adesea cu arhitectura hub-and-spokes (radial). Sistemele vechi care alimentează depozitul includ adesea managementul relației cu clienții și planificarea resurselor întreprinderii, generând cantități mari de date. Pentru a consolida aceste diferite modele de date și a facilita procesul de încărcare a transformării extraselor, depozitele de date folosesc adesea un depozit de date operațional, informațiile din care sunt analizate în DW-ul real. Pentru a reduce redundanța datelor, sistemele mai mari stochează adesea datele într-un mod normalizat. Magazinele de date (data mart) pentru rapoarte specifice pot fi apoi construite deasupra depozitului de date.
O bază de date DW hibridă este păstrată pe a treia formă normală pentru a elimina redundanța datelor. Cu toate acestea, o bază de date relațională normală nu este eficientă pentru rapoartele de business intelligence în care modelarea dimensională este predominantă. Magazinele de date mici pot cumpăra date din depozitul consolidat și pot utiliza datele specifice filtrate pentru tabelele de date și dimensiunile necesare. DW oferă o singură sursă de informații din care pot fi citite martorii de date, oferind o gamă largă de informații comerciale. Arhitectura hibridă permite înlocuirea unui DW cu un depozit principal de gestionare a datelor în care ar putea locui informații operaționale (nu statice).
Componentele de modelare data vault urmează arhitectura hub-and-spokes. Acest stil de modelare este un design hibrid, constând din cele mai bune practici atât din forma a treia normală, cât și din schema stelară. Modelul data vault nu este o adevărată a treia formă normală și încalcă unele dintre regulile sale, dar este o arhitectură de sus în jos, cu un design de jos în sus. Modelul data vault este conceput pentru a fi strict un depozit de date. Nu este conceput pentru a fi accesibil utilizatorului final, care, atunci când este construit, necesită totuși utilizarea unui magazin de date sau a unei zone de lansare bazate pe schemă stelară în scopuri comerciale.
Caracteristicile depozitului de date
Există caracteristici de bază care definesc datele din depozitul de date care includ orientarea subiectului, integrarea datelor, varianta de timp, datele nonvolatile și granularitatea datelor.
Orientate spre subiect
Spre deosebire de sistemele operaționale, datele din depozitul de date sunt orientate spre subiectele întreprinderii. Orientarea subiectului nu este normalizarea bazei de date. Orientarea spre subiect poate fi cu adevărat utilă pentru luarea deciziilor. Colectarea obiectelor necesare se numește orientată spre subiect.
Integrate
Datele găsite în depozitul de date sunt integrate. Deoarece provin din mai multe sisteme operaționale, toate neconcordanțele trebuie eliminate. Coerențele includ convenții de denumire, măsurarea variabilelor, structuri de codificare, atribute fizice ale datelor și așa mai departe.
Variante temporal
În timp ce sistemele operaționale reflectă valorile actuale, deoarece susțin operațiunile de zi cu zi, datele din depozitele de date reprezintă un orizont lung de timp (până la 10 ani) ceea ce înseamnă că stochează în principal date istorice. Este destinat în principal pentru extragerea datelor și pentru prognoză. (De exemplu, dacă un utilizator caută un model de cumpărare al unui anumit client, acesta trebuie să analizeze datele privind achizițiile curente și anterioare.)
Non-volatile
Datele din depozitul de date sunt doar pentru citire, ceea ce înseamnă că nu pot fi actualizate, create sau șterse (cu excepția cazului în care există o obligație de reglementare sau legală de a face acest lucru).
Opțiuni pentru depozitul de date
Agregare
În procesul de stocare a datelor, datele pot fi agregate în magazine de date la diferite niveluri de abstractizare. Utilizatorul poate începe să analizeze totalul unităților de vânzare ale unui produs într-o regiune întreagă. Apoi utilizatorul se uită la stările din acea regiune. În cele din urmă, se pot examina magazinele individuale într-un anumit stare. Prin urmare, în mod obișnuit, analiza începe la un nivel mai înalt și trece la niveluri mai mici de detalii.
Arhitectura depozitului de date
Diferitele metode utilizate pentru a construi / organiza un depozit de date specificat de o organizație sunt numeroase. Hardware-ul utilizat, software-ul creat și resursele de date necesare în mod specific pentru funcționalitatea corectă a unui depozit de date sunt principalele componente ale arhitecturii depozitului de date. Toate depozitele de date au faze multiple în care cerințele organizației sunt modificate și ajustate.
Versus sistemul operațional
Sistemele operaționale sunt optimizate pentru păstrarea integrității datelor și a vitezei de înregistrare a tranzacțiilor comerciale prin utilizarea normalizării bazei de date și a unui model entitate-relație. Proiectanții de sistem operațional respectă, în general, cele 12 reguli de normalizare a bazei de date Codd pentru a asigura integritatea datelor. Proiectele de baze de date complet normalizate (adică cele care îndeplinesc toate regulile Codd) duc adesea la stocarea informațiilor dintr-o tranzacție comercială în zeci până la sute de tabele. Bazele de date relaționale sunt eficiente în gestionarea relațiilor dintre aceste tabele. Bazele de date au performanțe de inserare / actualizare foarte rapide, deoarece doar o cantitate mică de date din aceste tabele este afectată de fiecare dată când este procesată o tranzacție. Pentru a îmbunătăți performanța, datele mai vechi sunt de obicei eliminate periodic din sistemele operaționale.
Depozitele de date sunt optimizate pentru modele de acces analitic. Modelele de acces analitic implică în general selectarea câmpurilor specifice și rareori
, care selectează toate câmpurile / coloanele, așa cum este mai frecvent în bazele de date operaționale. Datorită acestor diferențe în tiparele de acces, bazele de date operaționale (OLTP) beneficiază de utilizarea unui SGBD orientat pe rând, în timp ce bazele de date analitice (OLAP) beneficiază de utilizarea unui SGBD orientat pe coloane. Spre deosebire de sistemele operaționale care păstrează un instantaneu al afacerii, depozitele de date mențin, în general, un istoric infinit care este implementat prin procese ETL care migrează periodic date din sistemele operaționale către depozitul de date.
select *
Evoluția în utilizarea organizației
Acești termeni se referă la nivelul de rafinament al unui depozit de date:
Depozit de date operaționale offline: Depozitele de date din această etapă de evoluție sunt actualizate pe un ciclu de timp regulat (de obicei zilnic, săptămânal sau lunar) din sistemele operaționale și datele sunt stocate într-o bază de date integrată orientată spre raportare.
Depozit de date offline: Depozitele de date în această etapă sunt actualizate în mod regulat din datele din sistemele operaționale, iar datele din depozitul de date sunt stocate într-o structură de date concepută pentru a facilita raportarea.
Depozit de date în timp real: Depozitarea integrată de date online reprezintă depozitul de date în timp real în care datele din depozit sunt actualizate pentru fiecare tranzacție efectuată pe datele sursă
Depozit de date integrat: Aceste depozite de date colectează date din diferite domenii de activitate, astfel încât utilizatorii să poată căuta informațiile de care au nevoie în alte sisteme.
Traducere și adaptare de Nicolae Sfetcu din Wikipedia
Lasă un răspuns