(Prezentare generală a depozitului de date)
În informatică, un depozit de date (DW sau DWH), cunoscut și sub numele de depozit de date pentru întreprinderi (EDW), este un sistem utilizat pentru raportare și analiză de date și este considerat o componentă de bază a business intelligence. DW-urile sunt depozite centrale de date integrate din una sau mai multe surse disparate. Acestea stochează date curente și istorice într-un singur loc, care sunt utilizate pentru crearea de rapoarte analitice pentru lucrătorii din întreaga întreprindere.
Datele stocate în depozit sunt încărcate din sistemele operaționale (cum ar fi marketingul sau vânzările). Datele pot trece printr-un depozit de date operațional și pot necesita curățarea datelor pentru operațiuni suplimentare pentru a asigura calitatea datelor înainte de a fi utilizate în DW pentru raportare.
Extragere, transformare, încărcare (ETL) și extragere, încărcare, transformare (ELT) sunt cele două abordări principale utilizate pentru a construi un sistem de depozitare de date.

Depozite de date bazate pe ETL
Depozitul tipic de date bazat pe extragere, transformare, încărcare (ETL) folosește stocarea, integrarea datelor și straturile de acces pentru a găzdui funcțiile sale cheie. Stratul de stocare sau baza de date de stocare stochează date brute extrase din fiecare dintre sistemele de date sursă disparate. Stratul de integrare integrează seturi de date disparate prin transformarea datelor din stratul de etapizare stocând adesea aceste date transformate într-o bază de date de stocare a datelor operaționale (ODS). Datele integrate sunt apoi mutate într-o altă bază de date, denumită adesea baza de date a depozitului de date, unde datele sunt aranjate în grupuri ierarhice, deseori numite dimensiuni, și în fapte și fapte agregate. Combinația de fapte și dimensiuni este uneori numită schemă stelară. Stratul de acces îi ajută pe utilizatori să recupereze date.
Sursa principală a datelor este curățată, transformată, catalogată și pusă la dispoziție pentru utilizare de către manageri și alți profesioniști în afaceri pentru minerit de date, procesare analitică online, cercetare de piață și sprijin pentru decizii. Cu toate acestea, mijloacele de recuperare și analiză a datelor, de extragere, transformare și încărcare a datelor și de gestionare a dicționarului de date sunt, de asemenea, considerate componente esențiale ale unui sistem de stocare a datelor. Multe referințe la depozitarea datelor utilizează acest context mai larg. Astfel, o definiție extinsă pentru depozitarea datelor include instrumente de business intelligence, instrumente pentru extragerea, transformarea și încărcarea datelor în depozit și instrumente pentru gestionarea și preluarea metadatelor.
IBM InfoSphere DataStage, Ab Initio Software, Informatica – PowerCenter, sunt unele dintre instrumentele utilizate pe scară largă pentru implementarea depozitului de date bazat pe ETL.
Depozite de date bazate pe ELT

Depozitarea de date bazată pe ELT scapă de un instrument ETL separat pentru transformarea datelor. În schimb, menține o zonă de stocare în interiorul depozitului de date. În această abordare, datele sunt extrase din sisteme sursă eterogene și sunt apoi încărcate direct în depozitul de date, înainte de a se produce orice transformare. Toate transformările necesare sunt apoi gestionate în interiorul depozitului de date. În cele din urmă, datele manipulate sunt încărcate în tabelele țintă din același depozit de date.
Beneficii
Un depozit de date păstrează o copie a informațiilor din sistemele de tranzacții sursă. Această complexitate arhitecturală oferă posibilitatea de:
- Integrare date din mai multe surse într-o singură bază de date și un model de date. Mai multă adunare de date într-o singură bază de date, astfel încât un singur motor de interogare poate fi utilizat pentru a prezenta date într-un ODS.
- Atenuarea problemei contenției de blocare a nivelului de izolare a bazei de date în sistemele de procesare a tranzacțiilor cauzată de încercările de a rula interogări de analiză de lungă durată în bazele de date de procesare a tranzacțiilor.
- Păstrarea istoricului datelor, chiar dacă sistemele de tranzacții sursă nu fac asta.
- Integrarea datelor din mai multe sisteme sursă, permițând o vizualizare centrală a întregii întreprinderi. Acest beneficiu este întotdeauna valoros, dar mai ales atunci când organizația a crescut prin fuziune.
- Îmbunătățirea calității datelor, oferind coduri și descrieri consecvente, semnalizând sau chiar remediind datele defecte.
- Prezentarea informațiilor organizației în mod consecvent.
- Furnizarea unui singur model de date comun pentru toate datele de interes, indiferent de sursa datelor.
- Restructurarea datelor astfel încât să aibă sens pentru utilizatorii de afaceri.
- Restructurarea datelor astfel încât să ofere performanțe excelente de interogare, chiar și pentru interogări analitice complexe, fără a afecta sistemele operaționale.
- Adăugarea de valoare aplicațiilor operaționale de afaceri, în special sistemele de gestionare a relației cu clienții (CRM).
- Ușurință mai mare în scrierea interogărilor de asistență pentru decizii.
- Organizarea și atenuarea dezambiguităților datelor repetitive
Generic
Mediul pentru depozite și magazine de date și include următoarele:
- Sisteme sursă care furnizează date depozitului sau magazinului;
- Tehnologia și procesele de integrare a datelor necesare pentru pregătirea datelor pentru utilizare;
- Diferite arhitecturi pentru stocarea datelor în depozitul sau magazinului de date ale unei organizații;
- Diferite instrumente și aplicații pentru o varietate de utilizatori;
- Metadatele, calitatea datelor și procesele de guvernare trebuie să fie în vigoare pentru a se asigura că depozitul sau magazinul își îndeplinesc scopurile.
În ceea ce privește sistemele sursă enumerate mai sus, R. Kelly Rainer afirmă: „O sursă comună pentru datele din depozitele de date sunt bazele de date operaționale ale companiei, care pot fi baze de date relaționale”.
În ceea ce privește integrarea datelor, Rainer afirmă: „Este necesar să extragem date din sistemele sursă, să le transformăm și să le încărcăm într-un magazin sau într-un depozit de date”.
Rainer discută despre stocarea datelor în depozitul sau magazinul de date ale unei organizații.
Metadatele sunt date despre date. „Personalul IT are nevoie de informații despre sursele de date; numele bazelor de date, tabelelor și coloanelor; programele de reîmprospătare și măsurile de utilizare a datelor”.
Astăzi, cele mai de succes companii sunt cele care pot răspunde rapid și flexibil la schimbările și oportunitățile pieței. O cheie a acestui răspuns este utilizarea efectivă și eficientă a datelor și informațiilor de către analiști și manageri. Un „depozit de date” este un depozit de date istorice care este organizat de subiect pentru a sprijini factorii de decizie din organizație. Odată ce datele sunt stocate într-un magazin sau un depozit de date, acestea pot fi accesate.
Sisteme conexe (magazin de date, OLAPS, OLTP, analize predictive)
Un magazin de date este o formă simplă de depozit de date care se concentrează pe un singur subiect (sau zonă funcțională), prin urmare, extrag date dintr-un număr limitat de surse, cum ar fi vânzări, finanțe sau marketing. Magazinele de date sunt adesea construite și controlate de un singur departament din cadrul unei organizații. Sursele ar putea fi sisteme operaționale interne, un depozit central de date sau date externe. Denormalizarea este norma pentru tehnicile de modelare a datelor în acest sistem. Având în vedere că magazinele de date acoperă în general doar un subset de date conținute într-un depozit de date, acestea sunt adesea mai ușor și mai rapid de implementat.
Atribut | Depozit de date | Magazin de date |
---|---|---|
Domeniul de aplicare al datelor | la nivel de întreprindere | la nivel de departament |
Numărul de domenii | multiplu | singur |
Cât de dificil e de construit | dificil | uşor |
Cât timp durează pentru a construi | mult | puțin |
Cantitatea de memorie | mai mare | limitat |
Tipurile de magazine de date includ magazine de date dependente, independente și hibride.
Procesarea analitică online (OLAP) se caracterizează printr-un volum relativ mic de tranzacții. Interogările sunt adesea foarte complexe și implică agregări. Pentru sistemele OLAP, timpul de răspuns este o măsură eficientă. Aplicațiile OLAP sunt utilizate pe scară largă de tehnicile de minerit de date. Bazele de date OLAP stochează date istorice agregate în scheme multi-dimensionale (de obicei scheme stelare). Sistemele OLAP au de obicei o latență a datelor de câteva ore, spre deosebire de magazinele de date, în care se așteaptă ca latența să fie mai aproape de o zi. Abordarea OLAP este utilizată pentru a analiza date multidimensionale din mai multe surse și perspective. Cele trei operațiuni de bază din OLAP sunt Roll-up (Consolidare), Drill-down (Explorare) și Slicing & Dicing (Feliere și Decupare).
Procesarea tranzacțiilor online (OLTP) se caracterizează printr-un număr mare de tranzacții scurte on-line (INSERT, UPDATE, DELETE). Sistemele OLTP subliniază procesarea foarte rapidă a interogărilor și menținerea integrității datelor în medii cu acces multiplu. Pentru sistemele OLTP, eficacitatea se măsoară prin numărul de tranzacții pe secundă. Bazele de date OLTP conțin date detaliate și actuale. Schema utilizată pentru stocarea bazelor de date tranzacționale este modelul entității (de obicei 3NF). Normalizarea este norma pentru tehnicile de modelare a datelor în acest sistem.
Analiza predictivă se referă la găsirea și cuantificarea tiparelor ascunse în date folosind modele matematice complexe care pot fi utilizate pentru a prezice rezultatele viitoare. Analiza predictivă este diferită de OLAP prin faptul că OLAP se concentrează pe analiza datelor istorice și este reactivă în natură, în timp ce analiza predictivă se concentrează pe viitor. Aceste sisteme sunt utilizate și pentru gestionarea relației cu clienții (CRM).
Include texte traduse din Wikipedia
Lasă un răspuns