Depozitul de date este nucleul business intelligence. Este utilizat în principal pentru raportarea și analiza datelor. Magazinul de date (data mart), gestionarea datelor master, dimensiunea, dimensiunea schimbărilor lente și schema stelară.
În informatică, un depozit de date (DW sau DWH), cunoscut și sub numele de depozit de date pentru întreprinderi (EDW), este un sistem utilizat pentru raportare și analiză a datelor și este considerat o componentă de bază a business intelligence. DW-urile sunt depozite centrale de date integrate din una sau mai multe surse disparate. Acestea stochează date curente și istorice și sunt utilizate pentru crearea de rapoarte analitice pentru lucrătorii din domeniul cunoașterii din întreaga întreprindere. Exemple de rapoarte ar putea varia de la comparații și tendințe anuale și trimestriale până la analize detaliate ale vânzărilor zilnice.
(Prezentare generală a depozitului de date)
Datele stocate în depozit sunt încărcate din sistemele operaționale (cum ar fi marketingul sau vânzările). Datele pot trece printr-un depozit de date operaționale pentru operațiuni suplimentare înainte de a fi utilizate în DW pentru raportare.
Tipuri de sisteme
Magazin de date
Un magazin de date este o formă simplă de depozit de date care se concentrează pe un singur subiect (sau zonă funcțională), prin urmare, extrag date dintr-un număr limitat de surse, cum ar fi vânzări, finanțe sau marketing. Magazinele de date sunt adesea construite și controlate de un singur departament din cadrul unei organizații. Sursele ar putea fi sisteme operaționale interne, un depozit central de date sau date externe. Denormalizarea este norma pentru tehnicile de modelare a datelor în acest sistem. Având în vedere că magazinele de date acoperă în general doar un subset de date conținute într-un depozit de date, acestea sunt adesea mai ușor și mai rapid de implementat.
Diferența dintre depozitul de date și magazinul de date:
Depozit de date | Magazin de date |
date la nivel de întreprindere | date la nivel de departament |
domenii multiple | subiect unic |
dificil de construit | ușor de construit |
necesită mai mult timp pentru a construi | necesită mai puțin timp pentru a construi |
memorie mai mare | memorie limitată |
Tipuri de magazine de date
- Magazin de date dependent
- Magazin de date independent
- Magazin de date hibrid
Procesare analitică online (OLAP)
OLAP se caracterizează printr-un volum relativ mic de tranzacții. Interogările sunt adesea foarte complexe și implică agregări. Pentru sistemele OLAP, timpul de răspuns este o măsură de eficacitate. Aplicațiile OLAP sunt utilizate pe scară largă de tehnicile de minerit de date. Bazele de date OLAP stochează date istorice agregate în scheme multi-dimensionale (de obicei scheme stelare). Sistemele OLAP au de obicei o latență a datelor de câteva ore, spre deosebire de magazinele de date, în care se așteaptă ca latența să fie mai aproape de o zi. Abordarea OLAP este utilizată pentru a analiza date multidimensionale din mai multe surse și perspective. Cele trei operațiuni de bază din OLAP sunt: Roll-up (Consolidare), Drill-down și Slicing & Dicing.
Procesarea tranzacțiilor online (OLTP)
OLTP se caracterizează printr-un număr mare de tranzacții scurte on-line (INSERT, UPDATE, DELETE). Sistemele OLTP subliniază procesarea foarte rapidă a interogărilor și menținerea integrității datelor în medii cu acces multiplu. Pentru sistemele OLTP, eficacitatea se măsoară prin numărul de tranzacții pe secundă. Bazele de date OLTP conțin date detaliate și actuale. Schema utilizată pentru stocarea bazelor de date tranzacționale este modelul entității (de obicei 3NF). Normalizarea este norma pentru tehnicile de modelare a datelor din acest sistem.
Analiza predictivă
Analiza predictivă se referă la găsirea și cuantificarea tiparelor ascunse în date folosind modele matematice complexe care pot fi utilizate pentru a prezice rezultatele viitoare. Analiza predictivă este diferită de OLAP prin faptul că OLAP se concentrează pe analiza datelor istorice și este reactivă în natură, în timp ce analiza predictivă se concentrează pe viitor. Aceste sisteme sunt utilizate și pentru CRM (managementul relației cu clienții).
Instrumente software
Depozitul tipic de date bazat pe extragere-transformare-încărcare (ETL) folosește etapele, integrarea datelor și straturile de acces pentru a găzdui funcțiile sale cheie. Stratul de stocare sau baza de date de stocare stochează date brute extrase din fiecare dintre sistemele de date sursă disparate. Stratul de integrare integrează seturi de date disparate prin transformarea datelor din stratul de etapizare stocând adesea aceste date transformate într-o bază de date de stocare a datelor operaționale (ODS). Datele integrate sunt apoi mutate într-o altă bază de date, denumită adesea baza de date a depozitului de date, unde datele sunt aranjate în grupuri ierarhice numite adesea dimensiuni și în fapte și fapte agregate. Combinația de fapte și dimensiuni este uneori numită schemă stelară. Stratul de acces ajută utilizatorii să recupereze date.
Această definiție a depozitului de date se concentrează pe stocarea datelor. Sursa principală a datelor este curățată, transformată, catalogată și pusă la dispoziție pentru utilizare de către manageri și alți profesioniști în afaceri pentru minerit de date, prelucrare analitică online, cercetare de piață și suport pentru decizii. Cu toate acestea, mijloacele de recuperare și analiză a datelor, de extragere, transformare și încărcare a datelor și gestionarea dicționarului de date sunt, de asemenea, considerate componente esențiale ale unui sistem de depozitare a datelor. Multe referințe la depozitarea datelor utilizează acest context mai larg. Astfel, o definiție extinsă pentru depozitarea datelor include instrumente de business intelligence, instrumente pentru extragerea, transformarea și încărcarea datelor în depozit și instrumente pentru gestionarea și recuperarea metadatelor.
Beneficii
Un depozit de date păstrează o copie a informațiilor din sistemele de tranzacții sursă. Această complexitate arhitecturală oferă oportunități pentru:
- Integrarea datelor din mai multe surse într-o singură bază de date și un model de date. Simpla colectare de date într-o singură bază de date, astfel încât un singur motor de interogare poate fi utilizat pentru prezentarea datelor este un ODS.
- Atenuarea problemei conflictului de blocare a nivelului de izolare a bazei de date în sistemele de procesare a tranzacțiilor cauzate de încercările de a rula interogări mari, de lungă durată, de analiză în bazele de date de procesare a tranzacțiilor.
- Păstrarea istoricului datelor, chiar dacă sistemele de tranzacții sursă nu face asta.
- Integrarea datelor din mai multe sisteme sursă, permițând o vizualizare centrală a întregii întreprinderi. Acest beneficiu este întotdeauna valoros, dar mai ales atunci când organizația a crescut prin fuziune.
- Îmbunătățirea calității datelor, oferind coduri și descrieri coerente, semnalizând sau chiar remediind datele defecte.
- Prezentarea informațiilor organizației în mod consecvent.
- Furnizarea unui singur model de date comun pentru toate datele de interes, indiferent de sursa datelor.
- Restructurarea datelor astfel încât să aibă sens pentru utilizatorii de afaceri.
- Restructurarea datelor astfel încât să ofere performanțe excelente de interogare, chiar și pentru interogări analitice complexe, fără a afecta sistemele operaționale.
- Adăugarea de valoare aplicațiilor operaționale de afaceri, în special sistemele de gestionare a relației cu clienții (CRM).
- Ușurarea scrierii interogărilor de susținere a deciziilor.
- Arhitecturile optimizate de depozit de date permit oamenilor de știință de date să organizeze și să dezambiguizeze datele repetitive.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
© 2021 MultiMedia Publishing, Business Intelligence și Analytica în afaceri, Colecția Știința Informației
Lasă un răspuns