Fapte
Un fapt este o valoare sau o măsură, care reprezintă un fapt despre entitatea sau sistemul gestionat.
Se spune că faptele raportate de entitatea raportoare sunt la nivel brut. De exemplu. într-un sistem de telefonie mobilă, dacă un BTS (stație de bază transceiver) a primit 1.000 de solicitări de alocare a canalelor de trafic, alocă pentru 820 și respinge restul, atunci va raporta 3 fapte sau măsurători unui sistem de management:
- tch_req_total = 1000
- tch_req_success = 820
- tch_req_fail = 180
Faptele la nivel brut sunt în continuare agregate la niveluri superioare în diferite dimensiuni pentru a extrage mai multe informații relevante pentru servicii sau afaceri din acestea. Acestea se numesc agregate sau rezumate sau fapte agregate.
De exemplu, dacă există 3 BTS într-un oraș, atunci faptele de mai sus pot fi agregate de la BTS la nivelul orașului în dimensiunea rețelei. De exemplu:
- tch _ req _ succes _ city = tch _ req _ succes _ btsl + tch _ req _ success _ bts2 + tch _ req _ succes _ bts3
- avg_tch_req_success_city = (tch_req_success_btsl + tch_req_success_bts2 + tch_req_success_bts3) / 3
Abordarea dimensională versus normalizată pentru stocarea datelor
Există trei sau mai multe abordări principale pentru stocarea datelor într-un depozit de date – cele mai importante abordări sunt abordarea dimensională și abordarea normalizată.
Abordarea dimensională se referă la abordarea lui Ralph Kimball în care se afirmă că depozitul de date ar trebui modelat folosind un model dimensional/schemă stea. Abordarea normalizată, numită și modelul 3NF (a treia formă normală) se referă la abordarea lui Bill Inmon în care se afirmă că depozitul de date ar trebui modelat folosind un model E-R/model normalizat.
Într-o abordare dimensională, datele privind tranzacțiile sunt împărțite în „fapte”, care sunt în general date numerice ale tranzacțiilor, și „dimensiuni”, care sunt informațiile de referință care oferă context faptelor. De exemplu, o tranzacție de vânzare poate fi împărțită în fapte, cum ar fi numărul de produse comandate și prețul total plătit pentru produse și în dimensiuni precum data comenzii, numele clientului, numărul produsului, destinația de livrare și facturarea comenzii. locații și agent de vânzări responsabil pentru primirea comenzii.
Un avantaj cheie al abordării dimensionale este că depozitul de date este mai ușor de înțeles și de utilizat de către utilizator. De asemenea, preluarea datelor din depozitul de date tinde să funcționeze foarte rapid. Structurile dimensionale sunt ușor de înțeles pentru utilizatorii de afaceri, deoarece structura este împărțită în măsurători/fapte și context/dimensiuni. Faptele sunt legate de procesele de afaceri și de sistemul operațional al organizației, în timp ce dimensiunile care le înconjoară conțin context despre măsurare (Kimball, Ralph 2008). Un alt avantaj oferit de modelul dimensional este că nu implică de fiecare dată o bază de date relațională. Astfel, acest tip de tehnică de modelare este foarte utilă pentru interogările utilizatorilor finali în depozitul de date.
Principalele dezavantaje ale abordării dimensionale sunt următoarele:
- Pentru a menține integritatea faptelor și dimensiunilor, încărcarea depozitului de date cu date din diferite sisteme operaționale este complicată.
- Este dificil să modifici structura depozitului de date dacă organizația care adoptă abordarea dimensională schimbă modul în care își desfășoară activitatea.
În abordarea normalizată, datele din depozitul de date sunt stocate urmând, într-o anumită măsură, regulile de normalizare a bazei de date. Tabelele sunt grupate pe domenii care reflectă categorii generale de date (de exemplu, date despre clienți, produse, finanțe etc.). Structura normalizată împarte datele în entități, ceea ce creează mai multe tabele într-o bază de date relațională. Când se aplică în întreprinderi mari, rezultatul sunt zeci de tabele care sunt legate între ele printr-o rețea de îmbinări. În plus, fiecare dintre entitățile create este convertită în tabele fizice separate atunci când baza de date este implementată (Kimball, Ralph 2008). Principalul avantaj al acestei abordări este că este simplu să adăugați informații în baza de date. Unele dezavantaje ale acestei abordări sunt că, din cauza numărului de tabele implicate, poate fi dificil pentru utilizatori să alăture date din diferite surse în informații semnificative și să acceseze informațiile fără o înțelegere precisă a surselor de date și a structurii datelor depozitului de date.
Atât modelele normalizate, cât și cele dimensionale pot fi reprezentate în diagrame entitate-relație, deoarece ambele conțin tabele relaționale unite. Diferența dintre cele două modele este gradul de normalizare (cunoscut și sub numele de forme normale). Aceste abordări nu se exclud reciproc și există și alte abordări. Abordările dimensionale pot implica normalizarea datelor într-o anumită măsură (Kimball, Ralph 2008).
În Information-Driven Business, Robert Hillard propune o abordare pentru compararea celor două abordări bazate pe nevoile de informare ale problemei afacerii. Tehnica arată că modelele normalizate dețin mult mai multe informații decât echivalentele lor dimensionale (chiar și atunci când aceleași câmpuri sunt utilizate în ambele modele), dar această informație suplimentară vine cu prețul utilizabilității. Tehnica măsoară cantitatea de informații în termeni de entropie a informațiilor și de utilizare în ceea ce privește măsura de transformare a datelor.
Referințe
- “Information Theory & Business Intelligence Strategy – Small Worlds Data Transformation Measure – MIKE2.0, the open source methodology for Information Development”. Mike2.openmethodology.org.
- Ralph Kimball, The Data Warehouse Toolkit, Second Edition, Wiley Publishing, Inc., 2008. ISBN 978-0-47014977-5, Pages 253-256
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
© 2022 MultiMedia Publishing, Business Intelligence și Analytica în afaceri, Colecția Știința Informației
Lasă un răspuns