Home » Articole » Articles » Ordinateurs » Faits sur le stockage des informations dans l’entrepôt de données

Faits sur le stockage des informations dans l’entrepôt de données

Posté dans : Ordinateurs 0

Faits

Un fait est une valeur ou une mesure qui représente un fait concernant l’entité ou le système géré.

Les faits rapportés par l’entité déclarante sont dits au niveau brut. Par exemple, dans un système de téléphonie mobile, si une BTS (base transceiver station) recevait 1 000 demandes d’attribution de canal de trafic, elle en alloue 820 et rejette le reste, puis elle signalerait 3 faits ou mesures à un système de gestion :

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

Les faits au niveau brut sont ensuite agrégés à des niveaux supérieurs dans diverses dimensions pour en extraire davantage d’informations pertinentes sur les services ou les activités. Ceux-ci sont appelés agrégats ou résumés ou faits agrégés.

Par exemple, s’il y a 3 BTS dans une ville, les faits ci-dessus peuvent être agrégés du BTS au niveau de la ville dans la dimension réseau. Par exemple:

  • tch _ req _ success _ city = tch _ req _ success _ bts1+ tch _ req _ success _ bts2 + tch _ req _ success _ bts3
  • a vg_tch_req_success_city = (tch_req_success_bts1+ tch_req_success_bts2 + tch_req_success_bts3) / 3

Approche dimensionnelle versus approche normalisée pour le stockage des données

Il existe au moins trois approches principales pour stocker des données dans un entrepôt de données – les approches les plus importantes sont l’approche dimensionnelle et l’approche normalisée.

L’approche dimensionnelle fait référence à l’approche de Ralph Kimball dans laquelle il est indiqué que l’entrepôt de données doit être modélisé à l’aide d’un modèle dimensionnel/schéma en étoile. L’approche normalisée, également appelée modèle 3NF (Third Normal Form) fait référence à l’approche de Bill Inmon dans laquelle il est indiqué que l’entrepôt de données doit être modélisé à l’aide d’un modèle E-R/modèle normalisé.

Dans une approche dimensionnelle, les données de transaction sont partitionnées en « faits », qui sont généralement des données de transaction numériques, et en « dimensions », qui sont les informations de référence qui donnent un contexte aux faits. Par exemple, une transaction de vente peut être décomposée en faits tels que le nombre de produits commandés et le prix total payé pour les produits, et en dimensions telles que la date de commande, le nom du client, le numéro de produit, le destinataire de la commande et le destinataire de la facture, et vendeur responsable de la réception de la commande.

Un avantage clé d’une approche dimensionnelle est que l’entrepôt de données est plus facile à comprendre et à utiliser pour l’utilisateur. De plus, la récupération des données à partir de l’entrepôt de données a tendance à fonctionner très rapidement. Les structures dimensionnelles sont faciles à comprendre pour les utilisateurs professionnels, car la structure est divisée en mesures/faits et contexte/dimensions. Les faits sont liés aux processus métier et au système opérationnel de l’organisation, tandis que les dimensions qui les entourent contiennent le contexte de la mesure (Kimball, Ralph 2008). Un autre avantage offert par le modèle dimensionnel est qu’il n’implique pas une base de données relationnelle à chaque fois. Ainsi, ce type de technique de modélisation est très utile pour les requêtes des utilisateurs finaux dans l’entrepôt de données.

Les principaux inconvénients de l’approche dimensionnelle sont les suivants :

  1. Afin de maintenir l’intégrité des faits et des dimensions, il est compliqué de charger l’entrepôt de données avec des données provenant de différents systèmes opérationnels.
  2. Il est difficile de modifier la structure de l’entrepôt de données si l’organisation qui adopte l’approche dimensionnelle change sa façon de faire des affaires.

Dans l’approche normalisée, les données de l’entrepôt de données sont stockées en suivant, dans une certaine mesure, les règles de normalisation de la base de données. Les tableaux sont regroupés par domaines qui reflètent les catégories de données générales (par exemple, les données sur les clients, les produits, les finances, etc.). La structure normalisée divise les données en entités, ce qui crée plusieurs tables dans une base de données relationnelle. Lorsqu’il est appliqué dans de grandes entreprises, le résultat est des dizaines de tables qui sont reliées entre elles par un réseau de jointures. De plus, chacune des entités créées est convertie en tables physiques distinctes lors de la mise en œuvre de la base de données (Kimball, Ralph 2008). Le principal avantage de cette approche est qu’il est simple d’ajouter des informations dans la base de données. Certains inconvénients de cette approche sont qu’en raison du nombre de tables impliquées, il peut être difficile pour les utilisateurs de joindre des données provenant de différentes sources en informations significatives et d’accéder aux informations sans une compréhension précise des sources de données et de la structure des données de l’entrepôt de données.

Les modèles normalisés et dimensionnels peuvent être représentés dans des diagrammes entité-relation car ils contiennent tous deux des tables relationnelles jointes. La différence entre les deux modèles est le degré de normalisation (également connu sous le nom de formes normales). Ces approches ne sont pas mutuellement exclusives, et il existe d’autres approches. Les approches dimensionnelles peuvent impliquer la normalisation des données dans une certaine mesure (Kimball, Ralph 2008).

Dans Information-Driven Business, Robert Hillard propose une approche pour comparer les deux approches en fonction des besoins d’information du problème commercial. La technique montre que les modèles normalisés contiennent beaucoup plus d’informations que leurs équivalents dimensionnels (même lorsque les mêmes champs sont utilisés dans les deux modèles), mais ces informations supplémentaires se font au détriment de la convivialité. La technique mesure la quantité d’informations en termes d’entropie d’informations et de convivialité.

Références

  • Ralph Kimball, The Data Warehouse Toolkit, Second Edition, Wiley Publishing, Inc., 2008. ISBN 978-0-47014977-5, Pages 253-256

Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information

L’éthique des mégadonnées (Big Data) en recherche
L’éthique des mégadonnées (Big Data) en recherche

Les principaux problèmes rencontrés par les scientifiques qui travaillent avec des ensembles de données massives (mégadonnées, Big Data), en soulignant les principaux problèmes éthiques, tout en tenant compte de la législation de l’Union européenne. Après une brève Introduction au Big … Lire la suite

non noté $0,00 Choix des options
Introduction à l'informatique décisionnelle (business intelligence)
Introduction à l’informatique décisionnelle (business intelligence)

Collection SCIENCE DE L’INFORMATION La stratégie et la planification intégrées à toute entreprise sont appelées informatique décisionnelle (business intelligence). “Introduction à l’informatique décisionnelle (business intelligence)” fournit aux lecteurs des informations complètes sur l’informatique décisionnelle, explorant tous les aspects importants de … Lire la suite

non noté $3,99 Choix des options
La philosophie de la technologie blockchain - Ontologies
La philosophie de la technologie blockchain – Ontologies

De la nécessité et de l’utilité de développer une philosophie spécifique pour la technologie de la blockchain, mettant l’accent sur les aspects ontologiques. Après une Introduction qui met en évidence les principales orientations philosophiques de cette technologie émergente, dans La … Lire la suite

non noté $0,00 Choix des options

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *