Home » Articole » Articles » Affaires » Business Intelligence » Méthodes de conception pour les entrepôts de données

Méthodes de conception pour les entrepôts de données

Conception ascendante

Dans l’approche ascendante, les magasins de données sont d’abord créés pour fournir des capacités de reporting et d’analyse pour des processus métier spécifiques. Ces magasins de données peuvent ensuite être intégrés pour créer un entrepôt de données complet. L’architecture de bus d’entrepôt de données est principalement une implémentation du “bus”, une collection de dimensions conformes et de faits conformes, qui sont des dimensions partagées (d’une manière spécifique) entre les faits de deux magasins de données ou plus.

Conception descendante

L’approche descendante est conçue à l’aide d’un modèle de données d’entreprise normalisé. Les données « atomiques », c’est-à-dire les données au niveau de détail le plus élevé, sont stockées dans l’entrepôt de données. Des magasins de données dimensionnels contenant les données nécessaires à des processus métier spécifiques ou à des services spécifiques sont créés à partir de l’entrepôt de données.

Conception hybride

Les entrepôts de données (Data warehouses, DW) ressemblent souvent à l’architecture hub and spokes. Les systèmes hérités qui alimentent l’entrepôt incluent souvent la gestion de la relation client et la planification des ressources d’entreprise, générant de grandes quantités de données. Pour consolider ces différents modèles de données et faciliter le processus de chargement de transformation d’extrait, les entrepôts de données utilisent souvent un magasin de données opérationnel, dont les informations sont analysées dans le DW réel. Pour réduire la redondance des données, les grands systèmes stockent souvent les données de manière normalisée. Des magasins de données pour des rapports spécifiques peuvent ensuite être créés au-dessus du DW.

La base de données DW dans une solution hybride est conservée sur la troisième forme normale pour éliminer la redondance des données. Une base de données relationnelle normale, cependant, n’est pas efficace pour les rapports de l’informatique décisionnelle où la modélisation dimensionnelle est répandue. Les petits magasins de données peuvent acheter des données de l’entrepôt consolidé et utiliser les données spécifiques filtrées pour les tables de faits et les dimensions requises. Le DW fournit une source unique d’informations à partir de laquelle les magasins de données peuvent lire, fournissant un large éventail d’informations commerciales. L’architecture hybride permet de remplacer un DW par une solution de gestion des données de référence dans laquelle des informations opérationnelles et non statiques pourraient résider.

Les composants de la modélisation Data Vault suivent l’architecture hub and spokes. Ce style de modélisation est une conception hybride, composée des meilleures pratiques de la troisième forme normale et du schéma en étoile. Le modèle Data Vault n’est pas une véritable troisième forme normale et enfreint certaines de ses règles, mais il s’agit d’une architecture descendante avec une conception ascendante. Le modèle Data Vault est conçu pour être strictement un entrepôt de données. Il n’est pas conçu pour être accessible à l’utilisateur final, ce qui, une fois construit, nécessite toujours l’utilisation d’un magasin de données ou d’une zone de publication basée sur un schéma en étoile à des fins commerciales.

Versus système opérationnel

Les systèmes opérationnels sont optimisés pour la préservation de l’intégrité des données et la vitesse d’enregistrement des transactions commerciales grâce à l’utilisation de la normalisation des bases de données et d’un modèle entité-relation. Les concepteurs de systèmes opérationnels suivent généralement les règles Codd de normalisation des bases de données afin d’assurer l’intégrité des données. Codd a défini cinq règles de normalisation de plus en plus strictes. Les conceptions de bases de données entièrement normalisées (c’est-à-dire celles qui satisfont aux cinq règles Codd) entraînent souvent le stockage des informations d’une transaction commerciale dans des dizaines, voire des centaines de tables. Les bases de données relationnelles sont efficaces pour gérer les relations entre ces tables. Les bases de données ont des performances d’insertion/mise à jour très rapides car seule une petite quantité de données dans ces tables est affectée à chaque fois qu’une transaction est traitée. Enfin, afin d’améliorer les performances, les données plus anciennes sont généralement purgées périodiquement des systèmes opérationnels.

Les entrepôts de données sont optimisés pour les modèles d’accès analytiques. Les modèles d’accès analytiques impliquent généralement de sélectionner des champs spécifiques et rarement, voire jamais, de « sélectionner * », comme cela est plus courant dans les bases de données opérationnelles. En raison de ces différences dans les modèles d’accès, les bases de données opérationnelles (en gros, OLTP) bénéficient de l’utilisation d’un SGBD orienté lignes, tandis que les bases de données analytiques (en gros, OLAP) bénéficient de l’utilisation d’un SGBD orienté colonnes. Contrairement aux systèmes opérationnels qui conservent un instantané de l’entreprise, les entrepôts de données conservent généralement un historique infini qui est mis en œuvre via des processus ETL qui migrent périodiquement les données des systèmes opérationnels vers l’entrepôt de données.

Évolution de l’utilisation de l’organisation

Ces termes font référence au niveau de sophistication d’un entrepôt de données :

Entrepôt de données opérationnel hors ligne : Les entrepôts de données à ce stade d’évolution sont mis à jour sur un cycle de temps régulier (généralement quotidien, hebdomadaire ou mensuel) à partir des systèmes opérationnels et les données sont stockées dans une base de données intégrée axé sur les rapports.

Entrepôt de données hors ligne : Les entrepôts de données à ce stade sont régulièrement mis à jour à partir des données des systèmes opérationnels et les données de l’entrepôt de données sont stockées dans une structure de données conçue pour faciliter la création de rapports.

Entrepôt de données ponctuel : L’entrepôt de données intégré en ligne représente les données d’étape des entrepôts de données en temps réel dans l’entrepôt est mis à jour pour chaque transaction effectuée sur les données source

Entrepôt de données intégré : Ces entrepôts de données assemblent des données provenant de différents domaines d’activité, afin que les utilisateurs puissent rechercher les informations dont ils ont besoin dans d’autres systèmes.

Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information

Essais philosophiques
Essais philosophiques

Une collection personnelle d’essais en philosophie des sciences (physique, en particulier la gravité), philosophie des technologies de l’information et de la communication, enjeux sociaux actuels (intelligence émotionnelle, pandémie COVID-19, eugénisme, renseignement), philosophie de l’art, et logique et philosophie du langage … Lire la suite

non noté $5,99 Choix des options
Introduction à l'informatique décisionnelle (business intelligence)
Introduction à l’informatique décisionnelle (business intelligence)

Collection SCIENCE DE L’INFORMATION La stratégie et la planification intégrées à toute entreprise sont appelées informatique décisionnelle (business intelligence). “Introduction à l’informatique décisionnelle (business intelligence)” fournit aux lecteurs des informations complètes sur l’informatique décisionnelle, explorant tous les aspects importants de … Lire la suite

non noté $3,99 Choix des options
L’éthique des mégadonnées (Big Data) en recherche
L’éthique des mégadonnées (Big Data) en recherche

Les principaux problèmes rencontrés par les scientifiques qui travaillent avec des ensembles de données massives (mégadonnées, Big Data), en soulignant les principaux problèmes éthiques, tout en tenant compte de la législation de l’Union européenne. Après une brève Introduction au Big … Lire la suite

non noté $0,00 Choix des options

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *