Home » Articole » FR » Ordinateurs » Entrepôts de données

Entrepôts de données

Posté dans : Ordinateurs 0

L’entrepôt de données est au cœur de l’informatique décisionnelle. Il est principalement utilisé pour les rapports et l’analyse des données. Magasin de données, gestion des données de référence, évolution lente des dimensions et schéma en étoile. Ce texte élucide les théories et principes cruciaux de l’entreposage de données.

En informatique, un entrepôt de données (Data Warehouse, DW ou DWH), également connu sous le nom d’entrepôt de données d’entreprise (enterprise data warehouse, EDW), est un système utilisé pour la création de rapports et l’analyse de données, et est considéré comme un élément central de l’informatique décisionnelle. Les DW sont des référentiels centraux de données intégrées provenant d’une ou de plusieurs sources disparates. Ils stockent les données actuelles et historiques et sont utilisés pour créer des rapports analytiques pour les travailleurs du savoir dans toute l’entreprise. Les exemples de rapports peuvent aller des comparaisons et tendances annuelles et trimestrielles à l’analyse détaillée des ventes quotidiennes.

Entrepôts de données(Aperçu de l’entrepôt de données)

Les données stockées dans l’entrepôt sont téléchargées à partir des systèmes opérationnels (tels que le marketing ou les ventes). Les données peuvent transiter par un magasin de données opérationnelles pour des opérations supplémentaires avant d’être utilisées dans le DW pour les rapports.

Types de systèmes

Magasin de données

Un magasin de données est une forme simple d’entrepôt de données qui se concentre sur un seul sujet (ou domaine fonctionnel); par conséquent, il tire des données d’un nombre limité de sources telles que les ventes, la finance ou le marketing. Les magasins de données sont souvent créés et contrôlés par un seul service au sein d’une organisation. Les sources peuvent être des systèmes opérationnels internes, un entrepôt de données central ou des données externes. La dénormalisation est la norme pour les techniques de modélisation des données dans ce système. Étant donné que les magasins de données ne couvrent généralement qu’un sous-ensemble des données contenues dans un entrepôt de données, ils sont souvent plus faciles et plus rapides à mettre en œuvre.

Différence entre entrepôt de données et magasin de données
Entrepôt de données Magasin de données
données à l’échelle de l’entreprise données à l’échelle du département
plusieurs domaines domaine unique
difficile à construire facile à construire
prend plus de temps à construire moins de temps pour construire
plus grande mémoire mémoire limitée

Types de magasins de données

  • Magasin de données dépendant
  • Magasin de données indépendant
  • Magasin de données hybride

Traitement analytique en ligne (OLAP)

OLAP (OnLine Analytical Processing) se caractérise par un volume de transactions relativement faible. Les requêtes sont souvent très complexes et impliquent des agrégations. Pour les systèmes OLAP, le temps de réponse est une mesure d’efficacité. Les applications OLAP sont largement utilisées par les techniques d’exploration de données (Data Mining). Les bases de données OLAP stockent des données historiques agrégées dans des schémas multidimensionnels (généralement des schémas en étoile). Les systèmes OLAP ont généralement une latence des données de quelques heures, contrairement aux magasins de données, où la latence devrait être plus proche d’un jour. L’approche OLAP est utilisée pour analyser des données multidimensionnelles à partir de plusieurs sources et perspectives. Les trois opérations de base dans OLAP sont : le cumul (consolidation), l’exploration vers le bas et le tranchage et dés.

Traitement des transactions en ligne (OLTP)

OLTP (OnLine Transaction Processing) se caractérise par un grand nombre de transactions courtes en ligne (INSERT, UPDATE, DELETE). Les systèmes OLTP mettent l’accent sur le traitement très rapide des requêtes et le maintien de l’intégrité des données dans les environnements multi-accès. Pour les systèmes OLTP, l’efficacité est mesurée par le nombre de transactions par seconde. Les bases de données OLTP contiennent des données détaillées et à jour. Le schéma utilisé pour stocker les bases de données transactionnelles est le modèle d’entité (généralement 3NF). La normalisation est la norme pour les techniques de modélisation des données dans ce système.

Analyse prédictive

L’analyse prédictive consiste à trouver et à quantifier des modèles cachés dans les données à l’aide de modèles mathématiques complexes qui peuvent être utilisés pour prédire les résultats futurs. L’analyse prédictive est différente d’OLAP dans la mesure où OLAP se concentre sur l’analyse des données historiques et est de nature réactive, tandis que l’analyse prédictive se concentre sur l’avenir. Ces systèmes sont également utilisés pour CRM (customer relationship management – gestion de la relation client).

Outils logiciels

L’entrepôt de données typique basé sur l’extraction, la transformation et le chargement (extract-transform-load, ETL) utilise des couches de mise en scène, d’intégration de données et d’accès pour héberger ses fonctions clés. La couche intermédiaire ou la base de données intermédiaire stocke les données brutes extraites de chacun des systèmes de données source disparates. La couche d’intégration intègre les ensembles de données disparates en transformant les données de la couche intermédiaire en stockant souvent ces données transformées dans une base de données de magasin de données opérationnelles (operational data store, ODS). Les données intégrées sont ensuite déplacées vers une autre base de données, souvent appelée base de données de l’entrepôt de données, où les données sont organisées en groupes hiérarchiques souvent appelés dimensions et en faits et faits agrégés. La combinaison de faits et de dimensions est parfois appelée schéma en étoile. La couche d’accès aide les utilisateurs à récupérer des données.

Cette définition de l’entrepôt de données se concentre sur le stockage des données. La principale source de données est nettoyée, transformée, cataloguée et mise à la disposition des gestionnaires et autres professionnels pour l’exploration de données, le traitement analytique en ligne, les études de marché et l’aide à la décision. Cependant, les moyens de récupérer et d’analyser les données, d’extraire, de transformer et de charger les données et de gérer le dictionnaire de données sont également considérés comme des composants essentiels d’un système d’entreposage de données. De nombreuses références à l’entreposage de données utilisent ce contexte plus large. Ainsi, une définition élargie de l’entreposage de données inclut des outils d’informatique décisionnelle, des outils pour extraire, transformer et charger des données dans le référentiel, et des outils pour gérer et récupérer des métadonnées.

Avantages

Un entrepôt de données conserve une copie des informations provenant des systèmes de transaction source. Cette complexité architecturale offre la possibilité de :

  • Intégrez des données provenant de plusieurs sources dans une base de données et un modèle de données uniques. La simple congrégation de données dans une seule base de données afin qu’un seul moteur de requête puisse être utilisé pour présenter les données est un ODS.
  • Atténuer le problème de conflit de verrouillage au niveau de l’isolation de la base de données dans les systèmes de traitement des transactions causé par les tentatives d’exécution de requêtes d’analyse volumineuses et longues dans les bases de données de traitement des transactions.
  • Conservez l’historique des données, même si les systèmes de transaction source ne le font pas.
  • Intégrer les données de plusieurs systèmes sources, permettant une vue centrale dans toute l’entreprise. Cet avantage est toujours précieux, mais particulièrement lorsque l’organisation s’est développée par fusion.
  • Améliorez la qualité des données en fournissant des codes et des descriptions cohérents, en signalant ou même en corrigeant les données erronées.
  • Présenter les informations de l’organisation de manière cohérente.
  • Fournir un modèle de données commun unique pour toutes les données d’intérêt, quelle que soit la source des données.
  • Restructurer les données afin qu’elles aient un sens pour les utilisateurs professionnels.
  • Restructurez les données afin qu’elles offrent d’excellentes performances de requête, même pour les requêtes analytiques complexes, sans impact sur les systèmes opérationnels.
  • Ajouter de la valeur aux applications commerciales opérationnelles, notamment les systèmes de gestion de la relation client (CRM).
  • Simplifiez la rédaction des requêtes d’aide à la décision.
  • Les architectures d’entrepôt de données optimisées permettent aux data scientists d’organiser et de désambiguïser les données répétitives.

Environnement générique

L’environnement des entrepôts de données et des marts comprend les éléments suivants :

Generic Environment
  • Systèmes sources qui fournissent des données à l’entrepôt ou au magasin ;
  • La technologie et les processus d’intégration de données nécessaires pour préparer les données à utiliser ;
  • Différentes architectures pour le stockage des données dans l’entrepôt de données ou les magasins de données d’une organisation ;
  • Différents outils et applications pour la variété d’utilisateurs ;
  • Des processus de métadonnées, de qualité des données et de gouvernance doivent être en place pour garantir que l’entrepôt ou le magasin répond à ses objectifs.

En ce qui concerne les systèmes sources énumérés ci-dessus, Rainer déclare : « Une source commune pour les données dans les entrepôts de données est les bases de données opérationnelles de l’entreprise, qui peuvent être des bases de données relationnelles ».

En ce qui concerne l’intégration des données, Rainer déclare : « Il est nécessaire d’extraire les données des systèmes sources, de les transformer et de les charger dans un magasin de données ou un entrepôt ».

Rainer parle du stockage des données dans l’entrepôt de données ou les magasins de données d’une organisation.

Les métadonnées sont des données sur les données. « Le personnel informatique a besoin d’informations sur les sources de données ; noms de bases de données, de tables et de colonnes ; calendriers de rafraîchissement ; et les mesures d’utilisation des données ».

Aujourd’hui, les entreprises les plus prospères sont celles qui peuvent réagir rapidement et avec souplesse aux changements et aux opportunités du marché. Une clé de cette réponse est l’utilisation efficace et efficiente des données et des informations par les analystes et les gestionnaires. Un « entrepôt de données » est un référentiel de données historiques organisées par sujet pour aider les décideurs de l’organisation. Une fois les données stockées dans un datamart ou un entrepôt, elles sont accessibles.

Histoire

Le concept d’entreposage de données remonte à la fin des années 1980, lorsque les chercheurs d’IBM Barry Devlin et Paul Murphy ont développé « l’entrepôt de données d’entreprise ». Essentiellement, le concept d’entreposage de données visait à fournir un modèle architectural pour le flux de données des systèmes opérationnels vers les environnements d’aide à la décision. Le concept a tenté de répondre aux différents problèmes liés à ce flux, principalement les coûts élevés qui y sont associés. En l’absence d’architecture d’entreposage de données, une énorme quantité de redondance était nécessaire pour prendre en charge plusieurs environnements d’aide à la décision. Dans les grandes entreprises, il était courant que plusieurs environnements d’aide à la décision fonctionnent de manière indépendante. Même si chaque environnement servait des utilisateurs différents, ils nécessitaient souvent une grande partie des mêmes données stockées. Le processus de collecte, de nettoyage et d’intégration de données provenant de diverses sources, généralement à partir de systèmes opérationnels existants à long terme (généralement appelés systèmes hérités), était généralement en partie reproduit pour chaque environnement. De plus, les systèmes opérationnels ont été fréquemment réexaminés à mesure que de nouvelles exigences d’aide à la décision apparaissaient. Souvent, de nouvelles exigences nécessitaient la collecte, le nettoyage et l’intégration de nouvelles données à partir de « magasins de données » qui étaient adaptés pour un accès facile par les utilisateurs.

Les principaux développements au cours des premières années de l’entreposage de données ont été :

  • Années 1960 : General Mills et le Dartmouth College, dans le cadre d’un projet de recherche conjoint, développent les termes dimensions et faits.
  • Années 1970 – ACNielsen et IRI fournissent des magasins de données dimensionnelles pour les ventes au détail.
  • Années 1970 – Bill Inmon commence à définir et à discuter du terme : entrepôt de données.
  • 1975 – Sperry Univac présente MAPPER (MAintain, Prepare, and Produce Executive Reports), un système de gestion de base de données et de création de rapports qui inclut le premier 4GL au monde. Première plate-forme conçue pour la création de centres d’information (précurseur des plates-formes contemporaines d’entreposage de données d’entreprise)
  • 1983 – Teradata introduit un système de gestion de base de données spécialement conçu pour l’aide à la décision.
  • 1984 – Metaphor Computer Systems, fondé par David Liddle et Don Massaro, lance le système d’interprétation des données (Data Interpretation System, DIS). DIS était un package matériel/logiciel et une interface graphique permettant aux utilisateurs professionnels de créer un système de gestion et d’analyse de base de données.
  • 1988 – Barry Devlin et Paul Murphy publient l’article An architecture for a business and information system dans lequel ils introduisent le terme « entrepôt de données d’entreprise ».
  • 1990 – Red Brick Systems, fondée par Ralph Kimball, lance Red Brick Warehouse, un système de gestion de base de données spécifiquement conçu pour l’entreposage de données.
  • 1991 – Prism Solutions, fondée par Bill Inmon, présente Prism Warehouse Manager, un logiciel de développement d’un entrepôt de données.
  • 1992 – Bill Inmon publie le livre Building the Data Warehouse.
  • 1995 – Le Data Warehousing Institute, une organisation à but lucratif qui promeut l’entreposage de données, est fondé.
  • 1996 – Ralph Kimball publie le livre The Data Warehouse Toolkit.
  • 2012 – Bill Inmon a développé et rendu publique une technologie connue sous le nom de « désambiguïsation textuelle ». La désambiguïsation textuelle applique le contexte au texte brut et reformate le texte brut et le contexte dans un format de base de données standard. Une fois que le texte brut est passé par la désambiguïsation textuelle, il peut facilement et efficacement être consulté et analysé par la technologie de veille économique standard. La désambiguïsation textuelle est réalisée par l’exécution d’ETL textuel. La désambiguïsation textuelle est utile partout où du texte brut est trouvé, comme dans les documents, Hadoop, les e-mails, etc.

Références

  • Rainer, R. Kelly; Cegielski, Casey G. (2012-05-01). Introduction to Information Systems: Enabling and Transforming Business, 4th Edition (Kindle ed.). Wiley. pp. 127, 128, 130, 131, 133. ISBN 978-1118129401.

Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu

© 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information

Essais philosophiques
Essais philosophiques

Une collection personnelle d’essais en philosophie des sciences (physique, en particulier la gravité), philosophie des technologies de l’information et de la communication, enjeux sociaux actuels (intelligence émotionnelle, pandémie COVID-19, eugénisme, renseignement), philosophie de l’art, et logique et philosophie du langage … Lire la suite

non noté $5,99 Choix des options
Introduction à l'informatique décisionnelle (business intelligence)
Introduction à l’informatique décisionnelle (business intelligence)

Collection SCIENCE DE L’INFORMATION La stratégie et la planification intégrées à toute entreprise sont appelées informatique décisionnelle (business intelligence). “Introduction à l’informatique décisionnelle (business intelligence)” fournit aux lecteurs des informations complètes sur l’informatique décisionnelle, explorant tous les aspects importants de … Lire la suite

non noté $3,99 Choix des options
L’éthique des mégadonnées (Big Data) en recherche
L’éthique des mégadonnées (Big Data) en recherche

Les principaux problèmes rencontrés par les scientifiques qui travaillent avec des ensembles de données massives (mégadonnées, Big Data), en soulignant les principaux problèmes éthiques, tout en tenant compte de la législation de l’Union européenne. Après une brève Introduction au Big … Lire la suite

non noté $0,00 Choix des options

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.