Home » Articole » Articles » Ordinateurs » Entrepôts de données: Gestion des données de référence

Entrepôts de données: Gestion des données de référence

Posté dans : Ordinateurs 0

En entreprise, la gestion des données de référence (master data management, MDM) comprend les processus, la gouvernance, les politiques, les normes et les outils qui définissent et gèrent de manière cohérente les données critiques d’une organisation pour fournir un point de référence unique.

Les données maîtrisées peuvent inclure :

  • données de référence – les objets métier pour les transactions et les dimensions pour l’analyse
  • données analytiques – soutiennent la prise de décision

En informatique, un outil de gestion des données de référence peut être utilisé pour prendre en charge la gestion des données de référence en supprimant les doublons, en normalisant les données (maintien en masse) et en incorporant des règles pour éliminer les données incorrectes d’entrer dans le système afin de créer une source de données de référence faisant autorité. Les données de référence sont les produits, comptes et parties pour lesquels les transactions commerciales sont effectuées. La cause profonde du problème provient de la segmentation des unités commerciales et des lignes de produits, dans laquelle le même client sera servi par différentes lignes de produits, avec des données redondantes saisies sur le client (c’est-à-dire la partie dans le rôle de client) et le compte afin de traiter le transaction. La redondance des données sur les partis et les comptes est aggravée dans le cycle de vie du front-office au back-office, où la source unique faisant autorité pour les données sur les partis, les comptes et les produits est nécessaire mais est souvent à nouveau saisie ou augmentée de manière redondante.

La gestion des données de référence a pour objectif de fournir des processus de collecte, d’agrégation, de mise en correspondance, de consolidation, d’assurance qualité, de conservation et de distribution de ces données dans toute une organisation afin d’assurer la cohérence et le contrôle de la maintenance continue et de l’utilisation applicative de ces informations.

Le terme rappelle le concept de fichier de référence d’une époque informatique antérieure.

Définition

La gestion des données de référence (MDM) est une méthode complète permettant à une entreprise de lier toutes ses données critiques à un seul fichier, appelé fichier maître, qui fournit un point de référence commun. Lorsqu’elle est correctement effectuée, la gestion des données de référence rationalise le partage des données entre le personnel et les services. De plus, la gestion des données de référence peut faciliter le calcul dans plusieurs architectures système, plates-formes et applications.

À la base, la gestion des données de référence peut être considéré comme une « discipline d’amélioration spécialisée de la qualité » définie par les politiques et procédures mises en place par une organisation de gouvernance des données. Le but ultime étant de fournir à la communauté des utilisateurs finaux une « version unique et fiable de la vérité » sur laquelle fonder ses décisions.

Problèmes

À la base, la gestion des données de référence vise à garantir qu’une organisation n’utilise pas plusieurs versions (potentiellement incohérentes) des mêmes données de référence dans différentes parties de ses opérations, comme cela peut se produire dans les grandes organisations. Un exemple typique de mauvaise gestion des données de référence est le scénario d’une banque dans laquelle un client a contracté un prêt hypothécaire et la banque commence à envoyer des demandes de prêt hypothécaire à ce client, ignorant le fait que la personne a déjà une relation de compte hypothécaire avec la banque. Cela se produit parce que les informations client utilisées par la section marketing de la banque ne sont pas intégrées aux informations client utilisées par la section service client de la banque. Ainsi, les deux groupes ignorent qu’un client existant est également considéré comme un prospect. Le processus de couplage d’enregistrements permet d’associer différents enregistrements qui correspondent à la même entité, en l’occurrence la même personne.

D’autres problèmes incluent (par exemple) des problèmes liés à la qualité des données, à la classification et à l’identification cohérentes des données et aux problèmes de rapprochement des données. La gestion des données de référence de systèmes de données disparates nécessite des transformations de données à mesure que les données extraites du système de données source disparates sont transformées et chargées dans le hub de gestion des données de référence. Pour synchroniser les données de référence sources disparates, les données de référence gérées extraites du hub de gestion de données de référence sont à nouveau transformées et chargées dans le système de données sources disparates à mesure que les données de référence sont mises à jour. Comme pour les autres mouvements de données basés sur l’extraction, la transformation et le chargement, ces processus sont coûteux et inefficaces à développer et à maintenir, ce qui réduit considérablement le retour sur investissement du produit de gestion des données de référence.

L’une des raisons les plus courantes pour lesquelles certaines grandes entreprises rencontrent d’énormes problèmes de gestion des données de référence est la croissance résultant de fusions ou d’acquisitions. Toutes les organisations qui fusionnent créeront généralement une entité avec des données de base en double (puisque chacune possédait probablement au moins une base de données principale avant la fusion). Idéalement, les administrateurs de bases de données résolvent ce problème grâce à la déduplication des données de base dans le cadre de la fusion. En pratique, cependant, la réconciliation de plusieurs systèmes de données maîtres peut présenter des difficultés en raison des dépendances qu’ont les applications existantes sur les bases de données maîtres. En conséquence, le plus souvent, les deux systèmes ne fusionnent pas complètement, mais restent séparés, avec un processus de rapprochement spécial défini qui garantit la cohérence entre les données stockées dans les deux systèmes. Cependant, au fil du temps, à mesure que de nouvelles fusions et acquisitions se produisent, le problème se multiplie, de plus en plus de bases de données principales apparaissent et les processus de rapprochement des données deviennent extrêmement complexes, et par conséquent ingérables et peu fiables. En raison de cette tendance, on peut trouver des organisations avec 10, 15, voire jusqu’à 100 bases de données principales distinctes et mal intégrées, ce qui peut entraîner de graves problèmes opérationnels dans les domaines de la satisfaction client, de l’efficacité opérationnelle, de l’aide à la décision et de la conformité réglementaire.

Solutions

Les processus couramment observés dans la gestion des données de référence comprennent l’identification des sources, la collecte de données, la transformation des données, la normalisation, l’administration des règles, la détection et la correction des erreurs, consolidation des données, stockage de données, distribution de données, classification de données, services de taxonomie, création de fiches d’articles, mappage de schémas, codification de produits, enrichissement des données et gouvernance des données.

La sélection des entités considérées pour la gestion des données de référence dépend quelque peu de la nature d’une organisation. Dans le cas courant des entreprises commerciales, la gestion des données de référence peut s’appliquer à des entités telles que le client (intégration des données client), le produit (gestion des informations sur les produits), l’employé et le fournisseur. Les processus de gestion des données de référence identifient les sources à partir desquelles collecter les descriptions de ces entités. Au cours de la transformation et de la normalisation, les administrateurs adaptent les descriptions pour se conformer aux formats et domaines de données standard, permettant ainsi de supprimer les instances en double de n’importe quelle entité. De tels processus aboutissent généralement à un référentiel de gestion des données de base organisationnelles, à partir duquel toutes les demandes pour une certaine instance d’entité produisent la même description, quelles que soient les sources d’origine et la destination de la demande.

Les outils comprennent des réseaux de données, des systèmes de fichiers, un entrepôt de données, des magasins de données, un magasin de données opérationnel, l’exploration de données, l’analyse de données, la visualisation de données, la fédération de données et la virtualisation de données. L’un des outils les plus récents, la gestion virtuelle des données de base utilise la virtualisation des données et un serveur de métadonnées persistant pour mettre en œuvre une hiérarchie de gestion automatisée des données de base à plusieurs niveaux.

Transmission des données de base

Il existe plusieurs manières de rassembler et de distribuer les données de base à d’autres systèmes. Ceci comprend:

  • Consolidation des données – Le processus de capture des données de base provenant de plusieurs sources et intégration dans un hub unique (magasin de données opérationnelles) pour la réplication vers d’autres systèmes de destination.
  • Fédération de données : Processus consistant à fournir une vue virtuelle unique des données de base d’une ou plusieurs sources vers un ou plusieurs systèmes de destination.
  • Propagation des données : processus de copie des données de base d’un système à un autre, généralement via des interfaces point à point dans les systèmes existants.

Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2023 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information

La philosophie de la technologie blockchain - Ontologies
La philosophie de la technologie blockchain – Ontologies

De la nécessité et de l’utilité de développer une philosophie spécifique pour la technologie de la blockchain, mettant l’accent sur les aspects ontologiques. Après une Introduction qui met en évidence les principales orientations philosophiques de cette technologie émergente, dans La … Lire la suite

non noté 0.00 lei Choix des options Ce produit a plusieurs variations. Les options peuvent être choisies sur la page du produit
Intelligence artificielle dans le renseignement, la défense et la sécurité nationale
Intelligence artificielle dans le renseignement, la défense et la sécurité nationale

Déverrouiller l’avenir : l’intelligence artificielle dans la sécurité nationale

non noté 14.32 lei Choix des options Ce produit a plusieurs variations. Les options peuvent être choisies sur la page du produit
Les menaces persistantes avancées en cybersécurité – La guerre cybernétique
Les menaces persistantes avancées en cybersécurité – La guerre cybernétique

Une analyse détaillée et un appel à l’action pour toute personne impliquée dans le domaine de la sécurité numérique.

non noté 23.89 lei Choix des options Ce produit a plusieurs variations. Les options peuvent être choisies sur la page du produit

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *