Une dimension est une structure qui catégorise les faits et les mesures afin de permettre aux utilisateurs de répondre à des questions commerciales. Les dimensions couramment utilisées sont les personnes, les produits, le lieu et le temps.
Dans un entrepôt de données, les dimensions fournissent des informations d’étiquetage structurées à des mesures numériques autrement non ordonnées. La dimension est un ensemble de données composé d’éléments de données individuels qui ne se chevauchent pas. Les fonctions principales des dimensions sont triples : assurer le filtrage, le regroupement et l’étiquetage.
Ces fonctions sont souvent décrites comme « découpage et dés ». Le découpage fait référence au filtrage des données. Les dés fait référence au regroupement de données. Un exemple courant d’entrepôt de données implique les ventes comme mesure, avec le client et le produit comme dimensions. Lors de chaque vente, un client achète un produit. Les données peuvent être découpées en supprimant tous les clients à l’exception d’un groupe étudié, puis découpées en regroupant par produit.
Un élément de données dimensionnelles est similaire à une variable catégorielle dans les statistiques.
Généralement, les dimensions d’un entrepôt de données sont organisées en interne en une ou plusieurs hiérarchies. « Date » est une dimension commune, avec plusieurs hiérarchies possibles :
- « Jours (regroupés en) Mois (regroupés en) Années »,
- « Jours (regroupés en) Semaines (regroupées en) Années »,
- « Jours (regroupés en) Mois (regroupés en) Trimestres (regroupés en) Années »,
- etc.
Dimension conforme
Une dimension conforme est un ensemble d’attributs de données qui ont été physiquement référencés dans plusieurs tables de base de données en utilisant la même valeur clé pour faire référence à la même structure, aux mêmes attributs, valeurs de domaine, définitions et concepts. Une dimension conforme recoupe de nombreux faits.
Les dimensions sont conformes lorsqu’elles sont exactement les mêmes (y compris les clés) ou que l’une est un sous-ensemble parfait de l’autre. Plus important encore, les en-têtes de ligne produits dans deux ensembles de réponses différents à partir de la ou des mêmes dimensions conformes doivent pouvoir correspondre parfaitement.
Les dimensions conformes sont des sous-ensembles mathématiques identiques ou stricts de la dimension la plus granulaire et la plus détaillée. Les tables de dimensions ne sont pas conformes si les attributs sont étiquetés différemment ou contiennent des valeurs différentes. Les dimensions conformes se déclinent en plusieurs saveurs différentes. Au niveau le plus élémentaire, les dimensions conformes signifient exactement la même chose avec chaque table de faits possible à laquelle elles sont jointes. La table des dimensions de date associée aux faits de ventes est identique à la dimension de date associée aux faits d’inventaire.
Dimension indésirable
Une dimension indésirable (junk dimension) est un regroupement pratique de drapeaux et indicateurs généralement de faible cardinalité. En créant une dimension abstraite, ces drapeaux et indicateurs sont supprimés de la table de faits tout en les plaçant dans un cadre dimensionnel utile. Une dimension indésirable est une table de dimensions composée d’attributs qui n’appartiennent pas à la table de faits ni à aucune des tables de dimensions existantes. La nature de ces attributs est généralement du texte ou divers indicateurs, par ex. des commentaires non génériques ou simplement de simples indicateurs oui/non ou vrai/faux. Ces types d’attributs restent généralement lorsque toutes les dimensions évidentes du processus métier ont été identifiées et le concepteur est donc confronté au défi de savoir où placer ces attributs qui n’appartiennent pas aux autres dimensions.
Une solution consiste à créer une nouvelle dimension pour chacun des attributs restants, mais en raison de leur nature, il pourrait être nécessaire de créer un grand nombre de nouvelles dimensions, ce qui aboutirait à une table de faits avec un très grand nombre de clés étrangères. Le concepteur peut également décider de laisser les attributs restants dans la table de faits, mais cela pourrait rendre la longueur des lignes de la table inutilement grande si, par exemple, les attributs sont une longue chaîne de texte.
La solution à ce défi consiste à identifier tous les attributs, puis à les regrouper dans une ou plusieurs dimensions indésirables. Une dimension indésirable peut contenir plusieurs indicateurs vrai/faux ou oui/non qui n’ont aucune corrélation entre eux. Il serait donc pratique de convertir les indicateurs en un attribut plus descriptif. Un exemple serait un indicateur indiquant si un colis est arrivé, au lieu d’indiquer cela par « oui » ou « non », il serait converti en « arrivé » ou « en attente » dans la dimension indésirable. Le concepteur peut choisir de créer le tableau des dimensions de manière à ce qu’il contienne tous les indicateurs apparaissant avec tous les autres indicateurs afin que toutes les combinaisons soient couvertes. Cela définit une taille fixe pour le tableau lui-même, qui serait de 2x lignes, où x est le nombre d’indicateurs. Cette solution est appropriée dans les situations où le concepteur s’attendrait à rencontrer de nombreuses combinaisons différentes et où les combinaisons possibles sont limitées à un niveau acceptable. Dans une situation où le nombre d’indicateurs est important, créant ainsi un très grand tableau ou où le concepteur s’attend seulement à rencontrer quelques-unes des combinaisons possibles, il serait plus approprié de construire chaque ligne dans la dimension indésirable à mesure que de nouvelles combinaisons sont rencontrées. Pour limiter la taille des tableaux, plusieurs dimensions indésirables peuvent être appropriées dans d’autres situations en fonction de la corrélation entre divers indicateurs.
Les dimensions indésirables sont également appropriées pour placer des attributs tels que des commentaires non génériques à partir de la table de faits. Ces attributs peuvent être constitués de données provenant d’un champ de commentaire facultatif lorsqu’un client passe une commande et, par conséquent, seront probablement vides dans de nombreux cas. Par conséquent, la dimension indésirable doit contenir une seule ligne représentant les espaces en tant que clé de substitution qui sera utilisée dans la table de faits pour chaque ligne renvoyée avec un champ de commentaire vide.
Dimension dégénérée
Une dimension dégénérée est une clé, telle qu’un numéro de transaction, un numéro de facture, un numéro de ticket ou un numéro de connaissement, qui n’a aucun attribut et ne se joint donc pas à une table de dimensions réelle.Les dimensions dégénérées sont très courantes lorsque le grain d’une table de faits représente un seul élément de transaction ou un seul élément de campagne, car la dimension dégénérée représente l’identifiant unique du parent. Les dimensions dégénérées jouent souvent un rôle essentiel dans la clé primaire de la table de faits.
Dimension du jeu de rôle
Les dimensions sont souvent recyclées pour plusieurs applications au sein de la même base de données. Par exemple, une dimension « Date » peut être utilisée pour la « Date de vente », ainsi que pour la « Date de livraison » ou la « Date d’embauche ».C’est ce que l’on appelle souvent une « dimension de jeu de rôle ».
Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2024 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information
Laisser un commentaire