Le processus de découverte des connaissances dans les bases de données (Knowledge Discovery in Databases, KDD) est généralement défini avec les étapes :
- Sélection
- Pré-traitement
- Transformation
- Exploration de données
- Interprétation/Évaluation.
Il existe cependant de nombreuses déclinaisons sur ce thème, comme le Cross Industry Standard Process for Data Mining (CRISP-DM) qui définit six phases :
- Compréhension commerciale
- Compréhension des données
- Préparation des données
- Modélisation
- Évaluation
- Déploiement
ou un processus simplifié tel que (1) le pré-traitement, (2) l’exploration de données et (3) la validation des résultats.
Les sondages menés en 2002, 2004, 2007 et 2014 montrent que la méthodologie CRISP-DM est la principale méthodologie utilisée par les mineurs de données. La seule autre norme d’exploration de données mentionnée dans ces sondages était SEMMA. Cependant, 3 à 4 fois plus de personnes ont déclaré utiliser CRISP-DM. Plusieurs équipes de chercheurs ont publié des revues de modèles de processus d’exploration de données, et Azevedo et Santos ont effectué une comparaison entre CRISP-DM et SEMMA en 2008.
Pré-traitement
Avant que les algorithmes d’exploration de données puissent être utilisés, un ensemble de données cible doit être assemblé. Comme l’exploration de données ne peut découvrir que des modèles réellement présents dans les données, l’ensemble de données cible doit être suffisamment volumineux pour contenir ces modèles tout en restant suffisamment concis pour être exploité dans un délai acceptable. Une source courante de données est un magasin de données ou un entrepôt de données. Le pré-traitement est essentiel pour analyser les ensembles de données multivariées avant l’exploration de données. L’ensemble cible est ensuite nettoyé. Le nettoyage des données supprime les observations contenant du bruit et celles avec des données manquantes.
Exploration de données
L’exploration de données implique six classes courantes de tâches :
- Détection d’anomalies (détection de valeurs aberrantes/de changement/d’écart) – L’identification d’enregistrements de données inhabituels, qui pourraient être intéressants ou d’erreurs de données nécessitant une enquête plus approfondie.
- Apprentissage des règles d’association (modélisation des dépendances) : Recherche les relations entre les variables. Par exemple, un supermarché peut collecter des données sur les habitudes d’achat des clients. Grâce à l’apprentissage des règles d’association, le supermarché peut déterminer quels produits sont fréquemment achetés ensemble et utiliser ces informations à des fins de marketing. C’est ce qu’on appelle parfois l’analyse du panier de consommation.
- Clustering – Consiste à découvrir des groupes et des structures dans les données qui sont d’une manière ou d’une autre « similaires », sans utiliser de structures connues dans les données.
- La classification – Consiste à généraliser la structure connue à appliquer aux nouvelles données. Par exemple, un programme de messagerie peut tenter de classer un e-mail comme « légitime » ou comme « spam ».
- Régression – Tente de trouver une fonction qui modélise les données avec le moins d’erreurs.
- Résumé – Fournit une représentation plus compacte de l’ensemble de données, y compris la visualisation et la génération de rapports.
Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information
Laisser un commentaire