Home » Articole » Articles » Affaires » Business Intelligence » Processus d’exploration de données

Processus d’exploration de données

Le processus de découverte des connaissances dans les bases de données (Knowledge Discovery in Databases, KDD) est généralement défini avec les étapes :

  1. Sélection
  2. Pré-traitement
  3. Transformation
  4. Exploration de données
  5. Interprétation/Évaluation.

Il existe cependant de nombreuses déclinaisons sur ce thème, comme le Cross Industry Standard Process for Data Mining (CRISP-DM) qui définit six phases :

  1. Compréhension commerciale
  2. Compréhension des données
  3. Préparation des données
  4. Modélisation
  5. Évaluation
  6. Déploiement

ou un processus simplifié tel que (1) le pré-traitement, (2) l’exploration de données et (3) la validation des résultats.

Les sondages menés en 2002, 2004, 2007 et 2014 montrent que la méthodologie CRISP-DM est la principale méthodologie utilisée par les mineurs de données. La seule autre norme d’exploration de données mentionnée dans ces sondages était SEMMA. Cependant, 3 à 4 fois plus de personnes ont déclaré utiliser CRISP-DM. Plusieurs équipes de chercheurs ont publié des revues de modèles de processus d’exploration de données, et Azevedo et Santos ont effectué une comparaison entre CRISP-DM et SEMMA en 2008.

Pré-traitement

Avant que les algorithmes d’exploration de données puissent être utilisés, un ensemble de données cible doit être assemblé. Comme l’exploration de données ne peut découvrir que des modèles réellement présents dans les données, l’ensemble de données cible doit être suffisamment volumineux pour contenir ces modèles tout en restant suffisamment concis pour être exploité dans un délai acceptable. Une source courante de données est un magasin de données ou un entrepôt de données. Le pré-traitement est essentiel pour analyser les ensembles de données multivariées avant l’exploration de données. L’ensemble cible est ensuite nettoyé. Le nettoyage des données supprime les observations contenant du bruit et celles avec des données manquantes.

Exploration de données

L’exploration de données implique six classes courantes de tâches :

  • Détection d’anomalies (détection de valeurs aberrantes/de changement/d’écart) – L’identification d’enregistrements de données inhabituels, qui pourraient être intéressants ou d’erreurs de données nécessitant une enquête plus approfondie.
  • Apprentissage des règles d’association (modélisation des dépendances) : Recherche les relations entre les variables. Par exemple, un supermarché peut collecter des données sur les habitudes d’achat des clients. Grâce à l’apprentissage des règles d’association, le supermarché peut déterminer quels produits sont fréquemment achetés ensemble et utiliser ces informations à des fins de marketing. C’est ce qu’on appelle parfois l’analyse du panier de consommation.
  • Clustering – Consiste à découvrir des groupes et des structures dans les données qui sont d’une manière ou d’une autre “similaires”, sans utiliser de structures connues dans les données.
  • La classification – Consiste à généraliser la structure connue à appliquer aux nouvelles données. Par exemple, un programme de messagerie peut tenter de classer un e-mail comme « légitime » ou comme « spam ».
  • Régression – Tente de trouver une fonction qui modélise les données avec le moins d’erreurs.
  • Résumé – Fournit une représentation plus compacte de l’ensemble de données, y compris la visualisation et la génération de rapports.

Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information

Londres: Affaires, Voyager, Culture (London: Business, Travel, Culture)
Londres: Affaires, Voyager, Culture (London: Business, Travel, Culture)

Guide touristique bilingue anglais/français (Bilingual English/French Tourist Guide) Londres, seule ville à avoir organisé trois fois les Jeux olympiques (1908, 1948, 2012), est dynamique et très diverse sur le plan culturel. Elle joue un rôle important dans l’art et dans … Lire la suite

non noté $5,99 Choix des options
Guide marketing Internet pour les débutants
Guide marketing Internet pour les débutants

L’une des plus anciens guides de marketing Internet, mais aussi l’une des guides les plus concises et pratiques. Bien que de nombreuses années se sont écoulées depuis sa rédaction, les principes de base décrits ici restent valables. Le marketing Internet … Lire la suite

non noté $0,00$2,99 Choix des options
L’éthique des mégadonnées (Big Data) en recherche
L’éthique des mégadonnées (Big Data) en recherche

Les principaux problèmes rencontrés par les scientifiques qui travaillent avec des ensembles de données massives (mégadonnées, Big Data), en soulignant les principaux problèmes éthiques, tout en tenant compte de la législation de l’Union européenne. Après une brève Introduction au Big … Lire la suite

non noté $0,00 Choix des options

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *