Le processus de compréhension des modèles trouvés dans de grands ensembles de données est connu sous le nom d’exploration de données. Certains des aspects de l’exploration de données qui ont été élucidés dans la section suivante sont l’apprentissage des règles d’association, l’analyse de cluster, l’analyse de régression, la synthèse automatique et des exemples d’exploration de données. Le chapitre sur l’exploration de données offre une approche perspicace, en gardant à l’esprit le sujet complexe.
Exploration de données
L’exploration de données (data mining) est un sous-domaine interdisciplinaire de l’informatique. Il s’agit du processus informatique de découverte de modèles dans de grands ensembles de données impliquant des méthodes à l’intersection de l’intelligence artificielle, de l’apprentissage automatique, des statistiques et des systèmes de bases de données. L’objectif global du processus d’exploration de données est d’extraire des informations d’un ensemble de données et de les transformer en une structure compréhensible pour une utilisation ultérieure. Outre l’étape d’analyse brute, cela implique des aspects de base de données et de gestion des données, le prétraitement des données, des considérations de modèle et d’inférence, des mesures d’intérêt, des considérations de complexité, le post-traitement des structures découvertes, la visualisation et la mise à jour en ligne. L’exploration de données est l’étape d’analyse du processus de « découverte des connaissances dans les bases de données », ou KDD (knowledge discovery in databases).
Le terme anglais de « mining » (« extraction ») est un abus de langage, car l’objectif est l’extraction de modèles et de connaissances à partir de grandes quantités de données, et non l’extraction (mining) des données elles-mêmes. C’est également un mot à la mode et est fréquemment appliqué à toute forme de traitement de données ou d’informations à grande échelle (collecte, extraction, entreposage, analyse et statistiques) ainsi qu’à toute application de système informatique d’aide à la décision, y compris l’intelligence artificielle, l’apprentissage automatique, et l’informatique décisionnelle. Le livre Data mining: Practical machine learning tools and techniques with Java (qui couvre principalement le matériel d’apprentissage automatique) devait à l’origine s’appeler simplement Practical machine learning, et le terme data mining n’a été ajouté que pour des raisons de marketing. Souvent, les termes plus généraux (à grande échelle) d’analyse de données et d’analytique – ou, lorsqu’il s’agit de méthodes réelles, d’intelligence artificielle et d’apprentissage automatique – sont plus appropriés.
La tâche d’exploration de données réelle est l’analyse automatique ou semi-automatique de grandes quantités de données pour extraire des modèles intéressants jusque-là inconnus, tels que des groupes d’enregistrements de données (partitionnement de données (cluster analysis)), des enregistrements inhabituels (détection d’anomalies) et des dépendances (exploration de règles d’association). Cela implique généralement l’utilisation de techniques de base de données telles que les indices spatiaux. Ces modèles peuvent alors être considérés comme une sorte de résumé des données d’entrée et peuvent être utilisés dans une analyse plus approfondie ou, par exemple, dans l’apprentissage automatique et l’analytique prédictive. Par exemple, l’étape d’exploration de données peut identifier plusieurs groupes dans les données, qui peuvent ensuite être utilisés pour obtenir des résultats de prédiction plus précis par un système d’aide à la décision. Ni la collecte de données, ni la préparation des données, ni l’interprétation des résultats et le rapport ne font partie de l’étape d’exploration de données, mais appartiennent au processus KDD global en tant qu’étapes supplémentaires.
Les termes connexes de dragage de données, de pêche de données et de triturage de données font référence à l’utilisation de méthodes d’exploration de données pour échantillonner des parties d’un ensemble de données de population plus large qui sont (ou peuvent être) trop petites pour que des inférences statistiques fiables puissent être faites sur la validité de tout modèles découverts. Ces méthodes peuvent cependant être utilisées pour créer de nouvelles hypothèses à tester par rapport à des populations de données plus importantes.
Étymologie
Dans les années 1960, les statisticiens utilisaient des termes comme « Data Fishing » ou « Data Dredging » pour désigner ce qu’ils considéraient comme la mauvaise pratique d’analyser des données sans hypothèse a priori. Le terme « Data Mining » est apparu vers 1990 dans la communauté des bases de données. Pendant une courte période dans les années 1980, une expression « database mining » a été utilisée, mais depuis qu’elle a été déposée par HNC, une société basée à San Diego, pour lancer leur Database Mining Workstation ; les chercheurs se sont alors tournés vers le « data mining ». Les autres termes utilisés incluent l’archéologie des données, la collecte d’informations, la découverte d’informations, l’extraction de connaissances, etc. Gregory Piatetsky-Shapiro a inventé le terme « Découverte des connaissances dans les bases de données » pour le premier atelier sur le même sujet (KDD-1989) et ce terme est devenu plus populaire. dans la communauté de l’IA et de l’apprentissage automatique. Cependant, le terme data mining est devenu plus populaire dans les milieux des affaires et de la presse. Actuellement, l’exploration de données et la découverte de connaissances sont utilisées de manière interchangeable. Depuis 2007 environ, les termes « Predictive Analytics » (analyse (ou logique) prédictive0 et depuis 2011, « Data Science » ( science des données) ont également été utilisés pour décrire ce domaine.
Dans la communauté universitaire, les principaux forums de recherche ont commencé en 1995 lorsque la première conférence internationale sur l’exploration de données et la découverte des connaissances (KDD-95) a été lancée à Montréal sous le parrainage de l’AAAI. Il était co-présidé par Usama Fayyad et Ramasamy Uthurusamy. Un an plus tard, en 1996, Usama Fayyad a lancé la revue de Kluwer intitulée Data Mining and Knowledge Discovery en tant que rédactrice en chef fondatrice. Plus tard, il a lancé le SIGKDD Newsletter SIGKDD Explorations. La conférence KDD International est devenue la principale conférence de la plus haute qualité sur l’exploration de données avec un taux d’acceptation des soumissions d’articles de recherche inférieur à 18 %. La revue Data Mining and Knowledge Discovery est la principale revue de recherche du domaine.
Contexte
L’extraction manuelle de modèles à partir de données existe depuis des siècles. Les premières méthodes d’identification des modèles dans les données comprennent le théorème de Bayes (années 1700) et l’analyse de régression (années 1800). La prolifération, l’omniprésence et la puissance croissante de la technologie informatique ont considérablement augmenté la capacité de collecte, de stockage et de manipulation des données. Au fur et à mesure que les ensembles de données ont augmenté en taille et en complexité, l’analyse directe « pratique » des données a été de plus en plus complétée par un traitement indirect et automatisé des données, aidé par d’autres découvertes en informatique, telles que les réseaux de neurones, l’analyse par grappes, les algorithmes génétiques (années 1950) , arbres de décision et règles de décision (années 1960) et machines à vecteurs de support (années 1990). L’exploration de données est le processus d’application de ces méthodes dans le but de découvrir des modèles cachés dans de grands ensembles de données. Il comble le fossé entre les statistiques appliquées et l’intelligence artificielle (qui fournissent généralement le contexte mathématique) et la gestion de bases de données en exploitant la manière dont les données sont stockées et indexées dans les bases de données pour exécuter plus efficacement les algorithmes d’apprentissage et de découverte réels, permettant d’appliquer ces méthodes à ensembles de données toujours plus grands.
Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu
© 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information
Laisser un commentaire