Home » Articole » Articles » Affaires » Informatique décisionnelle » Exploration de données: validation des résultats, recherche, normes

Exploration de données: validation des résultats, recherche, normes

Validation des résultats

Données produites par le dragage de données (Un exemple de données produites par le dragage de données via un bot, exploité par le statisticien Tyler Viglen, montrant apparemment un lien étroit entre le meilleur mot gagnant un concours d’orthographe et le nombre de personnes aux États-Unis tuées par des araignées venimeuses. La similitude des tendances est évidemment une coïncidence.)

L’exploration de données peut être involontairement utilisée à mauvais escient, et peut alors produire des résultats qui semblent significatifs ; mais qui ne prédisent pas réellement le comportement futur et ne peuvent pas être reproduits sur un nouvel échantillon de données et sont peu utiles. Souvent, cela résulte de l’examen d’un trop grand nombre d’hypothèses et de la non-exécution de tests d’hypothèses statistiques appropriés. Une version simple de ce problème dans l’apprentissage automatique est connue sous le nom de surajustement, mais le même problème peut survenir à différentes phases du processus et, par conséquent, une séparation entraînement/test – le cas échéant – peut ne pas être suffisante pour empêcher que cela ne se produise.

La dernière étape de la découverte de connaissances à partir des données consiste à vérifier que les modèles produits par les algorithmes d’exploration de données se produisent dans l’ensemble de données plus large. Tous les modèles trouvés par les algorithmes d’exploration de données ne sont pas nécessairement valides. Il est courant que les algorithmes d’exploration de données trouvent des modèles dans l’ensemble d’apprentissage qui ne sont pas présents dans l’ensemble de données général. C’est ce qu’on appelle le surajustement. Pour surmonter ce problème, l’évaluation utilise un ensemble de données de test sur lequel l’algorithme d’exploration de données n’a pas été formé. Les modèles appris sont appliqués à cet ensemble de test, et la sortie résultante est comparée à la sortie souhaitée. Par exemple, un algorithme d’exploration de données essayant de distinguer le “spam” des e-mails “légitimes” serait formé sur un ensemble d’exemples d’e-mails. Une fois formés, les modèles appris seraient appliqués à l’ensemble de test d’e-mails sur lesquels ils n’avaient pas été formés. La précision des modèles peut ensuite être mesurée à partir du nombre d’e-mails qu’ils classent correctement. Un certain nombre de méthodes statistiques peuvent être utilisées pour évaluer l’algorithme, telles que les courbes ROC.

Si les modèles appris ne répondent pas aux normes souhaitées, il est ensuite nécessaire de réévaluer et de modifier les étapes de prétraitement et d’exploration de données. Si les modèles appris répondent aux normes souhaitées, l’étape finale consiste à interpréter les modèles appris et à les transformer en connaissances.

Recherche

Le premier organisme professionnel dans le domaine est le groupe d’intérêt spécial (SIG) de l’Association for Computing Machinery (ACM) sur la découverte des connaissances et l’exploration de données (SIGKDD). Depuis 1989, cet ACM SIG a accueilli une conférence internationale annuelle et publié ses actes, et depuis 1999, il a publié une revue académique semestrielle intitulée “SIGKDD Explorations”.

Les conférences informatiques sur l’exploration de données comprennent:

  • Conférence CIKM – Conférence ACM sur la gestion de l’information et des connaissances
  • Conférence DMIN – Conférence internationale sur l’exploration de données
  • Conférence DMKD – Problèmes de recherche sur l’exploration de données et la découverte de connaissances
  • Conférence DSAA – Conférence internationale IEEE sur la science des données et l’analyse avancée
  • Conférence ECDM – Conférence européenne sur l’exploration de données
  • Conférence ECML-PKDD – Conférence européenne sur l’apprentissage automatique et les principes et la pratique de la découverte des connaissances dans les bases de données
  • Conférence EDM – Conférence internationale sur l’exploration de données éducatives
  • Conférence INFOCOM – IEEE INFOCOM
  • Conférence ICDM – Conférence internationale IEEE sur l’exploration de données
  • Conférence KDD – Conférence ACM SIGKDD sur la découverte des connaissances et l’exploration de données
    Conférence MLDM – Apprentissage automatique et exploration de données dans la reconnaissance de formes
  • Conférence PAKDD – La conférence annuelle Asie-Pacifique sur la découverte des connaissances et l’exploration de données
    Conférence PAW – Le monde de l’analyse prédictive
  • Conférence SDM – Conférence internationale SIAM sur l’exploration de données (SIAM)
  • Symposium SSTD – Symposium sur les bases de données spatiales et temporelles
  • Conférence WSDM – Conférence ACM sur la recherche Web et l’exploration de données

Les sujets d’exploration de données sont également présents dans de nombreuses conférences sur la gestion des données / bases de données telles que la conférence ICDE, la conférence SIGMOD et la conférence internationale sur les très grandes bases de données

Normes

Des efforts ont été déployés pour définir des normes pour le processus d’exploration de données, par exemple le processus de norme interindustrielle européenne de 1999 pour l’exploration de données (CRISP-DM 1.0) et la norme d’exploration de données Java de 2004 (JDM 1.0). Le développement des successeurs de ces processus (CRISP-DM 2.0 et JDM 2.0) était actif en 2006, mais est au point mort depuis. JDM 2.0 a été retiré sans parvenir à une version finale.

Pour échanger les modèles extraits – en particulier pour une utilisation dans l’analyse prédictive – la norme clé est le Predictive Model Markup Language (PMML), qui est un langage basé sur XML développé par le Data Mining Group (DMG) et pris en charge comme format d’échange par de nombreux applications d’exploration de données. Comme son nom l’indique, il ne couvre que les modèles de prédiction, une tâche particulière d’exploration de données d’une grande importance pour les applications métier. Cependant, des extensions pour couvrir (par exemple) le regroupement de sous-espaces ont été proposées indépendamment du DMG.

Utilisations notables

L’exploration de données est utilisée partout où des données numériques sont disponibles aujourd’hui. Des exemples notables d’exploration de données peuvent être trouvés dans les affaires, la médecine, la science et la surveillance.

Source: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, License CC BY-SA 4.0. Traduction et adaptation: Nicolae Sfetcu. © 2022 MultiMedia Publishing, L’informatique décisionnelle et l’analyse exploratoire des données dans les entreprises, Collection Sciences de l’information

Comment devenir entrepreneur
Comment devenir entrepreneur

Une brève introduction aux bases de la création de votre propre entreprise axée sur la technologie. Rédigé dans un langage concis et simple, le livre est une lecture rapide que vous pouvez assimiler en quelques heures. L’entrepreneuriat a un impact … Lire la suite

non noté $3.99 Choix des options
La philosophie de la technologie blockchain - Ontologies
La philosophie de la technologie blockchain – Ontologies

De la nécessité et de l’utilité de développer une philosophie spécifique pour la technologie de la blockchain, mettant l’accent sur les aspects ontologiques. Après une Introduction qui met en évidence les principales orientations philosophiques de cette technologie émergente, dans La … Lire la suite

non noté $0.00 Choix des options
L’éthique des mégadonnées (Big Data) en recherche
L’éthique des mégadonnées (Big Data) en recherche

Les principaux problèmes rencontrés par les scientifiques qui travaillent avec des ensembles de données massives (mégadonnées, Big Data), en soulignant les principaux problèmes éthiques, tout en tenant compte de la législation de l’Union européenne. Après une brève Introduction au Big … Lire la suite

non noté $0.00 Choix des options

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *