Home » Articole » Articles » Affaires » Business Intelligence » Préoccupations législatives en matière d’exploration de données : équilibrer l’innovation et la confidentialité

Préoccupations législatives en matière d’exploration de données : équilibrer l’innovation et la confidentialité

Sfetcu, Nicolae (2024), Préoccupations législatives en matière d’exploration de données : équilibrer l’innovation et la confidentialité, MultiMedia, DOI: 10.13140/RG.2.2.32990.86081, https://www.telework.ro/fr/preoccupations-legislatives-en-matiere-dexploration-de-donnees-equilibrer-linnovation-et-la-confidentialite/

 

Legislative Concerns in Data Mining : Balancing Innovation and Privacy

Abstract

In the era of digitalization, data mining has become a powerful tool for extracting valuable insights from large data sets. From improving healthcare outcomes to improving business strategies, the applications of data mining are vast and promising. However, this technological advancement is not without challenges, particularly in the legislative area. Legislative concerns regarding data mining encompass a wide range of issues, including privacy, security, and ethics.

Keywords : data mining, privacy, ethics, copyright, legislation

Résumé

À l’ère de la numérisation, l’exploration de données est devenue un outil puissant pour extraire des informations précieuses à partir de vastes ensembles de données. De l’amélioration des résultats des soins de santé à l’amélioration des stratégies commerciales, les applications de l’exploration de données sont vastes et prometteuses. Cependant, cette avancée technologique n’est pas sans défis, notamment dans le domaine législatif. Les préoccupations législatives en matière d’exploration de données englobent un large éventail de questions, notamment la confidentialité, la sécurité et l’éthique.

Mots-clés : exploration de données, data mining, confidentialité, éthique, droit d’auteur, législation

 

Préoccupations législatives en matière d’exploration de données : équilibrer l’innovation et la confidentialité

Nicolae Sfetcu[1]

nicolae@sfetcu.com

[1] Chercheur – Académie Roumaine – Comité Roumain pour l »Histoire et la Philosophie des Sciences et des Techniques (CRIFST), Division Histoire des Sciences (DIS), ORCID: 0000-0002-0162-9973

 

Introduction

L’exploration de données implique l’extraction et l’analyse de grands volumes de données pour découvrir des modèles ou des relations. Cette technologie offre des avantages significatifs, tels que l’amélioration de la business intelligence, l’amélioration des soins de santé et la personnalisation des expériences utilisateur.

À l’ère de la numérisation, l’exploration de données est devenue un outil puissant pour extraire des informations précieuses à partir de vastes ensembles de données. De l’amélioration des résultats des soins de santé à l’amélioration des stratégies commerciales, les applications de l’exploration de données sont vastes et prometteuses. Cependant, cette avancée technologique n’est pas sans défis, notamment dans le domaine législatif. Les préoccupations législatives concernant l’exploration de données tournent principalement autour de considérations en matière de confidentialité, de sécurité et d’éthique. Cet essai approfondit ces préoccupations législatives et explore des solutions potentielles pour trouver un équilibre entre la promotion de l’innovation et la sauvegarde des droits individuels.

Exploration de données

Selon (2), l’exploration du Web et la découverte de modèles cachés dans une grande quantité de données permettent de trouver des informations inconnues, pertinentes et utiles contenues dans les documents Web (3) (4). Les techniques d’exploration du Web s’inspirent des techniques de d’exploration de données. Il n’utilise pas directement de techniques d’exploration de données en raison de la nature diversifiée des données Web disponibles sous forme de données non structurées, semi-structurées et structurées. Pour l’analyse de documents Web, il existe plusieurs tâches et algorithmes d’exploration de données dans la littérature. Contrairement à l’entreposage de données, le Web propose des types de données mixtes, par ex. données de contenu (texte, audio, vidéo et graphiques), données de structure (hyperliens, graphiques Web) et données d’utilisation (données de journal Web). En fonction des types de données utilisées, l’exploration du Web peut être classée en exploration de contenu Web, exploration de structure Web ou analyse de liens et exploration d’utilisation du Web (4).

L’exploration de contenu Web découvre des informations utiles et pertinentes à partir du contenu d’une page Web, qui peuvent être du texte non structuré, des données XML, des tableaux structurés, des informations graphiques, des images, des vidéos, etc. (4). Par exemple, classer les documents Web en fonction de leur contenu, extraire les critiques de produits, les sentiments des utilisateurs dans les données de blog.

L’exploration de structures Web traite spécifiquement des structures intra et inter-documents, c’est-à-dire la structure des liens du contenu au sein d’une page Web et l’interconnectivité des pages Web entre les sites Web. La structure de la page Web affecte son classement. L’exploration de structures Web peut être classée en structure de liens hypertexte et structure de document (5). La structure de liens relie le contenu à différents endroits sur la même page Web ou peut être utilisée pour interconnecter les différentes pages Web du même site Web ou d’un site Web différent, tandis que la structure du document organise le contenu de la page sous forme de structure en raison de différents Balises HTML et XML.

L’exploration de l’utilisation du Web découvre les modèles de parcours des utilisateurs à partir des journaux Web qui enregistrent les flux de clics des utilisateurs. De nombreux algorithmes d’exploration de données sont également applicables à l’exploration de l’utilisation du Web. L’exploration de l’utilisation du Web utilise plusieurs algorithmes d’exploration de données. Le principal problème de l’exploration de l’utilisation du Web réside dans les données brutes sur le parcours de navigation du fichier journal d’utilisation du Web. L’exploration du Web hérite du processus utilisé dans l’exploration de données. Les deux diffèrent dans leurs techniques de collecte de données. Les données de l’entrepôt de données sont collectées à partir de diverses sources hétérogènes, telles que des fichiers plats de bases de données. Ce processus implique le nettoyage, l’intégration et la transformation des données. Les données pour l’exploration d’entrepôt de données sont déjà collectées, tandis que pour l’exploration de sites Web, la tâche de collecte de données est fastidieuse, mais les robots d’exploration Web sont utiles dans cette tâche. Une fois la collecte de données terminée, elle nécessite un prétraitement, une intégration, une transformation et une sélection des données nécessaires à l’exploration du Web. Enfin, une généralisation et une analyse sont effectuées.

Sous-tâches d’exploration de sites Web

L’exploration du Web comprend quatre tâches secondaires :

  1. Collecte de ressources: Cette phase récupère les documents souhaités et est effectuée par des moteurs de recherche Web ou des robots d’exploration Web (6).
  2. Sélection/prétraitement des informations: Après avoir trouvé la ressource, les documents Web pertinents sont sélectionnés et transformés sous une forme standard. La plupart des méthodes utilisaient des articles pour sélectionner les données et représenter les données sous forme de tableau (7).
  3. Généralisation: Il tente de découvrir le modèle général d’accès des utilisateurs au sein et entre les sites Web. Cela détermine l’intérêt et le comportement des utilisateurs. Des techniques d’exploration de sites Web telles que la classification, les techniques de règles d’association de cluster, etc. sont utilisées.
  4. Analyse/validation: Cette étape analyse, interprète et valide les informations potentielles par rapport aux modèles d’information. Le but de cette tâche est d’exploiter les connaissances à partir des informations obtenues au cours des étapes précédentes. Il existe plusieurs modèles pour simuler et valider les données Web à des fins d’exploration de données.

L’exploration du Web hérite des techniques d’exploration de données pour extraire automatiquement des informations afin d’acquérir des connaissances à partir du contenu Web. L’évaluation du modèle implique la généralisation, le regroupement et l’analyse.

Tâches

L’exploration de données implique six classes courantes de tâches : (1)

  1. Détection d’anomalies (détection des valeurs/changements/écarts précédents) – Identifier les enregistrements de données inhabituels qui pourraient être intéressants ou les erreurs de données qui nécessitent une enquête plus approfondie.
  2. Règles d’association d’apprentissage (modélisation des dépendances) – Rechercher les relations entre les variables. Par exemple, un supermarché peut collecter des données sur les habitudes d’achat des clients. Grâce à l’apprentissage des règles d’association, le supermarché peut déterminer quels produits sont fréquemment achetés ensemble et utiliser ces informations à des fins de marketing. C’est ce qu’on appelle parfois l’analyse du panier de consommation.
  3. Clustering – Consiste à découvrir des groupes et des structures dans des données qui sont en quelque sorte « similaires » sans utiliser de structures connues dans les données.
  4. Classification – La tâche de généraliser la structure connue pour l’appliquer à de nouvelles données. Par exemple, un programme de messagerie peut essayer de classer un e-mail comme « légitime » ou comme « spam ».
  5. Régression – Essayer de trouver une fonction qui modélise les données avec le moins d’erreurs.
  6. Récapitulatif – Fournit une représentation plus compacte de l’ensemble de données, y compris la visualisation et le rapport.

Standards

Certains efforts ont été déployés pour définir des normes pour le processus d’exploration de données, par exemple le processus standard interindustriel européen pour l’exploration de données de 1999 (CRISP-DM 1.0) et la norme Java Data Mining de 2004 (JDM 1.0). Le développement des successeurs de ces processus (CRISP-DM 2.0 et JDM 2.0) était actif en 2006 mais est au point mort depuis lors. JDM 2.0 a été retiré sans parvenir à une version finale.

Pour l’échange de modèles d’exploration de données – en particulier pour une utilisation dans l’analyse prédictive – la norme clé est le Predictive Model Markup Language (PMML), qui est un langage basé sur XML développé par le Data Mining Group (DMG) et accepté comme format d’échange par de nombreux applications d’exploration de données. Comme son nom l’indique, il ne couvre que les modèles prédictifs, une tâche particulière d’exploration de données d’une grande importance pour les applications métiers. Cependant, des extensions pour couvrir (par exemple) le regroupement de sous-espaces ont été proposées indépendamment de DMG.

Confidentialité et éthique

Selon (1), bien que le terme « exploration de données » lui-même n’ait aucune implication éthique, il est souvent associé à l’exploration d’informations sur le comportement humain (éthique ou autre).

Les manières dont l’exploration de données peut être utilisée, et dans certains cas, les contextes, peuvent soulever des questions en matière de confidentialité, de légalité et d’éthique. En particulier, les ensembles de données d’exploration de données gouvernementales ou commerciales à des fins de sécurité nationale ou d’application de la loi, tels que le programme Total Information Awareness ou ADVISE, ont soulevé des problèmes de confidentialité.

L’exploration de données nécessite la préparation de données susceptibles de révéler des informations ou des modèles susceptibles de compromettre les obligations en matière de vie privée et de confidentialité. Une manière courante d’y parvenir consiste à recourir à l’agrégation de données. L’agrégation de données consiste à combiner des données (éventuellement provenant de diverses sources) d’une manière qui facilite l’analyse (mais qui peut également rendre l’identification de données privées au niveau individuel déductible ou évidente). Il ne s’agit pas d’une exploration de données en soi, mais du résultat de la préparation des données avant – et aux fins – de l’analyse. La menace pour la vie privée d’un individu entre en jeu lorsque les données, une fois compilées, permettent au mineur de données ou à toute personne ayant accès à l’ensemble de données nouvellement compilées d’être en mesure d’identifier certains individus, en particulier lorsque les données ont été initialement anonymisées.

Il est recommandé qu’une personne soit informée des éléments suivants avant la collecte de données :

  • Le but de la collecte de données et de tout projet d’exploration de données (connu) ;
  • Comment les données seront utilisées ;
  • Qui pourra extraire les données et utiliser les données et leurs dérivés ;
  • L’état de la sécurité autour de l’accès aux données ;
  • Comment les données collectées peuvent être mises à jour.

Les données peuvent également être modifiées pour devenir anonymes afin que les individus ne puissent pas être facilement identifiés. Cependant, même les ensembles de données « désidentifiés » / « anonymisés » peuvent contenir suffisamment d’informations pour permettre l’identification d’individus, comme cela s’est produit lorsque les journalistes ont pu trouver plusieurs individus sur la base de l’historique d’un ensemble de recherche qui ont été accidentellement publiés par AOL.

La divulgation par inadvertance d’informations personnelles identifiables menant au fournisseur viole les pratiques équitables en matière d’information. Cette indiscrétion peut causer un préjudice financier, émotionnel ou corporel à la personne indiquée. Dans une affaire de violation de la vie privée, les clients de Walgreens ont intenté une action en justice contre l’entreprise en 2011 pour avoir vendu des informations sur les prescriptions à des sociétés d’exploration de données qui, à leur tour, ont fourni ces données à des sociétés pharmaceutiques.

Problèmes de confidentialité

L’une des principales préoccupations législatives en matière d’exploration de données est la protection du droit à la vie privée des individus. Avec la prolifération de la collecte de données via divers canaux tels que les réseaux sociaux, les appareils IoT et les transactions en ligne, l’inquiétude quant à l’utilisation abusive des informations personnelles augmente. Les législateurs du monde entier ont réagi en promulguant des lois sur la protection des données telles que le RGPD (Règlement général sur la protection des données) en Europe et le CCPA (California Consumer Privacy Act) aux États-Unis. Ces réglementations visent à donner aux individus le contrôle de leurs données et imposent aux organisations l’obligation de gérer les données de manière responsable. Cependant, l’application efficace de ces lois au-delà des frontières reste un défi de taille, en particulier dans le contexte des sociétés multinationales et des flux de données mondiaux. Les problèmes clés comprennent :

  • Consentement: Garantir que les individus donnent leur consentement éclairé pour la collecte et l’utilisation des données.
  • Minimisation des données: Collecter uniquement les données directement pertinentes et nécessaires à la finalité spécifiée.
  • Anonymisation: Suppression des informations personnelles identifiables lors du stockage ou de l’analyse des données.

Problèmes de sécurité

L’exploration de données implique le traitement et l’analyse d’ensembles de données massifs, ce qui fait de la cybersécurité une préoccupation législative cruciale. L’accès non autorisé, le vol ou la manipulation de données sensibles peuvent avoir de graves conséquences, notamment des pertes financières, une atteinte à la réputation et même des menaces à la sécurité nationale. Les législateurs ont réagi en promulguant des lois et des réglementations sur la cybersécurité qui obligent les organisations à mettre en œuvre des mesures de sécurité robustes, à effectuer des audits réguliers et à signaler rapidement les violations de données.  Des législations comme le RGPD imposent des directives strictes sur les pratiques de sécurité des données. Les entreprises sont tenues de mettre en œuvre des mesures de sécurité robustes pour empêcher tout accès non autorisé aux données et d’informer rapidement les autorités et les personnes concernées des violations de données.

Malgré ces efforts, les cybermenaces continuent d’évoluer, soulignant la nécessité d’une mise à jour continue de la législation et d’une collaboration entre les agences gouvernementales, les entreprises et les experts en cybersécurité.

Préoccupations éthiques

Au-delà de la confidentialité et de la sécurité, l’exploration de données soulève des préoccupations éthiques concernant l’utilisation des données pour la prise de décision et leur impact sociétal potentiel. Les préjugés ancrés dans les ensembles de données peuvent perpétuer la discrimination et les inégalités, conduisant à des résultats injustes dans des domaines tels que les prêts, l’embauche et la justice pénale. Les efforts législatifs visant à répondre aux préoccupations éthiques liées à l’exploration de données comprennent la promotion de la transparence, de la responsabilité et de l’équité dans les processus décisionnels algorithmiques. De plus, des initiatives telles que les évaluations d’impact algorithmique et les lignes directrices éthiques destinées aux scientifiques des données visent à atténuer les conséquences involontaires de l’exploration de données. Cependant, naviguer dans l’interaction complexe entre la technologie, l’éthique et la législation nécessite un dialogue continu et une collaboration interdisciplinaire.

Préjugés et discrimination

L’exploration de données peut perpétuer, voire exacerber les biais présents dans les données sources. Cela conduit à des résultats discriminatoires dans des domaines tels que l’emploi, la notation de crédit et l’application de la loi. La législation peut exiger :

  • Équité dans les algorithmes: Mettre en œuvre des contrôles pour garantir que les algorithmes n’entraînent pas de pratiques discriminatoires déloyales.
  • Transparence et responsabilité: Rendre l’utilisation des données et les processus de prise de décision algorithmiques ouverts à l’inspection afin de se prémunir contre les préjugés.

Surveillance et contrôle

L’utilisation de l’exploration de données par les gouvernements à des fins de surveillance et de contrôle affecte les libertés civiles. Les lois devront peut-être équilibrer les intérêts de sécurité nationale avec les droits individuels à la vie privée et à la protection contre toute surveillance injustifiée.

Souveraineté des données

La souveraineté des données concerne les lois et les structures de gouvernance appliquées aux données en fonction de leur localisation. À mesure que les données traversent les frontières internationales, des problèmes juridiques complexes se posent concernant la compétence et le respect des lois locales sur la protection des données.

Propriété des données

La question de savoir à qui appartiennent les données, surtout lorsqu’elles ont été dérivées ou agrégées, peut être controversée. Des lois claires définissant la propriété des données, les droits d’accès et les droits d’effacement des données personnelles sont essentielles.

Limitation de l’utilisation des données

Les réglementations peuvent préciser des limites à l’utilisation des données personnelles afin de garantir qu’elles ne soient pas utilisées à des fins autres que celles pour lesquelles elles ont été initialement collectées ou sans le consentement explicite de l’utilisateur.

Données sur les enfants

Des protections spéciales sont souvent requises pour les données des enfants, en particulier dans les environnements éducatifs ou en ligne. Des lois comme la Children’s Online Privacy Protection Act (COPPA) aux États-Unis fournissent des directives strictes sur la manière dont les informations des enfants doivent être traitées.

Évolution législative

À mesure que la technologie évolue, la législation doit également évoluer. Les défis permanents consistent notamment à adapter les lois existantes pour couvrir les nouvelles technologies et utilisations des données, à créer des normes pour des préoccupations émergentes telles que l’intelligence artificielle et l’apprentissage automatique, et à garantir que les lois suivent le rythme des évolutions internationales en matière de politique en matière de données.

Europe

L’Europe dispose de lois assez strictes en matière de protection de la vie privée et des efforts sont en cours pour renforcer davantage les droits des consommateurs. Cependant, les principes de la sphère de sécurité entre les États-Unis et l’Union européenne exposent actuellement effectivement les utilisateurs européens à l’exploitation de la vie privée par les entreprises américaines. À la suite de la divulgation par Edward Snowden de la surveillance mondiale, plusieurs discussions ont eu lieu pour révoquer cet accord, notamment parce que les données seraient entièrement exposées à la National Security Agency, et les tentatives pour parvenir à un accord ont échoué.

États-Unis

Aux États-Unis, les problèmes de confidentialité ont été résolus par le Congrès américain en adoptant des contrôles réglementaires tels que la Health Insurance Portability and Accountability Act (HIPAA). La HIPAA exige que les individus donnent leur « consentement éclairé » aux informations qu’ils fournissent et à leur utilisation actuelle et future. Selon un article paru dans Biotech Business Week, « [en pratique], la HIPAA ne peut pas offrir une meilleure protection que les réglementations de recherche en vigueur de longue date », déclare l’AAHC. Plus important encore, l’objectif de la règle de protection du consentement éclairé est compromis par la complexité des formulaires de consentement requis des patients et des participants, qui s’approchent d’un niveau élevé d’incompréhensibilité pour les individus moyens. Cela souligne la nécessité de garantir l’anonymat des données dans les pratiques d’agrégation et d’exploration de données.

Législation américaine sur la confidentialité des informations telles que la HIPAA et la loi FERPA (Family Educational Rights and Privacy Act) s’appliquent uniquement aux domaines spécifiques abordés par chacune de ces lois. L’utilisation de l’exploration de données par la plupart des entreprises aux États-Unis il n’est contrôlé par aucune législation.

Loi sur le droit d’auteur

Europe

En raison du manque de flexibilité de la législation européenne sur le droit d’auteur et sur les bases de données, l’extraction de données protégées par le droit d’auteur, comme l’exploration du Web, sans l’autorisation du titulaire du droit d’auteur n’est pas légale. Lorsqu’une base de données est constituée de données pures en Europe, il n’y a probablement pas de droit d’auteur, mais il peut y avoir des droits sur les bases de données, de sorte que l’exploitation des données est soumise aux réglementations de la directive sur les bases de données. Sur la recommandation de la revue Hargreaves, cela a conduit le gouvernement britannique à modifier sa loi sur le droit d’auteur en 2014 pour autoriser l’exploitation du contenu à titre de limitation et d’exception. Le deuxième pays au monde à le faire après le Japon, qui a introduit une exception en 2009 pour l’exploration de données. Cependant, en raison des restrictions de la directive sur le droit d’auteur, l’exception britannique autorise uniquement l’extraction de contenu à des fins non commerciales. La loi britannique sur le droit d’auteur ne permet pas non plus que cette disposition soit annulée par des conditions contractuelles. La Commission européenne a facilité les discussions des parties prenantes sur l’exploration de textes et de données en 2013 sous le titre Licences pour l’Europe. L’accent mis sur la solution à ce problème juridique par des licences plutôt que par des limitations et exceptions a conduit les représentants des universités, des chercheurs, des bibliothèques, des groupes de la société civile et des éditeurs en libre accès à quitter le dialogue avec les parties prenantes en mai 2013.

États-Unis

Contrairement à l’Europe, la nature flexible du droit d’auteur américain et en particulier la loi sur l’utilisation équitable permet d’extraire du contenu en Amérique, ainsi que dans d’autres pays d’utilisation équitable comme Israël, Taiwan et Corée du Sud, étant considéré comme légal. Étant donné que l’extraction de contenu est transformatrice, c’est-à-dire qu’elle ne remplace pas l’œuvre originale, elle est considérée comme légale en vertu d’une utilisation équitable. Par exemple, dans le cadre du règlement Google Book, le juge qui présidait l’affaire a statué que le projet de Google visant à numériser des livres protégés par le droit d’auteur était légal, en partie à cause des utilisations transformatrices que le projet de numérisation présentait, l’une étant l’extraction de texte et de données.

Conclusion

Les préoccupations législatives en matière d’exploration de données englobent un large éventail de questions, notamment la confidentialité, la sécurité et l’éthique. Si les réglementations jouent un rôle crucial dans la protection des droits individuels et la promotion de pratiques responsables en matière de données, elles doivent évoluer parallèlement aux progrès technologiques et aux changements sociétaux. Équilibrer les impératifs de l’innovation et de la confidentialité nécessite une approche multidimensionnelle impliquant les décideurs politiques, les parties prenantes de l’industrie, les organisations de la société civile et le monde universitaire. En favorisant le dialogue, la collaboration et l’innovation, nous pouvons exploiter le potentiel de transformation de l’exploration de données tout en respectant les valeurs fondamentales de confidentialité, de sécurité et d’intégrité éthique.

Bibliographie

(1) Bentley, Drew (2022). Business intelligence și analitica în afaceri. MultiMedia Publishing, ISBN 978-606-033-779-9, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu, https://www.telework.ro/ro/e-books/business-intelligence-si-analitica-in-afaceri/

(2) Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere și adaptare: Nicolae Sfetcu

(3) Srivastava J., Cooley R., Deshpande M, Tan, P-N. Discovery and Applications of Usage Patterns from Web Data ACM SIGKDD Explorations Newsletter, 2000, 1(2) 12-23

(4) Johnson, F., Gupta, S. K., Web Content Mining Techniques: A Survey, International journal of computer applications (0975-888), vol. 47, no. 11, June 2012.

(5) Tyagi N., Gupta S.K. (2018) Web Structure Mining Algorithms: A Survey. In: Aggarwal V., Bhatnagar V., Mishra D. (eds) Big Data Analytics. Advances in Intelligent Systems and Computing, vol 654. Springer, Singapore.

(6) Crimmins, F., Smeaton, A. F., Dkaki, T. and Mothe, J. TetraFusion: information discovery on the Internet. Journal of IEEExpert, pp 55-62, July 1999.

(7) Kushmerick, N. Gleaning Answers from the Web. IEEE Intelligent Systems. Vol. 14, No. 2, pp. 20-22,1999.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *