Cercetare
Cel mai important organism profesional în domeniu este Grupul de interes special (SIG) al Asociației pentru Mașini de Calcul (ACM) pentru descoperirea cunoștințelor și extragerea datelor (SIGKDD). Din 1989, acest ACM SIG a găzduit o conferință internațională anuală și și-a publicat lucrările, iar din 1999 a publicat un jurnal academice bianual intitulată „SIGKDD Explorations”.
Conferințele de informatică despre data mining includ:
- CIKM Conference – ACM Conference on Information and Knowledge Management
- Conferința DMIN – Conferința internațională privind minarea datelor
- Conferința DMKD – Probleme de cercetare privind extragerea datelor și descoperirea cunoștințelor
- DSAA Conference – IEEE International Conference on Data Science and Advanced Analytics
- Conferința ECDM – Conferința europeană pentru extragerea datelor
- Conferința ECML-PKDD – Conferința europeană privind învățarea automată și principiile și practica descoperirii cunoștințelor în baze de date
- Conferința EDM – Conferința internațională privind extragerea datelor educaționale
- Conferința INFOCOM – IEEE INFOCOM
- Conferința ICDM – IEEE International Conference on Data Mining
- KDD Conference – ACM SIGKDD Conference on Knowledge Discovery and Data Mining
- MLDM Conference – Machine Learning și Data Mining în Pattern Recognition
- Conferința PAKDD – Conferința anuală Pacific-Asia privind descoperirea cunoștințelor și exploatarea datelor
- Conferința PAW – Predictive Analytics World
- SDM Conference – SIAM International Conference on Data Mining (SIAM)
- Simpozion SSTD – Simpozion despre baze de date spațiale și temporale
- WSDM Conference – ACM Conference on Web Search and Data Mining
Subiectele de mineritul datelor sunt, de asemenea, prezente în multe conferințe de gestionare a datelor/baze de date, cum ar fi ICDE Conference, SIGMOD Conference și International Conference on Very Large Data Bases.
Standarde
Au existat unele eforturi pentru a defini standarde pentru procesul de minerit a datelor, de exemplu Procesul standard european interindustrial pentru extragerea datelor din 1999 (CRISP-DM 1.0) și standardul Java Data Mining din 2004 (JDM 1.0). Dezvoltarea succesorilor acestor procese (CRISP-DM 2.0 și JDM 2.0) a fost activă în 2006, dar a stagnat de atunci. JDM 2.0 a fost retras fără a ajunge la o versiune finală.
Pentru schimbul de modele de extragere – în special pentru utilizarea în analiza predictivă – standardul cheie este Predictive Model Markup Language (PMML), care este un limbaj bazat pe XML dezvoltat de Data Mining Group (DMG) și acceptat ca format de schimb de multe aplicanții de minerit a datelor. După cum sugerează și numele, acesta acoperă doar modelele de predicție, o sarcină specială de minerit a datelor de mare importanță pentru aplicațiile de afaceri. Cu toate acestea, extensii pentru a acoperi (de exemplu) gruparea subspațială au fost propuse independent de DMG.
Utilizări notabile
Mineritul datelor este folosit oriunde există date digitale disponibile astăzi. Exemple notabile de extragere a datelor pot fi găsite în afaceri, medicină, știință și supraveghere.
Preocupări privind confidențialitatea și etica
În timp ce termenul „data mining” în sine nu are implicații etice, el este adesea asociat cu mineritul de informații în legătură cu comportamentul oamenilor (etic și de altă natură).
Modalitățile în care extragerea datelor poate fi utilizată, în unele cazuri și contextele, pot ridica întrebări cu privire la confidențialitate, legalitate și etică. În special, seturile de date guvernamentale sau comerciale de extragere a datelor în scopuri de securitate națională sau de aplicare a legii, cum ar fi Programul de conștientizare totală a informațiilor sau în ADVISE, au ridicat probleme legate de confidențialitate.
Mineritul datelor necesită pregătirea datelor care pot descoperi informații sau modele care pot compromite confidențialitatea și obligațiile de confidențialitate. O modalitate obișnuită de a se produce acest lucru este prin agregarea datelor. Agregarea datelor implică combinarea datelor împreună (posibil din diverse surse) într-un mod care să faciliteze analiza (dar care ar putea, de asemenea, să facă identificarea datelor private, la nivel individual, deductibilă sau evidentă). Acesta nu este data mining în sine, ci un rezultat al pregătirii datelor înainte de – și în scopul – analizei. Amenințarea la adresa confidențialității unei persoane intră în joc atunci când datele, odată compilate, determină minerul de date sau ca oricine care are acces la setul de date nou compilat să poată identifica anumite persoane, mai ales când datele au fost inițial anonime.
Se recomandă ca o persoană să fie informată despre următoarele înainte de colectarea datelor:
- scopul colectării datelor și al oricăror proiecte (cunoscute) de minerit a datelor;
- cum vor fi utilizate datele;
- cine va putea să extragă datele și să utilizeze datele și derivatele acestora;
- starea securității în jurul accesului la date;
- cum pot fi actualizate datele colectate.
De asemenea, datele pot fi modificate pentru a deveni anonime, astfel încât persoanele fizice să nu fie ușor identificate. Cu toate acestea, chiar și seturile de date „de-identificate”/”anonimizate” pot conține suficiente informații pentru a permite identificarea persoanelor, așa cum s-a întâmplat atunci când jurnaliștii au reușit să găsească mai multe persoane pe baza istoriei unui set de căutare care au fost lansate din greșeală de AOL.
Dezvăluirea din neatenție a informațiilor de identificare personală care conduc la furnizor încalcă Practicile corecte de informare. Această indiscreție poate provoca vătămări financiare, emoționale sau corporale persoanei indicate. Într-un caz de încălcare a confidențialității, patronii Walgreens au intentat un proces împotriva companiei în 2011 pentru vânzarea de informații pe bază de rețetă companiilor de minerit a datelor care, la rândul lor, au furnizat datele companiilor farmaceutice.
Situația din Europa
Europa are legi destul de puternice privind confidențialitatea și se depun eforturi pentru a consolida în continuare drepturile consumatorilor. Cu toate acestea, Principiile Safe Harbor U.S.-E.U. expun în prezent efectiv utilizatorii europeni la exploatarea confidențialității de către companiile din SUA. Ca o consecință a dezvăluirii privind supravegherea globală a lui Edward Snowden, au existat mai multe discuții pentru revocarea acestui acord, deoarece, în special, datele vor fi expuse pe deplin Agenției Naționale de Securitate, iar încercările de a ajunge la un acord au eșuat.
Situația în Statele Unite
În Statele Unite, problemele legate de confidențialitate au fost abordate de Congresul SUA prin adoptarea unor controale de reglementare, cum ar fi Legea privind portabilitatea și responsabilitatea asigurărilor de sănătate (HIPAA). HIPAA cere persoanelor să-și dea „consimțământul informat” cu privire la informațiile pe care le furnizează și la utilizările prezente și viitoare ale acestora. Potrivit unui articol din Biotech Business Week, „[în practică], HIPAA nu poate oferi o protecție mai mare decât reglementările îndelungate din domeniul cercetării”, spune AAHC. Mai important, scopul regulii de protecție prin consimțământul informat este subminat de complexitatea formelor de consimțământ care sunt solicitate pacienților și participanților, care se apropie de un nivel de incomprehensibilitate ridicat pentru indivizii medii.” Acest lucru subliniază necesitatea anonimatului datelor în practicile de agregare și extragere a datelor.
Legislația S.U.A. privind confidențialitatea informațiilor, cum ar fi HIPAA și Family Educational Rights and Privacy Act (FERPA) se aplică numai domeniilor specifice pe care le abordează fiecare astfel de lege. Utilizarea mineritului de date de către majoritatea companiilor din S.U.A. nu este controlată de nicio legislație.
Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu
© 2021 MultiMedia Publishing, Business Intelligence și Analytica în afaceri, Colecția Știința Informației
Lasă un răspuns