Mineritul datelor (Data mining) este un proces de extragere și descoperire a modelelor în seturi mari de date care implică metode la intersecția sistemelor de învățare automată, statistici și baze de date. Mineritul datelor este un subdomeniu interdisciplinar al informaticii și statisticii, cu scopul general de a extrage informații (cu metode inteligente) dintr-un set de date și de a transforma informațiile într-o structură ușor de înțeles pentru utilizare ulterioară. Mineritul datelor este etapa de analiză a procesului „descoperirea cunoștințelor în baze de date” sau KDD (knowledge discovery in databases). În afară de pasul analizei brute, aceasta implică, de asemenea, aspecte de bază de date și de gestionare a datelor, pre-procesare a datelor, considerente de model și inferență, valori interesante, considerente de complexitate, post-procesare a structurilor descoperite, vizualizare și actualizare online.
Termenul „mineritul datelor” este un termen oarecum greșit, deoarece scopul este extragerea de tipare și cunoștințe din cantități mari de date, nu extragerea (mineritul) de date în sine. De asemenea, este un cuvânt popular și este frecvent aplicat oricărei forme de prelucrare a datelor sau informațiilor la scară largă (colectare, extracție, depozitare, analiză și statistici), precum și oricărei aplicații a sistemului de asistență decizională pe computer, inclusiv a inteligenței artificiale ( de exemplu, învățarea automată) și business intelligence. Cartea Data mining: Practical machine learning tools and techniques with Java (care acoperă în principal materialele de învățare automată) a fost numită inițial doar Practical machine learning, iar termenul data mining a fost adăugat doar din motive de marketing. Adesea termenii mai generali analitica și analiza datelor (la scară largă) – sau, atunci când se referă la metode reale, inteligența artificială și învățarea automată – sunt mai potrivite.
Sarcina reală de minerit a datelor este analiza semi-automată sau automată a unor cantități mari de date pentru a extrage modele interesante necunoscute anterior, cum ar fi grupuri de înregistrări de date (analiza clusterelor), înregistrări neobișnuite (detectarea anomaliilor) și dependențe (mineritul regulilor de asociere, mineritul modelelor secvențiale). Aceasta implică de obicei utilizarea tehnicilor bazelor de date, cum ar fi indicii spațiali. Aceste tipare pot fi apoi văzute ca un fel de rezumat al datelor de intrare și pot fi utilizate în analize suplimentare sau, de exemplu, în învățarea automată și analiza predictivă. De exemplu, pasul de minerit a datelor ar putea identifica mai multe grupuri din date, care pot fi apoi utilizate pentru a obține rezultate de predicție mai precise de către un sistem de sprijinire a deciziilor. Nici colectarea datelor, pregătirea datelor, nici interpretarea și raportarea rezultatelor nu fac parte din etapa de minerit a datelor, dar aparține procesului general KDD ca etape suplimentare.
Diferența dintre analiza datelor și mineritul datelor este că analiza datelor este utilizată pentru a testa modele și ipoteze asupra setului de date, de exemplu, analizând eficacitatea unei campanii de marketing, indiferent de cantitatea de date; în schimb, mineritul datelor folosește învățarea automată și modele statistice pentru a descoperi modele clandestine sau ascunse într-un volum mare de date.
Termenii asociați dragarea datelor, pescuitul datelor și detectarea datelor se referă la utilizarea metodelor de minerit a datelor pentru a preleva probe de părți dintr-un set de date cu populație mai mare care sunt (sau pot fi) prea mici pentru a se face inferențe statistice fiabile cu privire la validitatea oricărui tipare descoperite. Aceste metode pot fi, totuși, folosite în crearea de noi ipoteze pentru a testa față de populațiile mai mari de date.
Etimologie
În anii 1960, statisticienii și economiștii au folosit termeni precum pescuitul datelor sau dragarea datelor pentru a se referi la ceea ce au considerat practica proastă a analizei datelor fără o ipoteză a priori. Termenul „minerit de date” a fost folosit într-un mod similar critic de economistul Michael Lovell într-un articol publicat în Review of Economic Studies în 1983. Lovell indică faptul că practica „se maschează sub o varietate de pseudonime, variind de la „experimentare” (pozitivă) la „pescuit” sau „spionaj” (negativ).”
Termenul minerit de date a apărut în jurul anului 1990 în comunitatea bazelor de date, în general cu conotații pozitive. Pentru o scurtă perioadă de timp în anii 1980, a fost folosită o expresie „mineritul bazelor de date” ™, dar, din moment ce a fost înregistrată de HNC, o companie din San Diego, pentru a lansa Database Mining Workstation, cercetătorii au apelat, în consecință, la mineritul datelor. Alți termeni utilizați includ arheologia datelor, recoltarea informațiilor, descoperirea informațiilor, extragerea cunoștințelor etc. Gregory Piatetsky-Shapiro a inventat termenul „descoperirea cunoștințelor în baze de date” (”knowledge discovery in databases”) pentru primul atelier pe același subiect (KDD-1989) și acest termen a devenit mai popular în comunitatea AI și de învățare automată. Cu toate acestea, termenul de mineritul datelor a devenit mai popular în comunitățile de afaceri și de presă. În prezent, termenii mineritul datelor și descoperirea cunoștințelor sunt folosiți în mod interschimbabil.
În comunitatea academică, principalele forumuri de cercetare au început în 1995, când a fost lansată la Montreal, sub sponsorizarea AAAI, Prima Conferință Internațională privind mineritul datelor și descoperirea cunoștințelor (KDD-95). A fost co-prezidată de Usama Fayyad și Ramasamy Uthurusamy. Un an mai târziu, în 1996, Usama Fayyad a lansat revista Kluwer numită Data Mining and Knowledge Discovery ca redactor-șef fondator. Mai târziu a început SIGKDD Newsletter SIGKDD Explorations. Conferința internațională KDD a devenit prima conferință de cea mai înaltă calitate în minerit de date, cu o rată de acceptare a trimiterilor de lucrări de cercetare sub 18%. Revista Data Mining and Knowledge Discovery este jurnalul principal de cercetare din domeniu.
Fundal
Extragerea manuală a modelelor din date a avut loc de secole. Metodele timpurii de identificare a modelelor în date includ teorema lui Bayes (anii 1700) și analiza regresiei (anii 1800). Proliferarea, omniprezența și puterea crescândă a tehnologiei computerelor au sporit dramatic capacitatea de colectare, stocare și manipulare a datelor. Pe măsură ce seturile de date au crescut ca dimensiune și complexitate, analiza directă a datelor a fost sporită din ce în ce mai mult cu prelucrarea indirectă și automatizată a datelor, ajutată de alte descoperiri în informatică, în special în domeniul învățării automate, cum ar fi rețelele neuronale, analiza clusterelor, algoritmi genetici (anii 1950), arbori de decizie și reguli de decizie (anii 1960) și mașini vectoriale de sprijin (anii 1990). Mineritul datelor este procesul de aplicare a acestor metode cu intenția de a descoperi tipare ascunse în seturi mari de date. Acoperă decalajul de la statistici aplicate și inteligență artificială (care oferă de obicei fundalul matematic) la gestionarea bazelor de date prin exploatarea modului în care datele sunt stocate și indexate în baze de date pentru a executa algoritmii de învățare și descoperire efectivi mai eficient, permițând astfel de metode să fie aplicate la seturi de date tot mai mari.
Proces
Procesul de descoperire a cunoștințelor în bazele de date (KDD) este de obicei definit cu etapele:
- Selecţie
- Pre-procesare
- Transformare
- Exploatarea datelor
- Interpretare / evaluare.
Există, totuși, multe variante pe această temă, cum ar fi procesul standard pentru industria de minierit a datelor (CRISP-DM) care definește șase etape:
- Înțelegerea afacerii
- Înțelegerea datelor
- Pregătirea datelor
- Modelare
- Evaluare
- Implementare
sau un proces simplificat, cum ar fi (1) pre-procesare, (2) extragerea datelor și (3) validarea rezultatelor.
Sondajele efectuate în 2002, 2004, 2007 și 2014 arată că metodologia CRISP-DM este principala metodologie utilizată de minerii de date. Singurul alt standard de data mining numit în aceste sondaje a fost SEMMA. Cu toate acestea, de 3-4 ori mai mulți oameni au raportat utilizarea CRISP-DM. Mai multe echipe de cercetători au publicat recenzii ale modelelor de proces de extragere a datelor, iar Azevedo și Santos au efectuat o comparație între CRISP-DM și SEMMA în 2008.
Pre-procesare
Înainte de a putea utiliza algoritmi de extragere a datelor, trebuie asamblat un set de date țintă. Deoarece exploatarea datelor poate descoperi doar modelele prezente efectiv în date, setul de date țintă trebuie să fie suficient de mare pentru a conține aceste tipare, rămânând în același timp suficient de concis pentru a fi exploatat într-un termen acceptabil. O sursă obișnuită pentru date este data mart sau un depozit de date. Pre-procesarea este esențială pentru a analiza seturile de date multivariate înainte de extragerea datelor. Setul țintă este apoi curățat. Curățarea datelor elimină observațiile care conțin zgomot și pe cele cu date lipsă.
Minarea datelor
Minarea datelor implică șase clase comune de sarcini:
- Detectarea anomaliilor (depășire / detectare modificări / devieri) – Identificarea înregistrărilor de date neobișnuite, care ar putea fi interesante sau erori de date care necesită investigații suplimentare.
- Învățarea regulilor de asociere (modelarea dependenței) – Căutări de relații între variabile. De exemplu, un supermarket ar putea colecta date despre obiceiurile de cumpărare ale clienților. Folosind învățarea regulilor de asociere, supermarketul poate determina ce produse sunt cumpărate frecvent împreună și poate utiliza aceste informații în scopuri de marketing. Aceasta este uneori denumită analiza coșului de piață.
- Clustering – este sarcina de a descoperi grupuri și structuri în date care sunt într-un fel sau altul „similare”, fără a utiliza structuri cunoscute în date.
- Clasificare – este sarcina de a generaliza structura cunoscută pentru a se aplica noilor date. De exemplu, un program de e-mail poate încerca să clasifice un e-mail ca „legitim” sau ca „spam”.
- Regresie – încearcă să găsească o funcție care modelează datele cu cea mai mică eroare, pentru estimarea relațiilor dintre date sau seturi de date.
- Rezumare – oferind o reprezentare mai compactă a setului de date, inclusiv vizualizarea și generarea de rapoarte.
Validarea rezultatelor
Mineritul datelor poate fi utilizată în mod neintenționat și poate produce rezultate care par a fi semnificative; dar care nu prezic de fapt un comportament viitor și nu pot fi reproduse pe un nou eșantion de date și nu folosesc prea mult. Adesea, acest lucru rezultă din investigarea a prea multe ipoteze și a efectuării unei testări statistice adecvate. O versiune simplă a acestei probleme în învățarea automată este cunoscută sub denumirea de overfitting (suprapotrivire), dar aceeași problemă poate apărea în diferite faze ale procesului și, prin urmare, o împărțire tren / test – când este cazul, poate să nu fie suficientă pentru a împiedica acest lucru.
Ultimul pas al descoperirii cunoștințelor din date este de a verifica dacă tiparele produse de algoritmii de extragere a datelor apar în setul de date mai larg. Nu toate tiparele găsite de algoritmii de extragere a datelor sunt neapărat valide. Este obișnuit ca algoritmii de extragere a datelor să găsească modele în setul de instruire care nu sunt prezente în setul general de date. Acest lucru se numește overfitting. Pentru a depăși acest lucru, evaluarea utilizează un set de date de test pe care algoritmul de extragere a datelor nu a fost instruit. Modelele învățate sunt aplicate acestui set de testare, iar rezultatul obținut este comparat cu rezultatul dorit. De exemplu, un algoritm de extragere a datelor care încearcă să distingă „spam” de e-mailuri „legitime” ar fi instruit pe un set de instruire de e-mailuri eșantion. Odată instruiți, modelele învățate vor fi aplicate setului de teste de e-mailuri pe care nu au fost instruiți. Precizia modelelor poate fi apoi măsurată din câte e-mailuri clasifică corect. Mai multe metode statistice pot fi utilizate pentru a evalua algoritmul, cum ar fi curbele ROC.
Dacă tiparele învățate nu îndeplinesc standardele dorite, ulterior este necesar să reevaluăm și să modificăm etapele de pre-procesare și de extragere a datelor. Dacă tiparele învățate îndeplinesc standardele dorite, atunci ultimul pas este interpretarea modelelor învățate și transformarea lor în cunoștințe.
Cercetare
Principalul organism profesional din domeniu este Grupul de interes special (SIG) al Asociației pentru Mașini de Calculat (ACM) pentru descoperirea cunoștințelor și extragerea datelor (SIGKDD). Din 1989, ACM SIG a găzduit o conferință internațională anuală și și-a publicat lucrările, iar din 1999 a publicat o revistă academică semestrială intitulată „SIGKDD Explorations”.
Conferințele de informatică privind mineritul datelor includ:
- CIKM Conference – ACM Conference on Information and Knowledge Management
- Conferința europeană privind învățarea automată și principiile și practica descoperirii cunoștințelor în bazele de date
- Conferința KDD – Conferința ACM SIGKDD despre descoperirea cunoștințelor și mineritul datelor
Subiectele mineritului date sunt, de asemenea, prezente la multe conferințe de gestionare a datelor / baze de date, cum ar fi Conferința ICDE, Conferința SIGMOD și Conferința internațională pe baze de date foarte mari
Standarde
S-au depus unele eforturi pentru a defini standarde pentru procesul de minerit a datelor, de exemplu, Procesul standard european pentru industria mineritului de date (CRISP-DM 1.0) din 1999 și standardul Java Data Mining din 2004 (JDM 1.0). Dezvoltarea succesorilor acestor procese (CRISP-DM 2.0 și JDM 2.0) a fost activă în 2006, dar de atunci a stagnat. JDM 2.0 a fost retras fără a ajunge la un proiect final.
Pentru schimbul de modele extrase – în special pentru utilizarea în analiza predictivă – standardul cheie este Predictive Model Markup Language (PMML), care este un limbaj bazat pe XML dezvoltat de Data Mining Group (DMG) și acceptat ca format de schimb de mulți aplicații de extragere a datelor. După cum sugerează și numele, acoperă doar modele de predicție, o anumită sarcină de extragere a datelor de mare importanță pentru aplicațiile de afaceri. Cu toate acestea, extensiile pentru a acoperi (de exemplu) gruparea subspațiu au fost propuse independent de DMG.
Utilizări notabile
Mineritul datelor este utilizată oriunde există date digitale disponibile astăzi. Exemple notabile de exploatare a datelor pot fi găsite în toate afacerile, medicină, știință și supraveghere.
Include texte traduse din Wikipedia
Lasă un răspuns