Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Procesul de minerit a datelor (Data Mining)

Procesul de minerit a datelor (Data Mining)

postat în: Data mining 0

Procesul de înțelegere a modelelor găsite în seturile mari de date este cunoscut sub numele de minerit de date. Unele dintre aspectele mineritului de date care au fost elucidate în secțiunea următoare sunt învățarea regulilor de asociere, analiza clusterelor, analiza de regresie, sumarizarea automată și exemple de minerit de date.

Mineritul datelor este un subdomeniu interdisciplinar al informaticii. Este procesul de calcul al descoperirii modelelor în seturi mari de date care implică metode la intersecția inteligenței artificiale, învățarea automată, statisticile și sistemele de baze de date. Scopul general al procesului de minerit a datelor este de a extrage informații dintr-un set de date și de a le transforma într-o structură ușor de înțeles pentru utilizare ulterioară. În afară de pasul analizei brute, acesta implică aspecte ale bazei de date și de gestionare a datelor, pre-procesare a datelor, considerente de model și inferență, metrici de interes, considerente de complexitate, post-procesare a structurilor descoperite, vizualizare și actualizare online. Exploatarea datelor este etapa de analiză a procesului „descoperirea cunoștințelor în baze de date” sau KDD (knowledge discovery in databases).

Termenul este un nume greșit, deoarece scopul este extragerea de tipare și cunoștințe din cantități mari de date, nu extragerea (mineritul) datelor în sine. De asemenea, este un cuvânt cheie și este frecvent aplicat oricărei forme de prelucrare a datelor sau informațiilor la scară largă (colectare, extracție, depozitare, analiză și statistici), precum și oricărei aplicații a sistemului de asistență a deciziilor computerizate, inclusiv inteligență artificială, învățare automată, și business intelligence. Cartea Data mining: Practical machine learning tools and techniques with Java (care acoperă în principal materialele de învățare automată) a fost numită inițial doar Practical machine learning, iar termenul data mining a fost adăugat doar din motive de marketing. Adesea termenii mai generali (la scară largă) analiza datelor și analitica – sau, atunci când se referă la metode reale, inteligența artificială și învățarea automată – sunt mai potrivite.

Sarcina reală de minerit a datelor este analiza automată sau semi-automată a unor cantități mari de date pentru a extrage tipare interesante necunoscute anterior, cum ar fi grupuri de înregistrări de date (analiza cluster), înregistrări neobișnuite (detectarea anomaliilor) și dependențe (extragerea regulilor de asociere) . Aceasta implică de obicei utilizarea tehnicilor bazei de date, cum ar fi indicii spațiali. Aceste tipare pot fi apoi văzute ca un fel de rezumat al datelor de intrare și pot fi utilizate în analize suplimentare sau, de exemplu, în învățarea automată și analiza predictivă. De exemplu, pasul de extragere a datelor ar putea identifica mai multe grupuri din date, care pot fi apoi utilizate pentru a obține rezultate de predicție mai precise de către un sistem de sprijinire a deciziilor. Nici culegerea datelor, pregătirea datelor, nici interpretarea și raportarea rezultatelor nu fac parte din etapa de minerit a datelor, dar aparțin procesului general KDD ca etape suplimentare.

Termenii asociați dragare de date, pescuitul de date și detectarea datelor se referă la utilizarea metodelor de minerit a datelor pentru a eșantiona părți dintr-un set de date cu populație mai mare care sunt (sau pot fi) prea mici pentru a se face inferențe statistice fiabile cu privire la validitatea oricăror tipare descoperite. Aceste metode pot fi, totuși, folosite în crearea de noi ipoteze pentru a testa față de populațiile mai mari de date.

Etimologie

În anii 1960, statisticienii au folosit termeni precum „Pescuitul datelor” sau „Dragarea datelor” pentru a se referi la ceea ce au considerat practica proastă a analizei datelor fără o ipoteză a priori. Termenul „Data Mining” a apărut în jurul anului 1990 în comunitatea bazelor de date. Pentru o scurtă perioadă de timp în anii 1980, a fost folosită o expresie „mineritul bazelor de date”, dar doar până când a fost înregistrată de HNC, o companie din San Diego, pentru a lansa stația de lucru pentru exploatarea bazei de date; în consecință, cercetătorii s-au orientat către „mineritul datelor”. Alți termeni folosiți includ Arheologia datelor, Recoltarea informațiilor, Descoperirea informațiilor, Extragerea cunoștințelor etc. Gregory Piatetsky-Shapiro a inventat termenul „Descoperirea cunoștințelor în bazele de date” pentru primul atelier pe același subiect (KDD-1989) și acest termen a devenit mai popular în comunitatea AI și Machine Learning. Cu toate acestea, termenul de minerit a datelor a devenit mai popular în comunitățile de afaceri și în presă. În prezent, Data Mining și Knowledge Discovery sunt utilizate în mod interschimbabil. Începând cu aproximativ 2007, termenii „Analitica predictivă” și din 2011, termenii „Știința datelor” au fost folosiți și ei pentru a descrie acest domeniu.

În comunitatea academică, principalele forumuri de cercetare au început în 1995, când a fost lansată la Montreal, sub sponsorizarea AAAI, Prima Conferință Internațională privind mineritul datelor și descoperirea cunoștințelor (KDD-95). A fost co-prezidată de Usama Fayyad și Ramasamy Uthurusamy. Un an mai târziu, în 1996, Usama Fayyad a lansat revista Kluwer numită Data Mining and Knowledge Discovery ca redactor-șef fondator. Mai târziu a început buletinul informativ SIGKDDD SIGKDD Explorations. Conferința internațională KDD a devenit prima conferință de cea mai înaltă calitate în minerit de date, cu o rată de acceptare a lucrărilor de cercetare sub 18%. The Journal Data Mining and Knowledge Discovery este jurnalul principal de cercetare din domeniu.

Fundal

Extragerea manuală a modelelor din date a avut loc de secole. Metodele timpurii de identificare a modelelor în date includ teorema lui Bayes (anii 1700) și analiza de regresie (anii 1800). Proliferarea, omniprezența și puterea crescândă a tehnologiei informatice a crescut dramatic capacitatea de colectare, stocare și manipulare a datelor. Pe măsură ce seturile de date au crescut ca dimensiune și complexitate, analiza directă „manuală” a datelor a fost crescută din ce în ce mai mult cu prelucrarea indirectă, automatizată a datelor, ajutată de alte descoperiri din domeniul informaticii, cum ar fi rețelele neuronale, analiza clusterelor, algoritmii genetici (anii 1950), arborii de decizie și regulile de decizie (anii 1960) și suportul mașinilor vectoriale (anii 1990). Mineritul datelor este procesul de aplicare a acestor metode cu intenția de a descoperi modele ascunse în seturi mari de date. Acoperă decalajul de la statistici aplicate și inteligență artificială (care oferă de obicei fundalul matematic) la gestionarea bazelor de date prin exploatarea modului în care datele sunt stocate și indexate în baze de date pentru a executa algoritmii de învățare și descoperire efectivi mai eficient, permițând ca astfel de metode să fie aplicate la seturi de date tot mai mari.

Proces

Procesul de descoperire a cunoștințelor în bazele de date (KDD) este de obicei definit cu etapele:

  1. Selecție
  2. Pre-procesare
  3. Transformare
  4. Mineritul datelor
  5. Interpretare / evaluare.

Există, totuși, multe variante pe această temă, cum ar fi Procesul standard trans-industrial pentru minerit de date (Cross Industry Standard Process for Data Mining, CRISP-DM), care definesc șase faze:

  1. Înțelegerea afacerii
  2. Înțelegerea datelor
  3. Pregătirea datelor
  4. Modelare
  5. Evaluare
  6. Implementare

sau un proces simplificat, cum ar fi (1) pre-procesare, (2) extragerea datelor și (3) validarea rezultatelor.

Sondajele efectuate în 2002, 2004, 2007 și 2014 arată că metodologia CRISP-DM este principala metodologie utilizată de minerii de date. Singurul alt standard de minerit de data numit în aceste sondaje a fost SEMMA. Cu toate acestea, de 3-4 ori mai mulți oameni au raportat utilizarea CRISP-DM. Mai multe echipe de cercetători au publicat recenzii ale modelelor de proces de extragere a datelor, iar Azevedo și Santos au efectuat o comparație între CRISP-DM și SEMMA în 2008.

Pre-procesare

Înainte de a putea utiliza algoritmi de mineritul datelor, trebuie asamblat un set de date țintă. Deoarece mineritul datelor nu poate descoperi decât modelele prezente efectiv în date, setul de date țintă trebuie să fie suficient de mare pentru a conține aceste tipare, rămânând în același timp suficient de concis pentru a fi exploatat într-un termen acceptabil. O sursă obișnuită de date este magazinul de date sau depozitul de date. Pre-procesarea este esențială pentru a analiza seturile de date multivariate înainte de extragerea datelor. Setul țintă este apoi curățat. Curățarea datelor elimină observațiile care conțin zgomot și pe cele cu date lipsă.

Mineritul datelor

Mineritul datelor implică șase clase comune de sarcini:

  • Detectarea anomaliilor (detectarea valorilor anterioare / modificării / abaterii) – Identificarea înregistrărilor de date neobișnuite, care ar putea fi interesante sau erori de date care necesită investigații suplimentare.
  • Învățarea regulilor de asociere (modelarea dependenței) – Caută relații între variabile. De exemplu, un supermarket ar putea colecta date despre obiceiurile de cumpărare ale clienților. Folosind învățarea regulilor de asociere, supermarketul poate determina ce produse sunt cumpărate frecvent împreună și poate utiliza aceste informații în scopuri de marketing. Aceasta este uneori denumită analiza coșului de piață.
  • Clustering – este sarcina de a descoperi grupuri și structuri în date care sunt într-un fel sau altul „similare”, fără a utiliza structuri cunoscute în date.
  • Clasificare – este sarcina de a generaliza structura cunoscută pentru a se aplica noilor date. De exemplu, un program de e-mail poate încerca să clasifice un e-mail ca „legitim” sau ca „spam”.
  • Regresie – încearcă să găsească o funcție care modelează datele cu cea mai mică eroare.
  • Sumarizare – oferă o reprezentare mai compactă a setului de date, inclusiv vizualizarea și generarea de rapoarte.

Validarea rezultatelor

Data Mining - Tyler Viglen(Un exemplu de date produse prin dragarea datelor printr-un bot operat de statisticianul Tyler Viglen, care arată aparent o legătură strânsă între cel mai bun cuvânt care câștigă o competiție de ortografie și numărul de oameni din Statele Unite uciși de păianjeni veninoși. Similitudinea tendințelor este, evident, o coincidență.)

Exploatarea datelor poate fi utilizată în mod neintenționat și poate produce rezultate care par a fi semnificative; dar care nu prezic de fapt un comportament viitor și nu pot fi reproduse pe un nou eșantion de date și nu folosesc prea mult. Adesea, acest lucru rezultă din investigarea prea multor ipoteze și a efectuării testării neadecvate a ipotezelor statistice. O versiune simplă a acestei probleme în învățarea automată este cunoscută sub denumirea de suprasolicitare, dar aceeași problemă poate apărea în diferite faze ale procesului și astfel o împărțire tren / test – atunci când este cazul deloc – poate să nu fie suficientă pentru a împiedica acest lucru.

Ultimul pas al descoperirii cunoștințelor din date este de a verifica dacă tiparele produse de algoritmii de extragere a datelor apar în setul de date mai larg. Nu toate tiparele găsite de algoritmii de minerit a datelor sunt neapărat valide. Este comun ca algoritmii de minerit a datelor să găsească modele în setul de instruire care nu sunt prezente în setul de date generale. Aceasta se numește suprapotrivire. Pentru a depăși acest lucru, evaluarea utilizează un set de date de testare pe care algoritmul de minerit a datelor nu a fost instruit. Modelele învățate sunt aplicate acestui set de testare, iar rezultatul obținut este comparat cu rezultatul dorit. De exemplu, un algoritm de minerit a datelor care încearcă să distingă „spam” de e-mailuri „legitime” ar fi instruit pe un set de instruire de e-mailuri eșantion. Odată instruite, modelele învățate vor fi aplicate setului de teste de e-mailuri pe care nu au fost instruite. Precizia modelelor poate fi apoi măsurată din câte e-mailuri clasifică corect. O serie de metode statistice pot fi utilizată pentru a evalua algoritmul, cum ar fi curbele ROC.

Dacă tiparele învățate nu îndeplinesc standardele dorite, ulterior este necesar să reevaluăm și să modificăm etapele de pre-procesare și de extragere a datelor. Dacă tiparele învățate îndeplinesc standardele dorite, atunci ultimul pas este interpretarea modelelor învățate și transformarea lor în cunoștințe.

Sursa: Drew Bentley, Business Intelligence and Analytics. © 2017 Library Press, Licență CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu

© 2021 MultiMedia Publishing, Business Intelligence și Analytica în afaceri, Colecția Știința Informației

Telelucru (Telework)
Telelucru (Telework)

Telelucrul, ca un nou mod de a lucra prin efectuarea unei activităţi (forme de muncă) flexibile în timp şi la distanţă, utilizând tehnologia informaţională şi comunicaţiile avansate, se concretizează în teleactivităţi şi teleservicii. În ultimii ani, s-au dezvoltat rapid noi … Citeşte mai mult

Nu a fost votat 0.00 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 3.456.21 Selectează opțiunile
Big Data
Big Data

Odată cu creșterea volumului de date pe Internet, în media socială, cloud computing, dispozitive mobile și date guvernamentale, Big Data devine în același timp o amenințare și o oportunitate în ceea ce privește gestionarea și utilizarea acestor date, menținând în … Citeşte mai mult

Nu a fost votat 2.586.04 Selectează opțiunile

Faci un comentariu sau dai un răspuns?

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *