Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Modelarea, evaluarea și implementarea datelor în mineritul de date cu RapidMiner

Modelarea, evaluarea și implementarea datelor în mineritul de date cu RapidMiner

postat în: Data mining 0

MODELARE

3) Reveniți la perspectiva designului (https://www.telework.ro/ro/mineritul-datelor-in-intelegerea-pietelor-cu-rapidminer/). În fila Operators din colțul din stânga jos, folosiți caseta de căutare și începeți să introduceți cuvântul correlation. Instrumentul pe care îl căutăm se numește Correlation Matrix. Este posibil să îl găsiți chiar înainte de a termina de tastat întregul termen de căutare. După ce l-ați localizat, trageți-l în fereastra procesului și plasați-l în fluxul dvs. În mod implicit, portul exa se va conecta la portul res, dar în exemplul acestui capitol ne interesează să creăm o matrice de coeficienți de corelație pe care să o putem analiza. Astfel, este important pentru dvs. să conectați portul mat (matrice) la un port res, așa cum este ilustrat în Figura 4-3.

Figura 4-3. Adăugarea unei matrice de corelație la fluxul nostru, cu portul mat (matrice) conectat la un port (res) al setului de rezultate.

4) Corelația este un instrument de analiză statistică relativ simplu, așa că sunt puțini parametri de modificat. Vom accepta valorile implicite și vom rula modelul. Rezultatele vor fi similare cu Figura 4-4.

Figura 4-4. Rezultatele unei matrice de corelație.

5) În Figura 4-4, avem coeficienții de corelație într-o matrice. Coeficienții de corelație sunt relativ ușor de descifrat. Ele sunt pur și simplu o măsură a puterii relației dintre fiecare set posibil de atribute din setul de date. Deoarece avem șase atribute în acest set de date, matricea noastră are șase coloane lățime și șase rânduri înălțime. În locația în care un atribut se intersectează cu el însuși, coeficientul de corelație este „1”, deoarece totul în comparație cu el însuși are o relație perfectă de potrivire. Toate celelalte perechi de atribute vor avea un coeficient de corelație mai mic de unu. Pentru a complica puțin lucrurile, coeficienții de corelație pot fi de fapt și negativi, astfel încât toți coeficienții de corelație vor scădea undeva între -1 și 1. Putem vedea că acesta este cazul în Figura 4-4 și, prin urmare, putem a trece acum la pasul CRISP-DM de…

EVALUARE

Toți coeficienții de corelație între 0 și 1 reprezintă corelații pozitive, în timp ce toți coeficienții între 0 și -1 sunt corelații negative. Deși acest lucru poate părea simplu, trebuie făcută o distincție importantă atunci când interpretați valorile matricei. Această distincție are de-a face cu direcția de mișcare dintre cele două atribute analizate. Să luăm în considerare relația dintre atributul Heating_Oil consumption și atributul Insulation rating level. Coeficientul de acolo, așa cum se vede în matricea noastră din Figura 4-4, este 0,736. Acesta este un număr pozitiv și, prin urmare, o corelație pozitivă. Dar ce înseamnă asta? Corelațiile care sunt pozitive înseamnă că, pe măsură ce valoarea unui atribut crește, crește și valoarea celuilalt atribut. Dar, o corelație pozitivă înseamnă și că, pe măsură ce valoarea unui atribut scade, scade și cea a celuilalt. Analiștii de date fac uneori greșeala când cred că există o corelație negativă dacă valorile unui atribut sunt în scădere, dar dacă și valorile atributului corespunzător sunt în scădere corelația este încă una pozitivă. Acest lucru este ilustrat în Figura 4-5.

Ori de câte ori ambele valori ale atributelor se mișcă în aceeași direcție, corelația este pozitivă.

Figura 4-5. Ilustrarea corelațiilor pozitive.

În continuare, luați în considerare relația dintre atributul Temperature și atributul de Insulation rating. În matricea noastră din Figura 4-4, vedem că coeficientul de acolo este -0,794. În acest exemplu, corelația este negativă, așa cum este ilustrat în Figura 4-6.

Ori de câte ori valorile atributelor se deplasează în direcții opuse, corelația este negativă.

Figura 4-6. Ilustrarea corelațiilor negative.

Deci coeficienții de corelație ne spun ceva despre relația dintre atribute, iar acest lucru este util, dar ne spun și ceva despre puterea corelației. După cum s-a menționat anterior, toate corelațiile vor fi cuprinse între 0 și 1 sau 0 și -1. Cu cât un coeficient de corelație este mai aproape de 1 sau de -1, cu atât este mai puternic. Figura 4-7 ilustrează puterea corelației de-a lungul continuumului de la -1 la 1.

Figura 4-7. Punctele forte ale corelației între -1 și 1.

RapidMiner încearcă să ne ajute să recunoaștem punctele forte ale corelației prin codificarea culorilor. În matricea din Figura 4-4, putem observa că unele dintre celule sunt colorate cu nuanțe de violet în culori gradate, pentru a le evidenția mai puternic pe cele cu corelații mai puternice. Este important să recunoașteți că acestea sunt doar reguli generale și nu reguli stricte. Un coeficient de corelație în jurul valorii de 0,2 arată o anumită interacțiune între atribute, chiar dacă nu este semnificativ statistic. Acest lucru trebuie reținut atunci când trecem la…

IMPLEMENTARE

Conceptul de implementare în data mining înseamnă să faci ceva cu ceea ce ai învățat din modelul tău; luând unele măsuri pe baza a ceea ce vă spune modelul. În exemplul acestui capitol, am efectuat o analiză de bază exploratorie pentru exemplul nostru fictiv, Sarah. Există mai multe rezultate posibile din această investigație.

Am aflat prin investigația noastră că cele două atribute cele mai puternic corelate din setul nostru de date sunt Heating_Oil și Avg_Age, cu un coeficient de 0,848. Astfel, știm că în acest set de date, pe măsură ce vârsta medie a ocupanților unei locuințe crește, la fel crește și utilizarea combustibilului de încălzire în acea casă. Ceea ce nu știm este de ce se întâmplă asta. Analiștii de date fac adesea greșeala de a interpreta corelația ca o cauzalitate. Presupunerea că acea corelație dovedește cauzalitate este periculoasă și adesea falsă.

Luați în considerare pentru un moment coeficientul de corelație dintre Avg_Age și Temperature: -0,673. Revenind la Figura 4-7, vedem că aceasta este considerată a fi o corelație negativă relativ puternică. Pe măsură ce vârsta locuitorilor unei case crește, temperatura medie de afară scade; iar pe măsură ce temperatura crește, vârsta oamenilor din interior scade. Dar ar putea vârsta medie a ocupanților unei case să aibă vreun efect asupra temperaturii medii anuale exterioare a acelei case? Cu siguranță nu. Dacă ar fi, am putea controla temperatura pur și simplu mutând oameni de diferite vârste în și din case. Desigur, este o prostie. Deși din punct de vedere statistic, există o corelație între aceste două atribute în setul nostru de date, nu există niciun motiv logic ca mișcarea într-unul să provoace mișcare în celălalt. Relația este probabil întâmplătoare, dar dacă nu, trebuie să existe o altă explicație pe care modelul nostru nu o poate oferi. Astfel de limitări trebuie recunoscute și acceptate în toate deciziile de implementare a mineritului de date.

O altă interpretare falsă despre corelații este că coeficienții sunt procente, ca și cum ar fi să spunem că un coeficient de corelație de 0,776 între două atribute este un indiciu că există o variabilitate partajată de 77,6% între aceste două atribute. Acest lucru nu este corect. În timp ce coeficienții spun o poveste despre variabilitatea partajată între atribute, formula matematică de bază utilizată pentru a calcula coeficienții de corelare măsoară doar puterea, așa cum este indicată de apropierea de 1 sau -1, a interacțiunii dintre atribute. Nici un procent nu este calculat sau intenționat.

Cu acești parametri de interpretare explicați, pot exista mai multe lucruri pe care Sarah le poate face pentru a lua măsuri pe baza modelului nostru. Câteva opțiuni ar putea include:

  • Scăderea atributului Num_Occupants. În timp ce numărul de persoane care locuiesc într-o casă ar putea părea în mod logic o variabilă care ar influența consumul de energie, în modelul nostru nu a corelat în mod semnificativ cu nimic altceva. Uneori, există atribute care nu se dovedesc a fi foarte interesante.
  • Investigarea rolului izolației casei. Atributul de evaluare a izolației a fost corelat destul de strâns cu o serie de alte atribute. Este posibil să existe o oportunitate de a colabora cu o companie (sau să înființezi una…?) care este specializată în adăugarea de izolație la casele existente. Dacă este interesată să contribuie la conservare, să lucreze la o promovare de marketing pentru a arăta beneficiile adăugării de izolație la o casă ar putea fi o cale de acțiune bună, dar dacă dorește să continue să vândă cât mai mult combustibil de încălzire, poate să se simtă în conflict cu privire la participarea la o astfel de campanie.
  • Adăugarea unei granularități mai mari în setul de date. Acest set de date a dat niște rezultate interesante, dar, sincer, este destul de general. Am folosit temperaturile medii anuale și numărul total anual de unități cu combustibil de încălzire în acest model. Dar știm, de asemenea, că temperaturile fluctuează de-a lungul anului în majoritatea zonelor lumii și, prin urmare, măsurile lunare sau chiar săptămânale nu numai că ar putea arăta rezultate mai detaliate ale cererii și utilizării în timp, dar corelațiile dintre atribute ar fi probabil mai interesant. După modelul nostru, Sarah știe acum cum anumite atribute interacționează unele cu altele, dar în treburile de zi cu zi de a-și face treaba, probabil că va dori să știe despre utilizarea pe perioade de timp mai scurte de un an.
  • Adăugarea de atribute suplimentare la setul de date. S-a dovedit că numărul de ocupanți ai casei nu se corela prea mult cu alte atribute, dar asta nu înseamnă că alte atribute ar fi la fel de neinteresante. De exemplu, ce se întâmplă dacă Sarah ar avea acces la numărul de cuptoare și/sau cazane din fiecare casă? Home_size a fost ușor corelat cu utilizarea de Heating_Oil, așa că poate că numărul de instrumente care consumă combustibil de încălzire în fiecare casă ar spune o poveste interesantă sau cel puțin ar contribui la înțelegerea ei.

Sarah ar fi, de asemenea, înțelept să rețină că abordarea CRISP-DM este de natură ciclică. În fiecare lună, pe măsură ce apar comenzi noi și facturi noi, pe măsură ce clienții noi se înscriu pentru un cont de combustibil de încălzire, există date suplimentare disponibile pentru a le adăuga în model. Pe măsură ce învață mai multe despre modul în care fiecare atribut din setul său de date interacționează cu ceilalți, ea poate crește modelul nostru de corelare adăugând nu numai atribute noi, ci și observații noi.

REZUMATUL CAPITOLULUI

Acest capitol a introdus conceptul de corelare ca model de data mining. A fost ales ca primul model pentru această carte deoarece este relativ simplu de construit, rulat și interpretat, servind astfel ca un punct de plecare ușor pe care să construiți. Viitoarele modele vor deveni mai complexe, dar continuarea dezvoltării abilităților în RapidMiner și familiarizarea cu instrumentele va face ca modelele mai complexe să fie mai ușor de realizat pe măsură ce avansăm.

Amintiți-vă din Capitolul 1 (Figura 1-2) că data mining are două părți oarecum interconectate: Clasificare și Predicție. S-a demonstrat că corelația este în primul rând din partea clasificării. Nu deducem cauzalitate folosind valori de corelație și nici nu folosim coeficienți de corelație pentru a prezice valoarea unui atribut pe baza altuia. Cu toate acestea, putem găsi rapid tendințe generale în seturile de date folosind corelații și putem anticipa cât de puternic va avea loc o mișcare observată într-un atribut împreună cu mișcarea în altul.

Corelația poate fi o modalitate rapidă și ușoară de a vedea cum elementele unei anumite probleme pot interacționa unele cu altele. Ori de câte ori vă întrebați cum interacționează anumiți factori dintr-o problemă pe care încercați să o rezolvați, luați în considerare construirea unei matrice de corelație pentru a afla. De exemplu, se schimbă satisfacția clienților în funcție de perioada anului? Cantitatea de precipitații modifică prețul unei culturi? Venitul gospodăriei influențează restaurantele pe care le frecventează o persoană? Răspunsul la fiecare dintre aceste întrebări este probabil „da”, dar corelarea nu numai că ne poate ajuta să știm dacă este adevărat, ci ne poate ajuta și să aflăm cât de puternice sunt interacțiunile când și dacă au loc.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $4.99$11.99 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2.99$5.24 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0.00$2.35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *