Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » RapidMiner pentru mineritul datelor (Data Mining): Importarea datelor și gestionarea datelor lipsă

RapidMiner pentru mineritul datelor (Data Mining): Importarea datelor și gestionarea datelor lipsă

postat în: Data mining 0

Prima noastră sarcină în pregătirea datelor este să gestionăm datele lipsă; totuși, deoarece aceasta va fi prima dată când folosim RapidMiner, primii câțiva pași vor implica configurarea RapidMiner. Apoi vom trece direct în gestionarea datelor lipsă. Datele lipsă sunt date care nu există într-un set de date. După cum puteți vedea în Figura 3-5, datele lipsă nu sunt același lucru cu zero sau cu altă valoare. Este necompletat, iar valoarea este necunoscută. Datele lipsă sunt uneori cunoscute în lumea bazelor de date ca nul. În funcție de obiectivul dvs. în data mining, puteți alege să lăsați datele lipsă așa cum sunt sau s-ar putea să doriți să înlocuiți datele lipsă cu o altă valoare.

 Figura 3-5: Câteva date lipsă din setul de date ale sondajului.

Crearea vederilor este o modalitate prin care datele dintr-o bază de date relațională pot fi adunate și organizate în pregătirea activităților de minerit a datelor. În acest exemplu, vizualizarea bazei de date are date lipsă într-un număr de atribute. Săgețile negre indică câteva dintre aceste atribute în Figura 3-5 de mai sus. În unele cazuri, datele lipsă nu reprezintă o problemă, ci sunt așteptate. De exemplu, în atributul Altă rețea socială, este absolut posibil ca respondentul la sondaj să nu fi indicat că folosește alte site-uri de rețele sociale decât cele specificate în sondaj. Astfel, datele lipsă sunt probabil exacte și acceptabile. Pe de altă parte, în atributul Jocuri online, există răspunsuri fie „Y”, fie „N”, indicând că respondentul fie participă, fie nu participă la jocuri online. Dar ce indică valorile lipsă sau nule din acest atribut? Ne este necunoscut. În scopul mineritului de date, există o serie de opțiuni disponibile pentru gestionarea datelor lipsă.

Pentru a afla despre gestionarea datelor lipsă în RapidMiner, urmați pașii de mai jos pentru a vă conecta la setul de date și a începe să îl modificați:

1) Lansați aplicația RapidMiner. Acest lucru se poate face făcând dublu clic pe pictograma de pe desktop sau găsind-o în meniul aplicației. Prima dată când RapidMiner este lansat, veți primi mesajul prezentat în Figura 3-6. Faceți clic pe OK pentru a configura un depozit.

 Figura 3-6. Solicitarea de a crea un depozit inițial de date pe care să îl utilizeze RapidMiner.

2) Pentru majoritatea scopurilor (și pentru toate exemplele din această carte), un depozit local va fi suficient. Faceți clic pe OK pentru a accepta opțiunea implicită, așa cum este prezentat în Figura 3-7.

 Figura 3-7. Configurarea unui depozit de date local.

3) În exemplul din Figura 3-8, am numit depozitul nostru „RapidMinerBook și l-am îndreptat către folderul nostru de date, RapidMiner Data, care se găsește pe unitatea noastră E:. Folosiți pictograma folderului pentru a răsfoi și a găsi folderul sau directorul pe care l-ați creat pentru a stoca seturile de date RapidMiner. Apoi faceți clic pe Terminare.

 Figura 3-8. Setarea numelui și directorului depozitului.

4) Este posibil să primiți o notificare că actualizările sunt disponibile. Dacă acesta este cazul, continuați și acceptați opțiunea de actualizare, unde vi se va afișa o fereastră similară cu Figura 3-9. Profită de oportunitatea de a adăuga în modulul Text Mining (indicat de săgeata neagră), deoarece Capitolul 12 se va ocupa de Text Mining. Faceți dublu clic pe caseta de selectare pentru a adăuga o bifă verde care indică faptul că doriți să instalați sau să actualizați modulul, apoi faceți clic pe Install.

 Figura 3-9. Instalarea actualizărilor și adăugarea modulului Text Mining.

5) Odată ce actualizările și instalările sunt finalizate, RapidMiner se va deschide și fereastra ar trebui să arate ca în Figura 3-10:

 Figura 3-10. Ecranul de pornire RapidMiner.

6) În continuare, va trebui să începem un nou proiect de data mining în RapidMiner. Pentru a face acest lucru, facem clic pe pictograma „New”, așa cum este indicat de săgeata neagră din Figura 3-10. Fereastra rezultată ar trebui să arate ca în Figura 3-11.

 Figura 3-11. Începeți cu un nou proiect în RapidMiner.

7) În RapidMiner există două zone principale care dețin instrumente utile: Repositories și Operators. Acestea sunt accesate de filele indicate de săgeata neagră din Figura 3-11. Zona Repositories este locul în care vă veți conecta la fiecare set de date pe care doriți să îl minați. Zona Operators este locul în care se află toate instrumentele de minerit a datelor. Acestea sunt folosite pentru a construi modele și pentru a manipula în alt mod seturi de date. Faceți clic pe Repositories. Veți descoperi că depozitul inițial pe care l-am creat la prima noastră lansare a software-ului RapidMiner este prezent în listă.

 Figura 3-12. Adăugarea unui set de date la un depozit în RapidMiner.

8) Deoarece obiectivul acestei cărți este de a introduce mineritul de date unui public cât mai larg, nu vom folosi toate instrumentele disponibile în RapidMiner. În acest moment, am putea face o serie de lucruri complicate și tehnice, cum ar fi conectarea la o bază de date la distanță a unei întreprinderi. Totuși, acest lucru ar fi probabil copleșitor și inaccesibil pentru mulți cititori. Prin urmare, în sensul acestui text, ne vom conecta numai la fișiere cu valori separate prin virgulă (CSV). Ar trebui să știți că majoritatea proiectelor de data mining incorporează seturi de date extrem de mari, care cuprind zeci de atribute și mii sau chiar milioane de observații. Vom folosi seturi de date mai mici în acest text, dar conceptele fundamentale ilustrate sunt aceleași pentru datele mari sau mici. Setul de date din Capitolul 3 descărcat de pe site-ul web însoțitor este foarte mic, format din doar 15 atribute și 11 observații. Următorul nostru pas este să ne conectăm la acest set de date. Faceți clic pe pictograma Import, care este a doua pictogramă din stânga în zona Repositories, așa cum este indicat de săgeata neagră din Figura 3-12.

 Figura 3-13. Importul unui fișier CSV.

9) Veți vedea după săgeata neagră din Figura 3-13 că puteți importa dintr-o serie de surse de date diferite. Rețineți că prin import, vă aduceți datele într-un fișier RapidMiner, în loc să lucrați cu date care sunt deja stocate în altă parte. Dacă setul dvs. de date este extrem de mare, poate dura ceva timp pentru a importa datele și ar trebui să luați în considerare spațiul pe disc care vă este disponibil. Pe măsură ce seturile de date cresc, este mai bine să folosiți prima pictogramă (din stânga) pentru a configura un depozit de la distanță pentru a lucra cu datele deja stocate în alte zone. După cum s-a explicat anterior, toate exemplele din acest text vor fi realizate prin importul fișierelor CSV care sunt suficient de mici pentru a funcționa rapid și ușor. Faceți clic pe opțiunea Import CSV File.

 Figura 3-14. Localizarea setului de date de importat.

10) Când se deschide expertul de import de date, navigați la folderul în care este stocat setul de date și selectați fișierul. În acest exemplu, este vizibil un singur fișier: setul de date din capitolul 3 descărcat de pe site-ul web însoțitor. Faceți clic pe Next.

 Figura 3-15. Configurarea separării atributelor.

11) În mod implicit, RapidMiner caută punct și virgulă ca separatori de atribute în datele noastre. Trebuie să schimbăm delimitatorul de separare a coloanelor să fie virgulă, pentru a putea vedea fiecare atribut separat corect. Notă: dacă datele dvs. conțin în mod natural virgule, atunci ar trebui să aveți grijă când colectați sau colaționați datele pentru a utiliza un delimitator care nu apare în mod natural în date. Un simbol punct și virgulă sau un simbol (|) vă pot ajuta adesea să evitați separarea neintenționată a coloanei.

 Figura 3-16. O previzualizare a atributelor separate în coloane cu opțiunea Comma selectată.

12) Odată ce previzualizarea arată coloane pentru fiecare atribut, faceți clic pe Next. Rețineți că RapidMiner a tratat numele atributelor noastre ca și cum ar fi primul nostru rând de date sau, cu alte cuvinte, prima noastră observație. Pentru a remedia acest lucru, dați clic pe caseta drop-down Annotation de lângă acest rând și setați-o la Name, așa cum este indicat în Figura 3-17. Cu numele atributelor desemnate corect, dați clic pe Next.

 Figura 3-17. Setarea numelor atributelor.

13) La pasul 4 al expertului de import de date, RapidMiner va ghici cel mai bine un tip de date pentru fiecare atribut. Tipul de date este tipul de date pe care le deține un atribut, cum ar fi numerice, text sau data. Acestea pot fi modificate în acest ecran, dar pentru scopurile noastre din Capitolul 3, vom accepta setările implicite. Chiar sub tipul de date al fiecărui atribut, RapidMiner indică, de asemenea, un rol pentru fiecare atribut de folosit. În mod implicit, toate coloanele sunt importate pur și simplu cu rolul de „atribut”, totuși le putem modifica aici dacă știm că un atribut va juca un rol specific într-un model de data mining pe care îl vom crea. Deoarece rolurile pot fi setate în fereastra de proces principală a RapidMiner atunci când construim modele de data mining, vom accepta prestabilit „attribute” ori de câte ori importăm seturi de date în exercițiile din acest text. De asemenea, puteți rețineți că zonele de selectare de deasupra fiecărui atribut din această fereastră vă permit să nu importați una dintre atribute dacă nu doriți. Acest lucru se realizează pur și simplu debifând caseta de selectare. Din nou, atributele pot fi excluse din modele mai târziu, așa că, în sensul acestui text, vom include întotdeauna toate atributele atunci când importăm date. Toate aceste funcții sunt indicate de săgețile negre din Figura 3-18. Continuați și acceptați aceste valori prestabilite așa cum sunt și dați clic pe Next.

 Figura 3-18. Setarea tipurilor de date, rolurilor și atributelor de import.

14) Pasul final este să alegeți un depozit în care să stocați setul de date și să dați setului de date un nume în RapidMiner. În Figura 3-19, am ales să stocăm setul de date în depozitul RapidMiner Book și i-am dat numele Chapter3. După ce facem clic pe Finish, acest set de date va deveni disponibil pentru orice tip de proces de extragere a datelor pe care dorim să îl construim.

 Figura 3-19. Selectarea depozitului și setarea unui nume de set de date pentru fișierul CSV importat.

15) Acum putem vedea că setul de date este disponibil pentru utilizare în RapidMiner. Pentru a începe să îl utilizați într-un proces de minerit a datelor RapidMiner, pur și simplu trageți setul de date și plasați-l în fereastra Main Process, așa cum sa făcut în Figura 3-20.

 Figura 3-20. Adăugarea unui set de date la un proces în RapidMiner.

16) Fiecare dreptunghi dintr-un proces din RapidMiner este un operator. Operatorul Retrieve pur și simplu obține un set de date și îl pune la dispoziție pentru utilizare. Semicercurile mici de pe părțile laterale ale operatorului și ale ferestrei Main Process sunt numite porturi. În Figura 3-20, un port de ieșire (out) de la operatorul Retrieve al setului nostru de date este conectat la un port (res) al setului de rezultate printr-o spline. Spline-urile, combinate cu operatorii conectați de acestea, constituie un flux de data mining. Pentru a rula un flux de minerit a datelor și a vedea rezultatele, dați clic pe butonul albastru, triunghiular, Play din bara de instrumente din partea de sus a ferestrei RapidMiner. Acest lucru vă va schimba vizualizarea din Design Perspective, care este vizualizarea ilustrată în Figura 3-20, unde vă puteți schimba fluxul de extragere de date, în Results Perspective, care arată rezultatele fluxului dvs., așa cum este ilustrat în Figura 3-21. Când apăsați butonul Play, vi se poate solicita să salvați procesul și sunteți încurajat să faceți acest lucru. De asemenea, RapidMiner vă poate întreba dacă doriți să suprascrieți un proces salvat de fiecare dată când este rulat și vă puteți selecta preferința și în această solicitare.

 Figura 3-21. Perspectiva rezultatelor pentru setul de date din capitolul 3.

17) Puteți comuta între perspectivele de proiectare și rezultate utilizând cele două pictograme indicate de săgețile negre din Figura 3-21. După cum puteți vedea, există un set bogat de informații în perspectiva rezultatelor. În vizualizarea metadate sunt date statistici descriptive de bază. Aici putem de asemenea să înțelegem numărul de observații care au valori lipsă în fiecare atribut al setului de date. Coloanele din vizualizarea metadate pot fi extinse pentru a le face conținutul mai lizibil. Acest lucru se realizează prin trecerea mouse-ului peste barele gri le verticale dintre fiecare coloană, apoi făcând clic și trăgând pentru a le mări. Informațiile prezentate aici pot fi foarte utile pentru a decide unde sunt localizate datele lipsă și ce trebuie făcut în privința acestora. Luați, de exemplu, atributul Online_Gaming. Perspectiva rezultatelor ne arată că avem șase răspunsuri „N” în acel atribut, două răspunsuri „Y” și trei lipsă. Am putea folosi modul sau cel mai frecvent răspuns pentru a înlocui valorile lipsă. Acest lucru presupune, desigur, că cel mai frecvent răspuns este corect pentru toate observațiile și este posibil să nu fie corect. În calitate de mineri de date, trebuie să fim responsabili să ne gândim la fiecare modificare pe care o facem în datele noastre și dacă amenințăm sau nu integritatea datelor noastre prin acea modificare. În unele cazuri, consecințele pot fi drastice. Luați în considerare, de exemplu, dacă modul pentru un atribut de Felony_Conviction ar fi „Y”. Chiar am dori să convertim toate valorile lipsă din acest atribut în „Y” pur și simplu pentru că acesta este modul din setul nostru de date? Probabil că nu; implicațiile despre persoanele reprezentate în fiecare observație a setului nostru de date ar fi nedrepte și denaturate. Astfel, vom schimba valorile lipsă din exemplul actual pentru a ilustra cum să gestionăm valorile lipsă în RapidMiner, recunoscând că ceea ce suntem pe cale să facem nu va fi întotdeauna modalitatea corectă de a gestiona datele lipsă. Pentru ca RapidMiner să gestioneze schimbarea de la lipsă la „N” pentru cele trei observații din variabila noastră Online_Gaming, dați clic pe pictograma perspectivei de design.

 Figura 3-22. Găsirea unui operator care să gestioneze valorile lipsă.

18) Pentru a găsi un instrument în zona Operators, puteți naviga prin arborele de foldere din colțul din stânga jos. RapidMiner oferă multe instrumente și, uneori, găsirea pe cea pe care o doriți poate fi dificilă. Există o casetă de căutare la îndemână, indicată de săgeata neagră din Figura 3-22, care vă permite să introduceți cuvinte cheie pentru a găsi instrumente care ar putea face ceea ce aveți nevoie. Tastați cuvântul „missing” în această casetă și veți vedea că RapidMiner caută automat instrumente cu acest cuvânt în numele lor. Dorim să înlocuim valorile lipsă și putem vedea că în zona instrumentului Data Transformation, într-o subzonă numită Value Modification, există un operator numit Replace Missing Values. Să adăugăm acest operator la fluxul nostru. Faceți clic și țineți apăsat pe numele operatorului și trageți-l în sus spre spline. Când îndreptați cursorul mouse-ului pe spline, spline-ul va deveni ușor aldin, indicând că atunci când eliberați butonul mouse-ului, operatorul va fi conectat la flux. Dacă renunți și operatorul Replace Missing Values nu reușește să se conecteze la fluxul tău, poți reconfigura spline-urile manual. Pur și simplu dați clic pe portul out din operatorul dvs. Retrieve, apoi faceți clic pe portul exa din operatorul Replace Missing Values. Exa înseamnă set de exemple și rețineți că „examples” este cuvântul pe care RapidMiner îl folosește pentru observațiile dintr-un set de date. Asigurați-vă că portul exa de la operatorul Replace Missing Values ​​este conectat la portul setului de rezultate (res), astfel încât atunci când rulați procesul, veți avea rezultate. Modelul dvs. ar trebui să arate acum similar cu Figura 3-23.

 Figura 3-23. Adăugarea unui operator de valoare lipsă la flux.

19) Când un operator este selectat în RapidMiner, acesta are un dreptunghi portocaliu în jurul lui. Acest lucru vă va permite, de asemenea, să modificați parametrii sau proprietățile operatorului respectiv. Panoul Parameters este situat în partea dreaptă a ferestrei RapidMiner, așa cum este indicat de săgeata neagră din Figura 3-23. Pentru acest exercițiu, am decis să modificăm toate valorile lipsă din atributul Online_Gaming să fie „N”, deoarece acesta este cel mai frecvent răspuns în acel atribut. Pentru a face acest lucru, schimbați „attribute filter type” la „single” și veți vedea că apare o casetă derulantă, care vă permite să alegeți atributul Online_Gaming ca țintă pentru modificare. Apoi, extindeți caseta drop-down „default” și selectați „value”, ceea ce va face să apară o casetă „replenishment value”. Introduceți valoarea de înlocuire „N” în această casetă. Rețineți că poate fi necesar să extindeți fereastra RapidMiner sau să utilizați bara de defilare verticală din stânga panoului Parameters pentru a vedea toate opțiunile, deoarece opțiunile se modifică în funcție de ceea ce ați selectat. Când ați terminat, parametrii dvs. ar trebui să arate ca  cei din Figura 3-24. Setările parametrilor care au fost modificate sunt evidențiate cu săgeți negre.

 Figura 3-24. Parametrii valorii lipsă.

20) Ar trebui să înțelegeți că există multe alte opțiuni disponibile în panoul parametri. Nu le vom explora pe toate aici, dar nu ezitați să le experimentați. De exemplu, în loc să modificați un singur atribut la un moment dat, puteți modifica un subset de atribute din setul dvs. de date. Veți afla multe despre flexibilitatea și puterea RapidMiner încercând diferite instrumente și funcții. Când ați setat parametrii, faceți clic pe butonul de redare. Acest lucru va rula procesul și vă va trece din nou la perspectiva rezultatelor. Rezultatele dvs. ar trebui să arate ca în Figura 3-25.

 Figura 3-25. Rezultatele modificării datelor lipsă.

21) Acum puteți vedea că atributul Online_Gaming a fost mutat în partea de sus a listei noastre și că lipsesc zero valori. Faceți clic pe butonul radio Data View, deasupra și în partea stângă a listei de atribute pentru a vedea datele într-o vizualizare de tip foaie de calcul. Veți vedea că variabila Online_Gaming este acum populată doar cu valorile Y și „N”. Am înlocuit cu succes toate valorile lipsă din acel atribut. În vizualizarea datelor, rețineți cum sunt adnotate valorile lipsă în alte variabile, de exemplu Online_Shopping. Un semn de întrebare (?) indică o valoare lipsă dintr-o observație. Să presupunem că pentru această variabilă, nu dorim să înlocuim valorile nule cu modul, ci mai degrabă că dorim să eliminăm acele observații din setul nostru de date înainte de a-l extrage. Acest lucru se realizează prin reducerea datelor.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat 23.89 lei57.41 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat 19.11 lei28.68 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în Business Intelligence
Introducere în Business Intelligence

O resursă esențială pentru toți cei interesați de analiza datelor și de optimizarea proceselor de afaceri.

Nu a fost votat 14.32 lei25.71 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *