Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Reducerea datelor în mineritul datelor (Data Mining) cu RapidMiner

Reducerea datelor în mineritul datelor (Data Mining) cu RapidMiner

postat în: Data mining 0

Următorul set de pași vă va învăța să reduceți numărul de observații din setul de date prin procesul de filtrare.

1) În caseta de căutare din fila Operators, tastați cuvântul „filter”. Acest lucru vă va ajuta să găsiți operatorul „Filter Examples”, care este ceea ce vom folosi în acest exemplu. Trageți operatorul Filter Examples peste și conectați-l la fluxul dvs., imediat după operatorul Replace Missing Values. Fereastra dvs. va arăta ca în Figura 3-26.

RapidMiner- Adăugarea unui filtru la flux Figura 3-26. Adăugarea unui filtru la flux.

2) În clasa de condiții, alegeți „attribute_value_filter”, iar pentru șirul de parametru, introduceți următoarele: Online_Shopping=. Asigurați-vă că includeți perioada. Acest șir de parametri se referă la atributul nostru, Online_Shopping, și îi spune lui RapidMiner să filtreze toate observațiile în care lipsește valoarea din acel atribut. Acest lucru este puțin confuz, deoarece în Data View în perspectiva rezultatelor, lipsurile sunt notate cu un semn de întrebare (?), dar când introduceți șirul de parametri, lipsurile sunt notate cu un punct (.). După ce ați introdus aceste valori ale parametrilor, ecranul dvs. va arăta ca în Figura 3-27.

RapidMiner- Adăugarea parametrilor filtrului de observațieFigura 3-27. Adăugarea parametrilor filtrului de observație.

Continuați și rulați modelul dvs. făcând clic pe butonul de redare. În perspectiva rezultatelor, veți vedea acum că setul dvs. de date a fost redus de la unsprezece observații (sau exemple) la nouă. Acest lucru se datorează faptului că cele două observații în care atributul Online_Shopping avea o valoare lipsă au fost eliminate. Veți putea vedea că au dispărut selectând butonul radio Data View. Ele nu au fost șterse din datele sursă inițiale, sunt pur și simplu eliminate din setul de date în punctul din flux în care se află operatorul de filtrare și nu vor mai fi luate în considerare în operațiunile de extragere a datelor din aval. În cazurile în care valoarea lipsă nu poate fi presupusă sau calculată în siguranță, eliminarea întregii observații este adesea cea mai bună cale de acțiune. Când atributele sunt de natură numerică, cum ar fi vârstele sau numărul de vizite într-un anumit loc, o măsură aritmetică a tendinței centrale, cum ar fi media, mediana sau modul poate fi un înlocuitor acceptabil pentru valorile lipsă, dar în atributele mai subiective, cum ar fi dacă cineva este sau nu un cumpărător online, ar fi mai bine să filtrați pur și simplu observațiile în care datele lipsesc. (Un truc interesant pe care îl puteți încerca în RapidMiner este să utilizați opțiunea Invert Filter din perspectiva designului. În acest exemplu, dacă bifați caseta de selectare din panoul de parametri al operatorului Filter Examples, veți păstra observațiile lipsă și veți filtra restul.)

Exploatarea datelor poate fi confuză și copleșitoare, mai ales când seturile de date devin mari. Totuși, nu trebuie să fie, dacă ne gestionăm bine datele. Exemplul anterior a arătat cum să filtram observațiile care conțin date nedorite (sau date lipsă) într-un atribut, dar putem, de asemenea, să reducem datele pentru a testa un model de data mining pe un subset mai mic al datelor noastre. Acest lucru poate reduce considerabil timpul de procesare în timpul testării unui model pentru a vedea dacă va funcționa pentru a răspunde întrebărilor noastre. Urmați pașii de mai jos pentru a lua o mostră din setul nostru de date în RapidMiner.

1) Folosind tehnicile de căutare demonstrate anterior, utilizați caracteristica de căutare Operators pentru a găsi un operator numit „Sample” și adăugați-l în fluxul dvs. În panoul de parametri, setați eșantionul să fie un eșantion „relativ”, apoi indicați că doriți să păstrați 50% din observațiile dvs. în setul de date rezultat, tastând .5 în câmpul pentru raportul eșantionului. Fereastra dvs. ar trebui să arate ca în Figura 3-28.

RapidMiner- Luarea unui eșantion aleatoriu de 50% din setul de date Figura 3-28. Luarea unui eșantion aleatoriu de 50% din setul de date.

2) Când rulați modelul acum, veți descoperi că rezultatele dvs. conțin doar patru sau cinci observații, selectate aleatoriu dintre cele nouă care au rămas după ce operatorul nostru de filtrare a eliminat înregistrările pentru care lipseau valorile Online_Shopping.

Astfel, puteți vedea că există multe moduri și diverse motive de a reduce datele prin scăderea numărului de observații din setul dvs. de date. Acum vom trece la gestionarea datelor inconsecvente, dar înainte de a face acest lucru, va fi important să ne resetăm datele la forma inițială. În timpul filtrării, am eliminat o observație de care vom avea nevoie pentru a ilustra ce sunt datele inconsistente și pentru a demonstra cum să le gestionăm în RapidMiner. Acesta este un moment bun pentru a afla cum să eliminați operatorii din fluxul dvs. Reveniți la perspectiva designului și dați clic pe operatorul de eșantionare. Apoi, faceți clic dreapta și alegeți Delete sau pur și simplu apăsați tasta Delete de pe tastatură. Ștergeți operatorul Filter Examples și în acest moment. Rețineți că spline-ul dvs. care a fost conectat la portul res este, de asemenea, șters. Aceasta nu este o problemă, puteți reconecta portul exa de la operatorul Replace Missing Values la portul res, sau veți descoperi că spline va apărea când veți parcurge pașii din Gestionarea datelor inconsistente.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat $3,99$8,55 Selectează opțiunile
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.