În multe seturi de date, veți descoperi că unele atribute sunt pur și simplu irelevante pentru a răspunde la o anumită întrebare. În capitolul 4 vom discuta despre metodele de evaluare a corelației sau a puterii relațiilor dintre atributele date. În unele cazuri, nu veți ști în ce măsură un anumit atribut va fi util fără a evalua statistic corelația acelui atribut cu celelalte date pe care le veți evalua. În fluxul nostru de proces din RapidMiner, putem elimina atribute care nu sunt foarte interesante în ceea ce privește răspunsul la o anumită întrebare, fără a le șterge complet din setul de date. Rețineți, simplul fapt că anumite variabile dintr-un set de date nu sunt interesante pentru a răspunde la o anumită întrebare, nu înseamnă că acele variabile nu vor fi niciodată interesante. Acesta este motivul pentru care vă recomandăm să introduceți toate atributele atunci când importați setul de date din capitolul 3 mai devreme în acest capitol. Atributele neinteresante sau irelevante sunt ușor de exclus din fluxul dvs. urmând acești pași:
1) Reveniți la perspectiva designului. În câmpul de căutare operator, tastați Select Attribute. Va apărea operatorul Select Attribute. Trageți-l la sfârșitul fluxului, astfel încât să se potrivească între operatorul Replace și portul setului de rezultate. Fereastra ar trebui să arate ca Figura 3-32.
Figura 3-32. Selectarea unui subset de atribute ale unui set de date.
2) În panoul Parametri, setați tipul de filtru de atribute la „subset”, apoi faceți clic pe butonul Select Attribute; va apărea o fereastră similară cu Figura 3-33.
Figura 3-33. Fereastra de selecție a subsetului de atribute.
3) Folosind săgețile verzi la dreapta și la stânga, puteți selecta atributele pe care doriți să le păstrați. Să presupunem că vom studia demografia utilizatorilor de internet. În acest caz, putem selecta Birth_Year, Gender, Marital_Status, Race și poate Years_on_Internet și le putem muta la dreapta sub Select Attribute folosind săgeata verde la dreapta. Puteți selecta mai multe atribute simultan, ținând apăsată tasta control sau shift (pe un computer Windows) în timp ce dați clic pe atributele pe care doriți să le selectați sau deselectați. Apoi am putea da clic pe OK, iar acestea ar fi singurele atribute pe care le-am vedea în perspectiva rezultatelor atunci când rulăm modelul nostru. Toate operațiunile ulterioare de minerit a datelor în sensul fluxului adăugate modelului nostru vor acționa numai asupra acestui subset de atribute.
Amintiți-vă că pregătirea datelor este al treilea pas în procesul CRISP-DM. După ce ați stabilit Înțelegerea organizațională în ceea ce privește planurile dvs. de minerit a datelor și ați dezvoltat Înțelegerea de date în ceea ce privește datele de care aveți nevoie, ce date aveți, unde se află și așa mai departe; puteți începe să vă pregătiți datele pentru minerit.
Mineritul datelor are cel mai mare succes atunci când este efectuat pe o bază de date bine pregătite. Valoarea unde ajungeți când finalizați un exercițiu de minerit a datelor va depinde în mare măsură de cât de bine v-ați pregătit să ajungeți acolo. Uneori auzim expresia „Este mai bine decât nimic”. Ei bine, în mioneritul de date, rezultatele obținute din date prost pregătite ar putea fi „Mai rău decât nimic”, deoarece pot induce în eroare. Deciziile bazate pe acestea ar putea conduce o organizație pe o cale dăunătoare și costisitoare. Învață să apreciezi procesul de pregătire a datelor și vei învăța să fii un miner de date mai bun.
Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date
Lasă un răspuns