Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Mineritul datelor: Reducerea atributelor cu RapidMiner

Mineritul datelor: Reducerea atributelor cu RapidMiner

postat în: Data mining 0

În multe seturi de date, veți descoperi că unele atribute sunt pur și simplu irelevante pentru a răspunde la o anumită întrebare. În capitolul 4 vom discuta despre metodele de evaluare a corelației sau a puterii relațiilor dintre atributele date. În unele cazuri, nu veți ști în ce măsură un anumit atribut va fi util fără a evalua statistic corelația acelui atribut cu celelalte date pe care le veți evalua. În fluxul nostru de proces din RapidMiner, putem elimina atribute care nu sunt foarte interesante în ceea ce privește răspunsul la o anumită întrebare, fără a le șterge complet din setul de date. Rețineți, simplul fapt că anumite variabile dintr-un set de date nu sunt interesante pentru a răspunde la o anumită întrebare, nu înseamnă că acele variabile nu vor fi niciodată interesante. Acesta este motivul pentru care vă recomandăm să introduceți toate atributele atunci când importați setul de date din capitolul 3 mai devreme în acest capitol. Atributele neinteresante sau irelevante sunt ușor de exclus din fluxul dvs. urmând acești pași:

1) Reveniți la perspectiva designului. În câmpul de căutare operator, tastați Select Attribute. Va apărea operatorul Select Attribute. Trageți-l la sfârșitul fluxului, astfel încât să se potrivească între operatorul Replace și portul setului de rezultate. Fereastra ar trebui să arate ca Figura 3-32.

Figura 3-32. Selectarea unui subset de atribute ale unui set de date.

2) În panoul Parametri, setați tipul de filtru de atribute la „subset”, apoi faceți clic pe butonul Select Attribute; va apărea o fereastră similară cu Figura 3-33.

Figura 3-33. Fereastra de selecție a subsetului de atribute.

3) Folosind săgețile verzi la dreapta și la stânga, puteți selecta atributele pe care doriți să le păstrați. Să presupunem că vom studia demografia utilizatorilor de internet. În acest caz, putem selecta Birth_Year, Gender, Marital_Status, Race și poate Years_on_Internet și le putem muta la dreapta sub Select Attribute folosind săgeata verde la dreapta. Puteți selecta mai multe atribute simultan, ținând apăsată tasta control sau shift (pe un computer Windows) în timp ce dați clic pe atributele pe care doriți să le selectați sau deselectați. Apoi am putea da clic pe OK, iar acestea ar fi singurele atribute pe care le-am vedea în perspectiva rezultatelor atunci când rulăm modelul nostru. Toate operațiunile ulterioare de minerit a datelor în sensul fluxului adăugate modelului nostru vor acționa numai asupra acestui subset de atribute.

Amintiți-vă că pregătirea datelor este al treilea pas în procesul CRISP-DM. După ce ați stabilit Înțelegerea organizațională în ceea ce privește planurile dvs. de minerit a datelor și ați dezvoltat Înțelegerea de date în ceea ce privește datele de care aveți nevoie, ce date aveți, unde se află și așa mai departe; puteți începe să vă pregătiți datele pentru minerit.

Mineritul datelor are cel mai mare succes atunci când este efectuat pe o bază de date bine pregătite. Valoarea unde ajungeți când finalizați un exercițiu de minerit a datelor va depinde în mare măsură de cât de bine v-ați pregătit să ajungeți acolo. Uneori auzim expresia „Este mai bine decât nimic”. Ei bine, în mioneritul de date, rezultatele obținute din date prost pregătite ar putea fi „Mai rău decât nimic”, deoarece pot induce în eroare. Deciziile bazate pe acestea ar putea conduce o organizație pe o cale dăunătoare și costisitoare. Învață să apreciezi procesul de pregătire a datelor și vei învăța să fii un miner de date mai bun.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat 14.09 lei25.31 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei11.07 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 18.80 lei37.65 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *