Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Manipularea datelor inconsistente în mineritul datelor (Data Mining) cu RapidMiner

Manipularea datelor inconsistente în mineritul datelor (Data Mining) cu RapidMiner

postat în: Data mining 0

Datele inconsecvente sunt diferite de datele lipsă. Datele inconsecvente apar atunci când o valoare există, dar acea valoare nu este validă sau semnificativă. Referiți-vă la Figura 3-25; o versiune de aproape a acelei imagini este prezentată aici ca Figura 3-29.

RapidMiner - Date inconsistenteFigura 3-29. Date inconsistente în atributul Twitter.

Ce caută acel 99 acolo? Se pare că singurele două valori valide pentru atributul Twitter ar trebui să fie „Y” și „N”. Aceasta este o valoare inconsistentă și, prin urmare, lipsită de sens. În calitate de mineri de date, putem decide dacă vrem să filtrăm această observație, așa cum am făcut cu înregistrările Online_Shopping lipsă, sau am putea folosi un operator conceput pentru a ne permite să înlocuim anumite valori cu altele.

1) Reveniți la perspectiva designului dacă nu sunteți deja acolo. Asigurați-vă că ați șters operatorii de eșantionare și de filtrare din flux, astfel încât fereastra dvs. să arate ca Figura 3-30.

RapidMiner - Date inconsistenteFigura 3-30. Revenirea la un set complet de date în RapidMiner.

2) Rețineți că nu trebuie să eliminăm operatorul Replace Missing Values, deoarece nu elimină nicio observație din setul nostru de date. Schimbă doar valorile din atributul Online_Gaming, ceea ce nu va afecta următorul nostru operator. Utilizați funcția de căutare din fila Operators pentru a găsi un operator numit Replace. Trageți acest operator în fluxul dvs. Dacă spline-urile dvs. au fost deconectate în timpul ștergerii operatorilor de eșantionare și filtrare, așa cum este cazul în Figura 3-30, veți vedea că spline-urile sunt reconectate automat când adăugați operatorul Replace la flux.

3) În panoul de parametri, schimbați tipul de filtru de atribut la single, apoi indicați Twitter ca atribut care trebuie modificat. De fapt, în acest set de date există o singură instanță a valorii 99 ​​pentru toate atributele și observațiile, așa că această modificare a unui singur atribut nu este de fapt necesară în acest exemplu, dar este bine să fii atent și intenționat la fiecare pas în un proces de minerit a datelor. Cele mai multe seturi de date vor fi mult mai mari și mai complexe decât setul de date din Capitolul 3 cu care lucrăm în prezent. În câmpul „replace what”, tastați valoarea 99, deoarece aceasta este valoarea pe care vrem să o înlocuim. În cele din urmă, în câmpul „replace by”, trebuie să decidem ce dorim să avem în locul lui 99. Dacă lăsăm acest câmp necompletat, atunci observarea va avea un (?) lipsă atunci când rulăm modelul și trecem la Data View în perspectiva rezultatelor. Am putea alege, de asemenea, modul „N” și, având în vedere că 80% dintre respondenții la sondaj au indicat că nu au folosit Twitter, aceasta ar părea o cale de acțiune sigură. Puteți alege valoarea pe care doriți să o utilizați. Pentru exemplul ghidului, vom introduce „N” și apoi vom rula modelul nostru. Puteți vedea în Figura 3-31 că acum avem nouă valori pentru „N” și două pentru „Y” pentru atributul nostru Twitter.

RapidMiner - Date inconsistenteFigura 3-31. Înlocuirea valorii inconsistente cu una consistentă.

Rețineți că nu toate datele inconsistente vor fi la fel de ușor de gestionat ca înlocuirea unei singure valori. Ar fi absolut posibil ca, pe lângă valoarea inconsecventă de 99, valorile 87, 96, 101 sau altele să fie prezente într-un set de date. Dacă acesta ar fi cazul, ar putea fi necesare mai multe înlocuiri și/sau operatori de date lipsă pentru a pregăti setul de date pentru minerit. În datele numerice, s-ar putea să întâlnim și date care sunt precise, dar care sunt și valori aberante statistice. Acestea ar putea fi considerate, de asemenea, date inconsecvente, așa că un exemplu dintr-un capitol ulterior va ilustra modul de gestionare a valorii aberante statistice. Uneori, curățarea datelor poate deveni plictisitoare, dar în cele din urmă va afecta utilitatea rezultatelor mineritului de date, astfel încât aceste tipuri de activități sunt importante, iar atenția la detalii este esențială.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.