Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Pregătirea datelor pentru minerit cu RapidMiner: Colaționarea datelor

Pregătirea datelor pentru minerit cu RapidMiner: Colaționarea datelor

postat în: Data mining 0

COLAŢIONARE

Să presupunem că baza de date care stă la baza sondajului pe Internet al lui Jerry este proiectată așa cum este descris în captura de ecran din LibreOffice Base din Figura 3-1.

O bază de date relațională simplă Figura 3-1: O bază de date relațională simplă (unu-la-unu) pentru datele sondajelor pe Internet.

Acest design i-ar permite lui Jerry să colecteze date despre oameni într-un tabel și date despre comportamentul lor pe internet într-un altul. RapidMiner s-ar putea conecta la oricare dintre aceste tabele pentru a extrage răspunsurile, dar dacă Jerry ar fi interesat de extragerea datelor din ambele tabele simultan?

O modalitate simplă de a colaționa datele din mai multe tabele într-o singură locație pentru extragerea datelor este de a crea o vizualizare a bazei de date. O vizualizare este un tip de pseudo-tabel, creat prin scrierea unei instrucțiuni SQL care este denumită și stocată în baza de date. Figura 3-2 arată crearea unei vizualizări în LibreOffice Base, în timp ce Figura 3-3 arată vizualizarea în vizualizarea foaiei de date.

Crearea unei vizualizări în OpenOffice Base Figura 3-2: Crearea unei vizualizări în OpenOffice Base.

Vizualizarea unei foi de date. Figura 3-3: Rezultatele vizualizării din Figura 3-2 în vizualizarea foii de date.

Crearea vizualizărilor este o modalitate prin care datele dintr-o bază de date relațională pot fi adunate și organizate în pregătirea activităților de minerit a datelor. În acest exemplu, deși informațiile personale din tabelul „Respondents” sunt stocate o singură dată în baza de date, acestea sunt afișate pentru fiecare înregistrare în tabelul „Responses”, creând un set de date care este mai ușor de extras, deoarece este atât mai bogat în informație cât și consecvent în formatarea acestora.

CURĂȚAREA DATELOR

În ciuda eforturilor noastre de a menține calitatea și integritatea în timpul colectării datelor, este inevitabil ca unele anomalii să fie introduse în datele noastre la un moment dat. Procesul de curățare a datelor ne permite să gestionăm aceste anomalii în moduri care au sens pentru noi. Curățarea datelor se poate face în patru moduri diferite: gestionarea datelor lipsă, reducerea datelor (observații), gestionarea datelor inconsecvente și reducerea atributelor.

PREGĂTIREA PENTRU EXERCIȚII

Instalați LibreOffice și RapidMiner, așa cum s-a discutat în articolele anterioare. De asemenea, va trebui să aveți o conexiune la internet pentru a accesa site-ul web însoțitor al acestui ghid, unde sunt disponibile copii ale tuturor seturilor de date utilizate în exercițiile ghidului.

Puteți descărca setul de date pentru acest capitol, care este un export al vizualizării create în LibreOffice Base, de aici: . Poate doriți să luați în considerare crearea unui folder etichetat „minerit de date” sau ceva similar în care puteți păstra copii ale datelor dvs. — ca trebui să se creeze mai multe fișiere pe măsură ce continuăm prin restul ghidului , mai ales când începem să construim modele de minerit de date în RapidMiner. Având un loc central pentru a păstra totul împreună, se vora simplifica lucrurile, iar la prima lansare a software-ului RapidMiner, vi se va solicita să creați un depozit, așa că este o idee bună să aveți un spațiu pregătit. După ce ați descărcat setul de date pentru acest capitol, sunteți gata să începeți să învățați cum să gestionați și pregătiți datele pentru minerit în RapidMiner.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2,99$6,88 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat $3,99$8,55 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.