Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Pregătirea datelor pentru minerit cu RapidMiner: Colaționarea datelor

Pregătirea datelor pentru minerit cu RapidMiner: Colaționarea datelor

postat în: Data mining 0

COLAŢIONARE

Să presupunem că baza de date care stă la baza sondajului pe Internet al lui Jerry este proiectată așa cum este descris în captura de ecran din LibreOffice Base din Figura 3-1.

O bază de date relațională simplă Figura 3-1: O bază de date relațională simplă (unu-la-unu) pentru datele sondajelor pe Internet.

Acest design i-ar permite lui Jerry să colecteze date despre oameni într-un tabel și date despre comportamentul lor pe internet într-un altul. RapidMiner s-ar putea conecta la oricare dintre aceste tabele pentru a extrage răspunsurile, dar dacă Jerry ar fi interesat de extragerea datelor din ambele tabele simultan?

O modalitate simplă de a colaționa datele din mai multe tabele într-o singură locație pentru extragerea datelor este de a crea o vizualizare a bazei de date. O vizualizare este un tip de pseudo-tabel, creat prin scrierea unei instrucțiuni SQL care este denumită și stocată în baza de date. Figura 3-2 arată crearea unei vizualizări în LibreOffice Base, în timp ce Figura 3-3 arată vizualizarea în vizualizarea foaiei de date.

Crearea unei vizualizări în OpenOffice Base Figura 3-2: Crearea unei vizualizări în OpenOffice Base.

Vizualizarea unei foi de date. Figura 3-3: Rezultatele vizualizării din Figura 3-2 în vizualizarea foii de date.

Crearea vizualizărilor este o modalitate prin care datele dintr-o bază de date relațională pot fi adunate și organizate în pregătirea activităților de minerit a datelor. În acest exemplu, deși informațiile personale din tabelul „Respondents” sunt stocate o singură dată în baza de date, acestea sunt afișate pentru fiecare înregistrare în tabelul „Responses”, creând un set de date care este mai ușor de extras, deoarece este atât mai bogat în informație cât și consecvent în formatarea acestora.

CURĂȚAREA DATELOR

În ciuda eforturilor noastre de a menține calitatea și integritatea în timpul colectării datelor, este inevitabil ca unele anomalii să fie introduse în datele noastre la un moment dat. Procesul de curățare a datelor ne permite să gestionăm aceste anomalii în moduri care au sens pentru noi. Curățarea datelor se poate face în patru moduri diferite: gestionarea datelor lipsă, reducerea datelor (observații), gestionarea datelor inconsecvente și reducerea atributelor.

PREGĂTIREA PENTRU EXERCIȚII

Instalați LibreOffice și RapidMiner, așa cum s-a discutat în articolele anterioare. De asemenea, va trebui să aveți o conexiune la internet pentru a accesa site-ul web însoțitor al acestui ghid, unde sunt disponibile copii ale tuturor seturilor de date utilizate în exercițiile ghidului.

Puteți descărca setul de date pentru acest capitol, care este un export al vizualizării create în LibreOffice Base, de aici: . Poate doriți să luați în considerare crearea unui folder etichetat „minerit de date” sau ceva similar în care puteți păstra copii ale datelor dvs. — ca trebui să se creeze mai multe fișiere pe măsură ce continuăm prin restul ghidului , mai ales când începem să construim modele de minerit de date în RapidMiner. Având un loc central pentru a păstra totul împreună, se vora simplifica lucrurile, iar la prima lansare a software-ului RapidMiner, vi se va solicita să creați un depozit, așa că este o idee bună să aveți un spațiu pregătit. După ce ați descărcat setul de date pentru acest capitol, sunteți gata să începeți să învățați cum să gestionați și pregătiți datele pentru minerit în RapidMiner.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat $3.99$9.61 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat $2.99$6.88 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat $4.99$11.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *