Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Pregătirea datelor și modelarea datelor în mineritul de date

Pregătirea datelor și modelarea datelor în mineritul de date

Pregătirea datelor

Datele vin în multe forme și formate. Unele date sunt numerice, altele sunt sub formă de paragrafe de text, iar altele sunt sub formă de imagini, cum ar fi diagrame, grafice și hărți. Unele date sunt anecdotice sau narative, cum ar fi comentariile la un sondaj privind satisfacția clienților sau transcrierea mărturiei unui martor. Datele care nu se află în rânduri sau coloane de numere nu ar trebui să fie respinse, uneori formatele de date netradiționale pot fi cele mai bogate în informații. Deși rândurile și coloanele sunt una dintre cele mai comune machete, se folosește de obicei și mineritul textelor, unde paragrafele pot fi introduse în RapidMiner și analizate de asemenea pentru modele.

Pregătirea datelor implică o serie de activități. Acestea pot include unirea a două sau mai multe seturi de date, reducerea seturilor de date doar la acele variabile care sunt interesante într-un anumit exercițiu de extragere a datelor, curățarea datelor de anomalii, cum ar fi observațiile aberante sau datele lipsă sau reformatarea datelor în scopuri de coerență. De exemplu, este posibil să fi văzut o foaie de calcul sau o bază de date care conținea numere de telefon în mai multe formate diferite:

(555) 555-5555 555/555-5555
555-555-5555 555.555.5555
555 555 5555 5555555555

Fiecare dintre acestea oferă același număr de telefon, dar stocat în formate diferite. Rezultatele unui exercițiu de extragere a datelor sunt cel mai probabil să producă rezultate bune și utile atunci când datele de bază sunt cât mai consecvente posibil. Pregătirea datelor vă poate ajuta să vă asigurați că vă îmbunătățiți șansele pentru un rezultat de succes atunci când începeți…

Modelarea datelor

Un model, cel puțin în mineritul datelor, este o reprezentare computerizată a observațiilor din lumea reală. Modelele sunt aplicarea de algoritmi pentru a căuta, identifica și afișa orice tipare sau mesaje din datele dvs. Există două forme sau tipuri de modele de bază în mineritul datelor: cele care clasifică și cele care prezic.

Tipuri de modele pentru mineritul datelor
(Tipuri de modele pentru mineritul datelor.)

După cum puteți vedea în Figura, există o oarecare suprapunere între tipurile de modele utilizate de mineritul datelor. De exemplu, acest ghid vă va învăța despre arborii de decizie. Arborii de decizie sunt un model predictiv utilizat pentru a determina care atribute ale unui anumit set de date sunt cei mai puternici indicatori ai unui rezultat dat. Rezultatul este de obicei exprimat ca probabilitatea ca o observație să se încadreze într-o anumită categorie. Astfel, arborii de decizie sunt de natură predictivă, dar ne ajută și să ne clasificăm datele. Este important să înțelegem că modelele ne ajută să clasificăm și să prezicăm pe baza modelelor pe care acestea le găsesc în datele noastre.

Modelele pot fi simple sau complexe. Ele pot conține doar un singur proces, sau flux, sau pot conține subprocese. Indiferent de aspectul lor, modelele sunt locul în care extragerea datelor trece de la pregătire și înțelegere la dezvoltare și interpretare. Vom construi o serie de exemple de modele în acest text. Odată ce un model a fost construit, este timpul pentru…

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat 24.11 lei57.94 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat 14.45 lei25.32 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Statistica pentru afaceri
Statistica pentru afaceri

Instrumentul esențial pentru decizii inteligente în mediul de afaceri!

Nu a fost votat 19.28 lei41.32 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *