Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Pregătirea datelor și modelarea datelor în mineritul de date

Pregătirea datelor și modelarea datelor în mineritul de date

Pregătirea datelor

Datele vin în multe forme și formate. Unele date sunt numerice, altele sunt sub formă de paragrafe de text, iar altele sunt sub formă de imagini, cum ar fi diagrame, grafice și hărți. Unele date sunt anecdotice sau narative, cum ar fi comentariile la un sondaj privind satisfacția clienților sau transcrierea mărturiei unui martor. Datele care nu se află în rânduri sau coloane de numere nu ar trebui să fie respinse, uneori formatele de date netradiționale pot fi cele mai bogate în informații. Deși rândurile și coloanele sunt una dintre cele mai comune machete, se folosește de obicei și mineritul textelor, unde paragrafele pot fi introduse în RapidMiner și analizate de asemenea pentru modele.

Pregătirea datelor implică o serie de activități. Acestea pot include unirea a două sau mai multe seturi de date, reducerea seturilor de date doar la acele variabile care sunt interesante într-un anumit exercițiu de extragere a datelor, curățarea datelor de anomalii, cum ar fi observațiile aberante sau datele lipsă sau reformatarea datelor în scopuri de coerență. De exemplu, este posibil să fi văzut o foaie de calcul sau o bază de date care conținea numere de telefon în mai multe formate diferite:

(555) 555-5555 555/555-5555
555-555-5555 555.555.5555
555 555 5555 5555555555

Fiecare dintre acestea oferă același număr de telefon, dar stocat în formate diferite. Rezultatele unui exercițiu de extragere a datelor sunt cel mai probabil să producă rezultate bune și utile atunci când datele de bază sunt cât mai consecvente posibil. Pregătirea datelor vă poate ajuta să vă asigurați că vă îmbunătățiți șansele pentru un rezultat de succes atunci când începeți…

Modelarea datelor

Un model, cel puțin în mineritul datelor, este o reprezentare computerizată a observațiilor din lumea reală. Modelele sunt aplicarea de algoritmi pentru a căuta, identifica și afișa orice tipare sau mesaje din datele dvs. Există două forme sau tipuri de modele de bază în mineritul datelor: cele care clasifică și cele care prezic.

Tipuri de modele pentru mineritul datelor
(Tipuri de modele pentru mineritul datelor.)

După cum puteți vedea în Figura, există o oarecare suprapunere între tipurile de modele utilizate de mineritul datelor. De exemplu, acest ghid vă va învăța despre arborii de decizie. Arborii de decizie sunt un model predictiv utilizat pentru a determina care atribute ale unui anumit set de date sunt cei mai puternici indicatori ai unui rezultat dat. Rezultatul este de obicei exprimat ca probabilitatea ca o observație să se încadreze într-o anumită categorie. Astfel, arborii de decizie sunt de natură predictivă, dar ne ajută și să ne clasificăm datele. Este important să înțelegem că modelele ne ajută să clasificăm și să prezicăm pe baza modelelor pe care acestea le găsesc în datele noastre.

Modelele pot fi simple sau complexe. Ele pot conține doar un singur proces, sau flux, sau pot conține subprocese. Indiferent de aspectul lor, modelele sunt locul în care extragerea datelor trece de la pregătire și înțelegere la dezvoltare și interpretare. Vom construi o serie de exemple de modele în acest text. Odată ce un model a fost construit, este timpul pentru…

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu

© 2022 MultiMedia Publishing, Mineritul de date

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2,99$5,07 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.