Home » Articole » Articole » Calculatoare » Programare » Python » Analiza exploratorie a datelor în știința datelor- Univariate – Date categorice: numărul de apariții

Analiza exploratorie a datelor în știința datelor- Univariate – Date categorice: numărul de apariții

postat în: Python 0

Termenul special „Analiza Exploratorie a Datelor” (”Exploratory Data Analysis”, EDA) este folosit practic doar să vă familiarizați cu datele dvs. După ce importați un nou set de date în Python, primul lucru pe care îl faceți în mod normal este să căutați să vă faceți o idee despre ce conține. Poate că nici măcar nu știți ce întrebări doriți să puneți în cele din urmă – darămite care sunt răspunsurile – dar dimensionarea datelor este un precursor necesar acelor activități.

„Univariat” înseamnă să luați în considerare doar o variabilă odată, mai degrabă decât posibilele relații dintre variabile. O singură matrice NumPy (unidimensională) sau o Serie Pandas este un set de date univariat, dacă o tratați izolat. După cum se dovedește, există destul de multe lucruri interesante pe care le poți face chiar și cu ceva atât de simplu.

În primul rând, ne vom uita la statisticile rezumate, care sunt o modalitate de a captura caracteristicile generale ale unui set de date, astfel încât să puteți vedea pădurea în loc de doar o grămadă de copaci. Tipul de informații rezumative adecvate depinde de dacă aveți de-a face cu date categorice sau numerice.

Date categorice: numărul de ocurențe

Să presupunem că ai avut acces la un sondaj despre vedetele pop preferate ale oamenilor. Imporți asta într-o serie mare Pandas numită faves (favorite):

print(faves)
▐ 0 Katy Perry
▐ 1 Rihanna
▐ 2 Justin Bieber
▐ 3 Drake
▐ 4 Rihanna
▐ 5 Taylor Swift
▐ 6 Adele
▐ 7 Adele
▐ 8 Taylor Swift
▐ 9 Justin Bieber
▐ ...
▐ 1395 Katy Perry
▐ dtype: object

Este grozav, dar este și un fel de prea multă informație. Probabil că nu-ți pasă cine idolul primei persoane este, nici al cincisprezecelea, nici ultimul. Mult mai interesant este pur și simplu de câte ori apare fiecare valoare în Serie. Aceste informații sunt disponibile din Pandas .metoda .value_counts():

counts = faves.value_counts() print(counts)
▐ Taylor Swift 388
▐ Katy Perry 265
▐ Drake 261
▐ Adele 212
▐ Rihanna 136
▐ Justin Bieber 134
▐ dtype: int64

Metoda .value_counts() returnează o altă serie, dar valorile seriei originale devin cheile celei noi. Acest lucru ne spune dintr-o privire cât de popular este fiecare răspuns în raport cu celelalte.

Pentru a obține procente în loc de totaluri, împărțiți la total și înmulțiți cu 100, desigur:

print(counts / len(counts) * 100)
▐ Taylor Swift 27.7937
▐ Katy Perry 18.9828
▐ Drake 18.6963
▐ Adele 15.1862
▐ Rihanna 09.7421
▐ Justin Bieber 09.5989
▐ dtype: float64

Amintiți-vă că modul este singura măsură a tendinței centrale care are sens pentru datele categorice. Și tot ce trebuie să faci este să apelezi .value_counts() și să te uiți la rezultatul superior. (În acest caz, Taylor Swift.)

Rețineți că .value_counts() este o metodă Serii Pandas , nu o metodă NumPy. În cazul unei matrice matrice NumPy, puteți pur și simplu să o includeți într-o serie, așa cum am făcut în Secțiunea 11.1:

my_array = np.array(['red','blue','red','green',
'green', 'green','blue']) 
print(pd.Series(my_array).value_counts())
▐ green 3
▐ red 2
▐ blue 2
▐ dtype: int64

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat $4.99$11.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Nu rata oportunitatea de a rămâne competitiv într-o lume bazată pe date!

Nu a fost votat $3.99$5.99 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Analitica rețelelor sociale
Analitica rețelelor sociale

Descoperă puterea datelor și transformă modul în care înțelegi și utilizezi rețelele sociale.

Nu a fost votat $3.99$9.61 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *