Termenul special „Analiza Exploratorie a Datelor” (”Exploratory Data Analysis”, EDA) este folosit practic doar să vă familiarizați cu datele dvs. După ce importați un nou set de date în Python, primul lucru pe care îl faceți în mod normal este să căutați să vă faceți o idee despre ce conține. Poate că nici măcar nu știți ce întrebări doriți să puneți în cele din urmă – darămite care sunt răspunsurile – dar dimensionarea datelor este un precursor necesar acelor activități.
„Univariat” înseamnă să luați în considerare doar o variabilă odată, mai degrabă decât posibilele relații dintre variabile. O singură matrice NumPy (unidimensională) sau o Serie Pandas este un set de date univariat, dacă o tratați izolat. După cum se dovedește, există destul de multe lucruri interesante pe care le poți face chiar și cu ceva atât de simplu.
În primul rând, ne vom uita la statisticile rezumate, care sunt o modalitate de a captura caracteristicile generale ale unui set de date, astfel încât să puteți vedea pădurea în loc de doar o grămadă de copaci. Tipul de informații rezumative adecvate depinde de dacă aveți de-a face cu date categorice sau numerice.
Date categorice: numărul de ocurențe
Să presupunem că ai avut acces la un sondaj despre vedetele pop preferate ale oamenilor. Imporți asta într-o serie mare Pandas numită faves (favorite):
print(faves)
▐ 0 Katy Perry ▐ 1 Rihanna ▐ 2 Justin Bieber ▐ 3 Drake ▐ 4 Rihanna ▐ 5 Taylor Swift ▐ 6 Adele ▐ 7 Adele ▐ 8 Taylor Swift ▐ 9 Justin Bieber ▐ ... ▐ 1395 Katy Perry ▐ dtype: object
Este grozav, dar este și un fel de prea multă informație. Probabil că nu-ți pasă cine idolul primei persoane este, nici al cincisprezecelea, nici ultimul. Mult mai interesant este pur și simplu de câte ori apare fiecare valoare în Serie. Aceste informații sunt disponibile din Pandas .metoda .value_counts():
counts = faves.value_counts() print(counts)
▐ Taylor Swift 388 ▐ Katy Perry 265 ▐ Drake 261 ▐ Adele 212 ▐ Rihanna 136 ▐ Justin Bieber 134 ▐ dtype: int64
Metoda .value_counts() returnează o altă serie, dar valorile seriei originale devin cheile celei noi. Acest lucru ne spune dintr-o privire cât de popular este fiecare răspuns în raport cu celelalte.
Pentru a obține procente în loc de totaluri, împărțiți la total și înmulțiți cu 100, desigur:
print(counts / len(counts) * 100)
▐ Taylor Swift 27.7937 ▐ Katy Perry 18.9828 ▐ Drake 18.6963 ▐ Adele 15.1862 ▐ Rihanna 09.7421 ▐ Justin Bieber 09.5989 ▐ dtype: float64
Amintiți-vă că modul este singura măsură a tendinței centrale care are sens pentru datele categorice. Și tot ce trebuie să faci este să apelezi .value_counts() și să te uiți la rezultatul superior. (În acest caz, Taylor Swift.)
Rețineți că .value_counts() este o metodă Serii Pandas , nu o metodă NumPy. În cazul unei matrice matrice NumPy, puteți pur și simplu să o includeți într-o serie, așa cum am făcut în Secțiunea 11.1:
my_array = np.array(['red','blue','red','green', 'green', 'green','blue']) print(pd.Series(my_array).value_counts())
▐ green 3 ▐ red 2 ▐ blue 2 ▐ dtype: int64
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1
Lasă un răspuns