Home » Articole » Articole » Calculatoare » Programare » Python » Analiza exploratorie a datelor în știința datelor- Univariate – Date categorice: numărul de apariții

Analiza exploratorie a datelor în știința datelor- Univariate – Date categorice: numărul de apariții

postat în: Python 0

Termenul special „Analiza Exploratorie a Datelor” (”Exploratory Data Analysis”, EDA) este folosit practic doar să vă familiarizați cu datele dvs. După ce importați un nou set de date în Python, primul lucru pe care îl faceți în mod normal este să căutați să vă faceți o idee despre ce conține. Poate că nici măcar nu știți ce întrebări doriți să puneți în cele din urmă – darămite care sunt răspunsurile – dar dimensionarea datelor este un precursor necesar acelor activități.

„Univariat” înseamnă să luați în considerare doar o variabilă odată, mai degrabă decât posibilele relații dintre variabile. O singură matrice NumPy (unidimensională) sau o Serie Pandas este un set de date univariat, dacă o tratați izolat. După cum se dovedește, există destul de multe lucruri interesante pe care le poți face chiar și cu ceva atât de simplu.

În primul rând, ne vom uita la statisticile rezumate, care sunt o modalitate de a captura caracteristicile generale ale unui set de date, astfel încât să puteți vedea pădurea în loc de doar o grămadă de copaci. Tipul de informații rezumative adecvate depinde de dacă aveți de-a face cu date categorice sau numerice.

Date categorice: numărul de ocurențe

Să presupunem că ai avut acces la un sondaj despre vedetele pop preferate ale oamenilor. Imporți asta într-o serie mare Pandas numită faves (favorite):

print(faves)
▐ 0 Katy Perry
▐ 1 Rihanna
▐ 2 Justin Bieber
▐ 3 Drake
▐ 4 Rihanna
▐ 5 Taylor Swift
▐ 6 Adele
▐ 7 Adele
▐ 8 Taylor Swift
▐ 9 Justin Bieber
▐ ...
▐ 1395 Katy Perry
▐ dtype: object

Este grozav, dar este și un fel de prea multă informație. Probabil că nu-ți pasă cine idolul primei persoane este, nici al cincisprezecelea, nici ultimul. Mult mai interesant este pur și simplu de câte ori apare fiecare valoare în Serie. Aceste informații sunt disponibile din Pandas .metoda .value_counts():

counts = faves.value_counts() print(counts)
▐ Taylor Swift 388
▐ Katy Perry 265
▐ Drake 261
▐ Adele 212
▐ Rihanna 136
▐ Justin Bieber 134
▐ dtype: int64

Metoda .value_counts() returnează o altă serie, dar valorile seriei originale devin cheile celei noi. Acest lucru ne spune dintr-o privire cât de popular este fiecare răspuns în raport cu celelalte.

Pentru a obține procente în loc de totaluri, împărțiți la total și înmulțiți cu 100, desigur:

print(counts / len(counts) * 100)
▐ Taylor Swift 27.7937
▐ Katy Perry 18.9828
▐ Drake 18.6963
▐ Adele 15.1862
▐ Rihanna 09.7421
▐ Justin Bieber 09.5989
▐ dtype: float64

Amintiți-vă că modul este singura măsură a tendinței centrale care are sens pentru datele categorice. Și tot ce trebuie să faci este să apelezi .value_counts() și să te uiți la rezultatul superior. (În acest caz, Taylor Swift.)

Rețineți că .value_counts() este o metodă Serii Pandas , nu o metodă NumPy. În cazul unei matrice matrice NumPy, puteți pur și simplu să o includeți într-o serie, așa cum am făcut în Secțiunea 11.1:

my_array = np.array(['red','blue','red','green',
'green', 'green','blue']) 
print(pd.Series(my_array).value_counts())
▐ green 3
▐ red 2
▐ blue 2
▐ dtype: int64

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat 19.07 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat 19.07 lei40.87 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Business intelligence și analitica în afaceri
Business intelligence și analitica în afaceri

Datele sunt fapte și cifre brute, iar informațiile sunt date semnificative care ar fi utile pentru o persoană sau companie. Business intelligence extrage informații din datele brute prin instrumente precum mineritul datelor, analiza perspectivală, procesarea analitică online etc. Cartea va oferi … Citeşte mai mult

Nu a fost votat 23.85 lei52.53 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *