Luați în considerare următorul DataFrame (numit „g”), care conține catalogul unui profesor pentru studenții săi:
print(g)
▌ name year Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 ▌0 Beyonce So 9.0 10.0 7.0 10.0 8.0 10.0 9.0 10.0 ▌1 Jay-Z Jr 7.0 10.0 4.0 10.0 10.0 8.0 3.0 10.0 ▌2 Bortis Sr 8.0 10.0 7.0 3.0 7.0 7.0 7.0 9.0 ▌3 Han So NaN 1.0 NaN 10.0 7.0 8.0 7.0 2.0 ▌4 Mal Jr 5.0 4.0 9.0 NaN 7.0 2.0 5.0 10.0 ▌5 Inara Jr 3.0 3.0 4.0 10.0 6.0 4.0 7.0 5.0 ▌6 Obi-wan So 5.0 10.0 9.0 4.0 1.0 4.0 NaN 2.0 ▌7 Finn Jr 6.0 3.0 5.0 6.0 10.0 NaN NaN 3.0
Nu este greu de spus ce se întâmplă: numele fiecărui elev și anul de școală sunt înregistrate, la fel ca nota lor la cele opt chestionare ale clasei. Unii elevi au luat zero la unul sau mai multe chestionare (cum a făcut Han pentru chestionarele 1 și 3), iar notele testului variază de la 0 la 10.
Stilul structural pentru acest tip de DataFrame se numește formă largă. Fiecare parte a datelor unui student se află în propria sa coloană, ceea ce face DataFrame destul de „larg” și, comparativ, nu foarte lung (înalt).
Acum nu este nimic în neregulă cu forma largă. Toate datele sunt acolo și ne permit să punem cu ușurință multe întrebări, cum ar fi:
- Care a fost scorul lui Inara la Testul #5? g[g.name==”Inara”].Q5
- Scorul cel mai mare la Testul #3? Q3.max()
- Scorul mediu la test al lui Mal? g[g.name==”Mal”].mean(axis=1)
Cu toate acestea, alte tipuri de întrebări sfidează răspunsurile simple, cum ar fi acestea:
- Care a fost scorul mediu general (pentru toate chestionarele)? (?)
- Cum s-a comparat performanța la clasă între prima jumătate a semestrului (chestionarele 1-4) și a doua jumătate (chestionarele 5-8)? (?)
- Cum s-au comparat elevii în funcție de anul de studii? (?)
Motivul pentru care aceste întrebări sunt dificile este că avem scoruri la test distribuite pe diferite coloane. Atâta timp cât suntem fericiți să-i tratăm în astfel de grupuri, este ușor, dar de îndată ce vrem să împărțim scorurile la test într-un alt mod, devine greu.
Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 2: Introduction to Data Science, v. 1.1. Copyright © 2020 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 2
Lasă un răspuns