Home » Articole » Știri » Date cu formă largă în știința datelor

Date cu formă largă în știința datelor

postat în: Știri 0

Luați în considerare următorul DataFrame (numit „g”), care conține catalogul unui profesor pentru studenții săi:

print(g)
▌   name year Q1   Q2  Q3   Q4  Q5   Q6  Q7  Q8
▌0 Beyonce So 9.0 10.0 7.0 10.0 8.0 10.0 9.0 10.0
▌1 Jay-Z   Jr 7.0 10.0 4.0 10.0 10.0 8.0 3.0 10.0
▌2 Bortis  Sr 8.0 10.0 7.0 3.0 7.0 7.0 7.0 9.0
▌3 Han     So NaN 1.0 NaN 10.0 7.0 8.0 7.0 2.0
▌4 Mal     Jr 5.0 4.0 9.0 NaN 7.0 2.0 5.0 10.0
▌5 Inara   Jr 3.0 3.0 4.0 10.0 6.0 4.0 7.0 5.0
▌6 Obi-wan So 5.0 10.0 9.0 4.0 1.0 4.0 NaN 2.0
▌7 Finn    Jr 6.0 3.0 5.0 6.0 10.0 NaN NaN 3.0

 

Nu este greu de spus ce se întâmplă: numele fiecărui elev și anul de școală sunt înregistrate, la fel ca nota lor la cele opt chestionare ale clasei. Unii elevi au luat zero la unul sau mai multe chestionare (cum a făcut Han pentru chestionarele 1 și 3), iar notele testului variază de la 0 la 10.

Stilul structural pentru acest tip de DataFrame se numește formă largă. Fiecare parte a datelor unui student se află în propria sa coloană, ceea ce face DataFrame destul de „larg” și, comparativ, nu foarte lung (înalt).

Acum nu este nimic în neregulă cu forma largă. Toate datele sunt acolo și ne permit să punem cu ușurință multe întrebări, cum ar fi:

  • Care a fost scorul lui Inara la Testul #5? g[g.name==”Inara”].Q5
  • Scorul cel mai mare la Testul #3? Q3.max()
  • Scorul mediu la test al lui Mal? g[g.name==”Mal”].mean(axis=1)

Cu toate acestea, alte tipuri de întrebări sfidează răspunsurile simple, cum ar fi acestea:

  • Care a fost scorul mediu general (pentru toate chestionarele)? (?)
  • Cum s-a comparat performanța la clasă între prima jumătate a semestrului (chestionarele 1-4) și a doua jumătate (chestionarele 5-8)? (?)
  • Cum s-au comparat elevii în funcție de anul de studii? (?)

Motivul pentru care aceste întrebări sunt dificile este că avem scoruri la test distribuite pe diferite coloane. Atâta timp cât suntem fericiți să-i tratăm în astfel de grupuri, este ușor, dar de îndată ce vrem să împărțim scorurile la test într-un alt mod, devine greu.

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 2: Introduction to Data Science, v. 1.1. Copyright © 2020 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2021 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 2

Inteligența, de la originile naturale la frontierele artificiale - Inteligența Umană vs. Inteligența Artificială
Inteligența, de la originile naturale la frontierele artificiale – Inteligența Umană vs. Inteligența Artificială

Inteligența: redefinirea frontierelor. Explorarea Inteligenței Umane și Artificiale. Descoperă, învață și imaginează-ți viitorul.

Nu a fost votat 22.87 lei49.77 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat 13.70 lei31.53 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Amenințările persistente avansate în securitatea cibernetică – Războiul cibernetic
Amenințările persistente avansate în securitatea cibernetică – Războiul cibernetic

Această carte esențială servește atât ca analiză detaliată, cât și ca un apel la acțiune pentru oricine este implicat în domeniul securității digitale.

Nu a fost votat 9.12 lei24.79 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *