Home » Articole » Articole » Știință » Matematica » Știința datelor (Data science » Analiza exploratorie a datelor: bivariat – Conceptul de semnificație statistică

Analiza exploratorie a datelor: bivariat – Conceptul de semnificație statistică

În acest capitol, ne vom extinde repertoriul analizei exploratorii a datelor (EDA) pentru a acoperi datele bivariate, ceea ce înseamnă să studiem relațiile dintre perechile de variabile, mai degrabă decât să ne concentrăm doar pe o singură variabilă la un moment dat. Aici se desfășoară cea mai mare parte a acțiunii: veți fi uimiți și impresionați de cât de mult mai putem scoate dintr-un set de date din acest capitol.

Analiza datelor bivariate este potrivită în special pentru tabelele (în Python, DataFrames) din secțiunea 7.1 și capitolele 16-18. Acest lucru se datorează faptului că fiecare coloană a unui tabel este o variabilă care se potrivește unu-la-unu cu orice altă coloană din tabel.

În exemplul Simpsons (secțiunea 16.2), a patra valoare a species îi corespunde Lisei, la fel ca și a patra valoare a age, a patra valoare fave, a patra valoare gender, a patra valoare fave, a patra valoare IQ, a patra valoare a hair, și cea de-a patra valoare a salary. Aceasta înseamnă că, dacă examinăm oricare două coloane, știm că indicii de potrivire merg împreună (adică reprezintă aceeași persoană). Această conexiune implicită este cea care ne permite să examinăm în mod semnificativ o pereche de variabile.

Conceptul de semnificație statistică

Înainte de a ajunge la detalii, trebuie să ne confruntăm direct cu ceea ce este probabil cel mai important concept din statistică, cel al semnificației statistice (sau „stat sig”, pe scurt). Este atât de extrem de important încât o să vă rog să lăsați orice gustare pe care o mâncați acum, să vă încrucișați mâinile și să acordați o atenție deosebită.

Toate formele de analiză bivariată sunt variații pe o singură temă, și anume: descoperirea dacă există sau nu o asociere între două variabile. Amintiți-vă din secțiunea 10.2 că o asociere înseamnă că două variabile sunt corelate într-un fel: că anumite valori ale uneia tind să meargă mai des cu anumite valori ale celeilalte.Pentru a fi concret, să presupunem că una dintre variabilele noastre este sexul (la naștere, mascul sau femeia) și cealaltă este înălțimea (în inci, să zicem). Vrem să știm: „persoanele mai înalte sunt mai des bărbați, iar persoanele mai scunde sunt mai des femei sau nu există nicio legătură între sex și înălțime?”

Acum, primul lucru pe care vă gândiți să îl faceți, desigur, este să obțineți un eșantion (recrutarea voluntarilor, de exemplu) atât de bărbați, cât și de femei, de măsurare a înălțimii acestora și de obținerea mediei. Să presupunem că faci asta și că ai următoarele numere:

Femele – înălțime medie: 65,5 inci
Masculi – înălțime medie: 69,3 inci

În mod clar, în eșantionul dvs., bărbații erau în medie ceva mai înalți cu 3,8 inci, de fapt. Un gânditor nepăsător ar concluziona imediat: „aha! Ipoteza mea este confirmată. Mi-am efectuat studiul științific și am calculat matematic rezultatele, iar acum iată câteva date concrete care demonstrează concluzia că, în general, bărbații tind să fie mai înalți decât femeile.”

Ești convins de acest raționament?

Sper că nu ești. Iată de ce. Să schimbăm exemplul și să presupunem că, în loc de înălțime, am măsurat IQ-ul voluntarilor noștri.Luând mediile ca înainte, găsim aceste cifre:

Femeile – IQ mediu: 102,4
Masculi – IQ mediu: 98,6

În acest caz, media femeilor din eșantion a fost mai mare decât a bărbaților. Să tragem concluzia că, în general, femeile tind să fie mai inteligente decât bărbații?

Sursa: Stephen Davies, The Crystal Ball – Instruction Manual, Vol. 1: Introduction to Data Science, v. 1.1. Copyright © 2021 Stephen Davies. Licența CC BY-SA 4.0. Traducere și adaptare: Nicolae Sfetcu. © 2024 MultiMedia Publishing, Introducere în Știința Datelor, Volumul 1

Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat 14.32 lei25.09 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Analitica rețelelor sociale
Analitica rețelelor sociale

Descoperă puterea datelor și transformă modul în care înțelegi și utilizezi rețelele sociale.

Nu a fost votat 19.11 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Transformă-ți perspectiva asupra tehnologiei blockchain și începe să descoperi oportunitățile digitale de mâine!

Nu a fost votat 23.89 lei57.41 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *