Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Statistici: Verificarea relaționării variabilelor prin corelația rangului lui Spearman

Statistici: Verificarea relaționării variabilelor prin corelația rangului lui Spearman

Sunt vânzările mai mari în acele zone geografice în care se cheltuiește mai mult pentru publicitate? Cheltuielile mai mari pentru întreținerea preventivă reduc timpul de nefuncționare? Lucrătorilor din producție cu mai multă vechime le sunt atribuite cele mai populare locuri de muncă? Toate aceste întrebări se referă la modul în care cele două variabile se mișcă în sus și în jos împreună: când una crește, se ridică și cealaltă? Când una urcă cealaltă coboară? Nivelul uneia nu are niciun efect asupra nivelului celeilalte? Statisticienii măsoară modul în care două variabile se mișcă împreună prin măsurarea coeficientului de corelație dintre cele două.

Ideea de bază este de a măsura cât de bine sunt legate două variabile. Privind pur și simplu cuvântul, puteți vedea că înseamnă corelat. Dacă de câte ori variabila X crește cu 1, variabila Y se modifică cu o valoare stabilită, atunci X și Y sunt perfect legate împreună, iar un statistician ar spune că sunt perfect corelate. Măsurarea corelației necesită de obicei date de interval de la populații normale, dar a fost dezvoltată o procedură de măsurare a corelației din datele clasificate. Coeficienții de corelație obișnuiți variază de la -1 la +1. Semnul vă spune dacă cele două variabile se mișcă în aceeași direcție (corelație pozitivă) sau în direcții opuse (corelație negativă) pe măsură ce se schimbă împreună. Valoarea absolută a coeficientului de corelație vă spune cât de strâns legate între ele sunt variabilele; un coeficient de corelație apropiat de +1 sau de -1 înseamnă că sunt strâns legate între ele, un coeficient de corelație apropiat de 0 înseamnă că nu sunt foarte strâns legate între ele. Coeficientul neparametric de corelare a rangului lui Spearman este scalat astfel încât să respecte aceleași convenții.

Adevărata formulă pentru calcularea coeficientului de corelare a rangului lui Spearman este complexă. Majoritatea oamenilor care folosesc corelația de rang calculează coeficientul cu un program de calculator, dar examinarea ecuației vă va ajuta să vedeți cum funcționează corelația de rang a lui Spearman. Este:

rs = 1 – (6/n(n2 – 1)(Σd2)

unde:

n = numărul de observații

d = diferența dintre ranguri pentru o observație

Rețineți că dorim ca acest coeficient de corelație non-parametric să varieze de la -1 la +1, astfel încât să acționeze ca un coeficient de corelație parametrică. Acum priviți ecuația. Pentru o anumită dimensiune a eșantionului n, singurul lucru care va varia este Σd2. Dacă eșantioanele sunt perfect corelate pozitiv, atunci aceeași observație va fi clasată pe primul loc pentru ambele variabile, o altă observație clasată pe locul al doilea pentru ambele variabile etc. Asta înseamnă că fiecare diferență de ranguri d va fi zero, numărătorul fracției la sfârșitul ecuației va fi zero, iar fracția respectivă va fi zero. Scăzând zero din unu ca rezulta unu, deci dacă observațiile sunt clasate în aceeași ordine de ambele variabile, coeficientul de corelație a rangului lui Spearman este +1. În mod similar, dacă observațiile sunt clasate exact în ordine opusă de către cele două variabile, vor exista multe d2 mari, iar Σd2 va fi la maxim. Coeficientul de corelare a rangului ar trebui să fie egal cu -1, așa că doriți să scădeți 2 din 1 în ecuație. Partea din mijloc a ecuației, 6/n(n2-1), pur și simplu scalează Σd2, astfel încât întregul termen să fie egal cu 2. Pe măsură ce n crește, Σd2 va crește dacă cele două variabile produc poziții exact opuse. În același timp, n(n2-1) va crește, astfel încât 6/n(n2-1) va crește mai puțin.

Situată în Saskatchewan, Robin Hood Company produce făină, făină de porumb, și mixuri de brioșe, prăjituri și pâine. Pentru a-și crește cota de piață în Statele Unite, compania are în vedere introducerea unui nou produs, mixul Instant Cheese Grits. Cheese Grits este un fel de mâncare făcut combinând granule fierte cu brânză și ouă, apoi coacerea amestecului. Este o mâncare favorită în sudul Statelor Unite, dar pentru că durează mult timp să se gătească, nu se mai folosește prea mult. Amestecul Robin Hood va permite cuiva să pregătească mâncarea în 20 de minute într-o singură tigaie, așa că, dacă are un gust potrivit, produsul ar trebui să se vândă bine în sudul Statelor Unite, împreună cu alte părți ale Americii de Nord. Sandy Owens este manager de produs pentru Instant Cheese Grits și decide ce fel de aromă de brânză să folosească. Nouă arome diferite de brânză au fost testate cu succes în producție, iar mostrele realizate cu fiecare dintre aceste nouă arome au fost evaluate de două grupuri: în primul rând, un grup de experți în alimentație și, în al doilea rând, un grup de potențiali clienți. Grupului de experți i s-au oferit spre degustare trei feluri de mâncare de brânză „de casă” și au clasat mostrele în funcție de cât de bine se potriveau cu realitatea. Clienților li s-au oferit mostrele și li s-a cerut să le clasifice în funcție de cât mult „au gust de brânză adevărată”. De-a lungul timpului, Robin Hood a descoperit că folosirea experților este o modalitate mai bună de a identifica aromele care vor face un produs de succes, dar aceștia verifică întotdeauna opinia experților față de un grup de clienți. Sandy trebuie să decidă dacă experții și clienții sunt practic în acord. Dacă da, atunci ea va folosi aroma evaluată mai întâi de experți. Datele din testele gustative sunt în Tabelul 7.5.

Tabelul 7.5 Date din două teste de gust ale aromelor de brânză

Arome Evaluare expert Evaluare consumator
NYS21 7 8
K73 4 3
K88 1 4
Ba4 8 6
Bc11 2 5
McA A 3 1
McA A 9 9
WIS 4 5 2
WIS 43 6 7

Sandy decide să folosească software-ul de statistică SAS pe care Robin Hood l-a achiziționat. Ipotezele ei sunt:

Ho: Corelația dintre experți și clasamentele consumatorilor este zero sau negativă.

Ha: Corelația este pozitivă.

Sandy va decide că grupul de experți știe cel mai bine dacă datele sprijină Ha că există o corelație pozitivă între experți și consumatori. Ea merge la un tabel care arată ce valoare a coeficientului de corelare a rangului lui Spearman va separa o coadă de restul distribuției de eșantionare dacă nu există nicio asociere în populație. O parte este prezentată în Tabelul 7.6.

Tabelul 7.6 Câteva valori critice cu o singură coadă pentru coeficientul de corelație a rangului lui Spearman

n α=.05 α=.025 α=.10
5 .9
6 .829 .886 .943
7 .714 .786 .893
8 .643 .738 .833
9‌ .6 .683 .783
10 .564 .648 .745
11 .523 .623 .736
12 .497 .591 .703

Folosind α = 0,05, parcurgând rândul n = 9 din Tabelul 7.6, Sandy vede că, dacă Ho este adevărat, numai 0,05 din toate probele vor avea un rs mai mare de 0,600. Sandy decide că, dacă corelația ei de rang al eșantionului este mai mare de 0,600, datele susțin alternativa, iar aroma K88, cea clasată cel mai înalt de experți, va fi folosită. Ea se întoarce mai întâi la cele două seturi de clasamente și găsește diferența în rangul dat fiecărei arome de către cele două grupuri, ridică la pătrat acele diferențe și le adună împreună, așa cum se arată în Tabelul 7.7.

Tabelul 7.7 Fișa de lucru a lui Sandy

Aroma Evaluare expert Evaluare consumator Diferența
NYS21 7 8 -1 1
K73 4 3 1 1
K88 1 4 -3 9
Ba4 8 6 2 4
Bc11 2 5 -3 9
McA A 3 1 2 4
McA A 9 9 0 0
WIS 4 5 2 3 9
WIS 43 6 7 -1 1
Suma 38

Apoi folosește formula de mai sus pentru a găsi coeficientul de corelație a rangului Spearman:

1 – [6/(9)(92 – 1)][38] = 1 – 0,3166 – 0,6834

Coeficientul ei de corelație al eșantionului este 0,6834, mai mare de 0,600, așa că decide că experții sunt de încredere și decide să folosească aroma K88. Chiar dacă Sandy are date ordinale care clasifică doar aromele, ea poate efectua totuși un test statistic valid pentru a vedea dacă experții sunt de încredere. Statisticile au ajutat încă un manager să ia o decizie.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat 14.11 lei23.92 lei Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat 18.82 lei37.69 lei Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei11.09 lei Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.