Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Statistici: Verificarea relaționării variabilelor prin corelația rangului lui Spearman

Statistici: Verificarea relaționării variabilelor prin corelația rangului lui Spearman

Sunt vânzările mai mari în acele zone geografice în care se cheltuiește mai mult pentru publicitate? Cheltuielile mai mari pentru întreținerea preventivă reduc timpul de nefuncționare? Lucrătorilor din producție cu mai multă vechime le sunt atribuite cele mai populare locuri de muncă? Toate aceste întrebări se referă la modul în care cele două variabile se mișcă în sus și în jos împreună: când una crește, se ridică și cealaltă? Când una urcă cealaltă coboară? Nivelul uneia nu are niciun efect asupra nivelului celeilalte? Statisticienii măsoară modul în care două variabile se mișcă împreună prin măsurarea coeficientului de corelație dintre cele două.

Ideea de bază este de a măsura cât de bine sunt legate două variabile. Privind pur și simplu cuvântul, puteți vedea că înseamnă corelat. Dacă de câte ori variabila X crește cu 1, variabila Y se modifică cu o valoare stabilită, atunci X și Y sunt perfect legate împreună, iar un statistician ar spune că sunt perfect corelate. Măsurarea corelației necesită de obicei date de interval de la populații normale, dar a fost dezvoltată o procedură de măsurare a corelației din datele clasificate. Coeficienții de corelație obișnuiți variază de la -1 la +1. Semnul vă spune dacă cele două variabile se mișcă în aceeași direcție (corelație pozitivă) sau în direcții opuse (corelație negativă) pe măsură ce se schimbă împreună. Valoarea absolută a coeficientului de corelație vă spune cât de strâns legate între ele sunt variabilele; un coeficient de corelație apropiat de +1 sau de -1 înseamnă că sunt strâns legate între ele, un coeficient de corelație apropiat de 0 înseamnă că nu sunt foarte strâns legate între ele. Coeficientul neparametric de corelare a rangului lui Spearman este scalat astfel încât să respecte aceleași convenții.

Adevărata formulă pentru calcularea coeficientului de corelare a rangului lui Spearman este complexă. Majoritatea oamenilor care folosesc corelația de rang calculează coeficientul cu un program de calculator, dar examinarea ecuației vă va ajuta să vedeți cum funcționează corelația de rang a lui Spearman. Este:

rs = 1 – (6/n(n2 – 1)(Σd2)

unde:

n = numărul de observații

d = diferența dintre ranguri pentru o observație

Rețineți că dorim ca acest coeficient de corelație non-parametric să varieze de la -1 la +1, astfel încât să acționeze ca un coeficient de corelație parametrică. Acum priviți ecuația. Pentru o anumită dimensiune a eșantionului n, singurul lucru care va varia este Σd2. Dacă eșantioanele sunt perfect corelate pozitiv, atunci aceeași observație va fi clasată pe primul loc pentru ambele variabile, o altă observație clasată pe locul al doilea pentru ambele variabile etc. Asta înseamnă că fiecare diferență de ranguri d va fi zero, numărătorul fracției la sfârșitul ecuației va fi zero, iar fracția respectivă va fi zero. Scăzând zero din unu ca rezulta unu, deci dacă observațiile sunt clasate în aceeași ordine de ambele variabile, coeficientul de corelație a rangului lui Spearman este +1. În mod similar, dacă observațiile sunt clasate exact în ordine opusă de către cele două variabile, vor exista multe d2 mari, iar Σd2 va fi la maxim. Coeficientul de corelare a rangului ar trebui să fie egal cu -1, așa că doriți să scădeți 2 din 1 în ecuație. Partea din mijloc a ecuației, 6/n(n2-1), pur și simplu scalează Σd2, astfel încât întregul termen să fie egal cu 2. Pe măsură ce n crește, Σd2 va crește dacă cele două variabile produc poziții exact opuse. În același timp, n(n2-1) va crește, astfel încât 6/n(n2-1) va crește mai puțin.

Situată în Saskatchewan, Robin Hood Company produce făină, făină de porumb, și mixuri de brioșe, prăjituri și pâine. Pentru a-și crește cota de piață în Statele Unite, compania are în vedere introducerea unui nou produs, mixul Instant Cheese Grits. Cheese Grits este un fel de mâncare făcut combinând granule fierte cu brânză și ouă, apoi coacerea amestecului. Este o mâncare favorită în sudul Statelor Unite, dar pentru că durează mult timp să se gătească, nu se mai folosește prea mult. Amestecul Robin Hood va permite cuiva să pregătească mâncarea în 20 de minute într-o singură tigaie, așa că, dacă are un gust potrivit, produsul ar trebui să se vândă bine în sudul Statelor Unite, împreună cu alte părți ale Americii de Nord. Sandy Owens este manager de produs pentru Instant Cheese Grits și decide ce fel de aromă de brânză să folosească. Nouă arome diferite de brânză au fost testate cu succes în producție, iar mostrele realizate cu fiecare dintre aceste nouă arome au fost evaluate de două grupuri: în primul rând, un grup de experți în alimentație și, în al doilea rând, un grup de potențiali clienți. Grupului de experți i s-au oferit spre degustare trei feluri de mâncare de brânză „de casă” și au clasat mostrele în funcție de cât de bine se potriveau cu realitatea. Clienților li s-au oferit mostrele și li s-a cerut să le clasifice în funcție de cât mult „au gust de brânză adevărată”. De-a lungul timpului, Robin Hood a descoperit că folosirea experților este o modalitate mai bună de a identifica aromele care vor face un produs de succes, dar aceștia verifică întotdeauna opinia experților față de un grup de clienți. Sandy trebuie să decidă dacă experții și clienții sunt practic în acord. Dacă da, atunci ea va folosi aroma evaluată mai întâi de experți. Datele din testele gustative sunt în Tabelul 7.5.

Tabelul 7.5 Date din două teste de gust ale aromelor de brânză

Arome Evaluare expert Evaluare consumator
NYS21 7 8
K73 4 3
K88 1 4
Ba4 8 6
Bc11 2 5
McA A 3 1
McA A 9 9
WIS 4 5 2
WIS 43 6 7

Sandy decide să folosească software-ul de statistică SAS pe care Robin Hood l-a achiziționat. Ipotezele ei sunt:

Ho: Corelația dintre experți și clasamentele consumatorilor este zero sau negativă.

Ha: Corelația este pozitivă.

Sandy va decide că grupul de experți știe cel mai bine dacă datele sprijină Ha că există o corelație pozitivă între experți și consumatori. Ea merge la un tabel care arată ce valoare a coeficientului de corelare a rangului lui Spearman va separa o coadă de restul distribuției de eșantionare dacă nu există nicio asociere în populație. O parte este prezentată în Tabelul 7.6.

Tabelul 7.6 Câteva valori critice cu o singură coadă pentru coeficientul de corelație a rangului lui Spearman

n α=.05 α=.025 α=.10
5 .9
6 .829 .886 .943
7 .714 .786 .893
8 .643 .738 .833
9‌ .6 .683 .783
10 .564 .648 .745
11 .523 .623 .736
12 .497 .591 .703

Folosind α = 0,05, parcurgând rândul n = 9 din Tabelul 7.6, Sandy vede că, dacă Ho este adevărat, numai 0,05 din toate probele vor avea un rs mai mare de 0,600. Sandy decide că, dacă corelația ei de rang al eșantionului este mai mare de 0,600, datele susțin alternativa, iar aroma K88, cea clasată cel mai înalt de experți, va fi folosită. Ea se întoarce mai întâi la cele două seturi de clasamente și găsește diferența în rangul dat fiecărei arome de către cele două grupuri, ridică la pătrat acele diferențe și le adună împreună, așa cum se arată în Tabelul 7.7.

Tabelul 7.7 Fișa de lucru a lui Sandy

Aroma Evaluare expert Evaluare consumator Diferența
NYS21 7 8 -1 1
K73 4 3 1 1
K88 1 4 -3 9
Ba4 8 6 2 4
Bc11 2 5 -3 9
McA A 3 1 2 4
McA A 9 9 0 0
WIS 4 5 2 3 9
WIS 43 6 7 -1 1
Suma 38

Apoi folosește formula de mai sus pentru a găsi coeficientul de corelație a rangului Spearman:

1 – [6/(9)(92 – 1)][38] = 1 – 0,3166 – 0,6834

Coeficientul ei de corelație al eșantionului este 0,6834, mai mare de 0,600, așa că decide că experții sunt de încredere și decide să folosească aroma K88. Chiar dacă Sandy are date ordinale care clasifică doar aromele, ea poate efectua totuși un test statistic valid pentru a vedea dacă experții sunt de încredere. Statisticile au ajutat încă un manager să ia o decizie.

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat 23.52 lei56.50 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Big Data: Modele de afaceri - Securitatea megadatelor
Big Data: Modele de afaceri – Securitatea megadatelor

Termenul megadate (Big Data, date masive) este adesea folosit în mod vag pentru a desemna paleta de algoritmi, tehnologii și sisteme utilizate pentru colectarea datelor de volum și varietate fără precedent și extragerea de valoare din acestea prin calculul masiv … Citeşte mai mult

Nu a fost votat 18.80 lei28.23 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat 14.09 lei32.42 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *