Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Strategia de testarea ipotezelor în statistică

Strategia de testarea ipotezelor în statistică

De obicei, când folosești testarea ipotezelor, ai idee că lumea este puțin surprinzătoare; că nu este exact așa cum spune înțelepciunea convențională că este. Ocazional, când folosești testarea ipotezelor, speri să confirmi că lumea nu este surprinzătoare, că este așa cum prezice înțelepciunea convențională. Rețineți că, în ambele cazuri, vă întrebați: „Este lumea diferită de cea obișnuită, este surprinzătoare?” Deoarece lumea nu este de obicei surprinzătoare și pentru că în statistici nu ești niciodată 100% sigur de ceea ce îți spune un eșantion despre o populație, nu poți spune că eșantionul tău implică faptul că lumea este surprinzătoare decât dacă ești aproape sigur că o face. Cazul plictisitor, nesurprinzător, obișnuit, nu câștigă doar dacă există egalitate, el primește un avantaj mare de la start. Nu poți spune că lumea este surprinzătoare, că populația este neobișnuită, decât dacă dovezile sunt foarte puternice. Aceasta înseamnă că atunci când vă aranjați testele, trebuie să o faceți într-o manieră care să facă dificil pentru lumea neobișnuită și surprinzătoare să câștige sprijin.

Primul pas în metoda de bază de testare a ipotezelor este de a decide ce valoare ar lua o anumită măsură a populației dacă lumea nu ar fi surprinzătoare. În al doilea rând, decideți cum ar arăta distribuția de eșantionare a unei statistici de eșantion dacă măsura populației ar avea acea valoare nesurprinzătoare. În al treilea rând, calculați acea statistică din eșantionul dvs. și vedeți dacă ar fi putut proveni cu ușurință din distribuția de eșantionare a acelei statistici dacă populația nu a fost surprinzătoare. În al patrulea rând, decideți dacă populația din care provine eșantionul dvs. este surprinzătoare, deoarece statistica eșantionului dvs. nu ar fi putut proveni cu ușurință din distribuția de eșantionare generată din populația care nu este surprinzătoare.

Toate acestea sună complicat, dar este într-adevăr destul de simplu. Aveți un eșantion și media, sau o altă statistică, din acel eșantion. Cu înțelepciunea convențională, ipoteza nulă că lumea este plictisitoare și nu este surprinzătoare, vă spune că eșantionul dvs. provine dintr-o anumită populație. Combinarea ipotezei nule cu ceea ce știu statisticienii vă spune din ce distribuție de eșantionare provine statistica eșantionului dvs. dacă ipoteza nulă este adevărată. Dacă sunteți aproape sigur că statistica eșantionului provine din acea distribuție de eșantionare, eșantionul acceptă valoarea nulă. Dacă statistica eșantionului „a venit probabil” dintr-o distribuție de eșantionare generată de o altă populație, eșantionul susține ipoteza alternativă că populația este „ca altceva”.

Imaginați-vă că Thad Stoykov lucrează în departamentul de marketing al Pedal Pushers, o companie care fabrică haine pentru bicicliști. Pedal Pushers tocmai a finalizat o mare campanie de publicitate în diverse reviste de biciclete și în aer liber, iar Thad dorește să știe dacă campania a crescut recunoașterea mărcii Pedal Pushers, astfel încât peste 30% dintre potențialii clienți să o recunoască. O modalitate de a face acest lucru ar fi să luați un eșantion de clienți potențiali și să vedeți dacă cel puțin 30% dintre cei din eșantion recunosc marca Pedal Pushers. Totuși, ce se întâmplă dacă eșantionul este mic și doar 30% din eșantion recunoaște Pedal Pushers? Deoarece există variații între eșantioane, un astfel de eșantion ar fi putut proveni cu ușurință dintr-o populație în care mai puțin de 30% recunosc marca. Dacă populația ar avea de fapt puțin mai puțin de 30% recunoaștere, distribuția de eșantionare ar include destul de multe eșantioane cu proporții puțin peste 30%, mai ales dacă eșantioanele sunt mici. Pentru a fi sigur că mai mult de 30% din populație recunoaște Pedal Pushers, Thad va dori să constate că puțin mai mult de 30% din eșantion recunoaște. Cât de mult, depinde de mărimea eșantionului, de variația din cadrul eșantionului și de câte șanse dorește să ia pentru a ajunge la concluzia că campania nu a funcționat atunci când a funcționat de fapt.

Să urmăm strategia formală de testare a ipotezelor împreună cu Thad. În primul rând, trebuie să descrie în mod explicit populația din care ar putea proveni eșantionul său în două cazuri diferite. Primul caz este cazul nesurprinzător, cazul în care nu există nicio diferență între populația din care provine eșantionul său și majoritatea celorlalte populații. Acesta este cazul în care campania publicitară nu a făcut cu adevărat diferența și generează ipoteza nulă. Al doilea caz este cazul surprinzător când eșantionul său provine dintr-o populație care este diferită de majoritatea celorlalți. Aici a funcționat campania publicitară și generează ipoteza alternativă. Descrierile acestor cazuri sunt scrise într-o manieră formală. Ipoteza nulă se numește de obicei H0. Ipoteza alternativă se numește fie H1, fie Ha. Pentru Thad și departamentul de marketing Pedal Pushers, ipoteza nulă va fi:

H0: proporția populației care recunoaște marca Pedal Pushers ≤ 0,30

iar alternativa va fi:

Ha: proporție din populație care recunoaște marca Pedal Pushers > 0,30

Observați că Thad a aranjat pachetul față de campania care a funcționat punând valoarea proporției populației, ceea ce înseamnă că campania a avut succes în ipoteza alternativă. De asemenea, observați că între H0 și Ha au fost acoperite toate valorile posibile ale proporției populației (>, = și < 0,30).

În al doilea rând, Thad trebuie să creeze o regulă pentru a decide între cele două ipoteze. El trebuie să decidă ce statistică să calculeze din eșantionul său și din ce distribuție de eșantionare ar proveni acea statistică dacă ipoteza nulă, H0, este adevărată. De asemenea, trebuie să împartă valorile posibile ale acelei statistici în intervale obișnuite și neobișnuite dacă valoarea nulă este adevărată. Regula de decizie a lui Thad va fi că, dacă statistica eșantionului său are o valoare obișnuită, una care ar putea apărea cu ușurință dacă H0 este adevărată, atunci eșantionul său ar fi putut proveni cu ușurință dintr-o populație ca cea care a descris H0. Dacă statistica eșantionului său are o valoare care ar fi neobișnuită dacă H0 este adevărată, atunci eșantionul provine probabil dintr-o populație ca cea descrisă în Ha. Observați că ipotezele și inferența sunt despre populația inițială, în timp ce regula de decizie este despre o statistică eșantion. Legătura dintre populație și eșantion este distribuția eșantionării. Cunoașterea frecvenței relative a unei statistici de eșantion atunci când populația inițială are o proporție cu o valoare cunoscută este ceea ce îi permite lui Thad să decidă care sunt valorile obișnuite și neobișnuite pentru statistica eșantionului.

Ideea de bază din spatele regulii de decizie este să decideți, cu ajutorul a ceea ce știu statisticienii despre distribuțiile de eșantionare, cât de departe de valoarea ipotezei nule pentru populație poate fi valoarea eșantionului înainte de a vă simți incomod să decideți că eșantionul provine dintr-o populație ca cea ipotezat ca nulă. Deși ipotezele sunt scrise în termeni de statistici descriptive despre populație – medii, proporții sau chiar o distribuție a valorilor – regula de decizie este de obicei scrisă în termenii uneia dintre distribuțiile de eșantionare standardizate – t, z normal sau alta – a statisticilor ale căror distribuții se află în tabelele din spatele manualelor de statistică. Distribuțiile de eșantionare din aceste tabele sunt legătura dintre statistica eșantionului și populația din ipoteza nulă. Dacă înveți să te uiți la modul în care este calculată statistica eșantionului, vei vedea că toate diferitele teste de ipoteză sunt pur și simplu variații ale unei teme. Dacă insistați să încercați pur și simplu să memorați modul în care este calculată fiecare dintre numeroasele statistici diferite, nu veți vedea că toate testele de ipoteză sunt efectuate în mod similar și va trebui să învățați mai multe lucruri diferite decât variațiile unui lucru.

Thad a luat suficiente statistici pentru a ști că distribuția de eșantionare a proporțiilor eșantionului este distribuită în mod normal cu o medie egală cu proporția populației și o abatere standard care depinde de proporția populației și de dimensiunea eșantionului. Deoarece distribuția proporțiilor eșantionului este distribuită în mod normal, el se poate uita la linia de jos a unui tabel-t și poate afla că numai 0,05 dintre toate eșantioanele vor avea o proporție mai mare de 1,645 abateri standard peste 0,30 dacă ipoteza nulă este adevărată. Thad decide că este dispus să-și asume o șansă de 5% să ajungă la concluzia că acea campanie nu a funcționat când a funcționat de fapt. Prin urmare, decide să concluzioneze că eșantionul provine dintr-o populație cu o proporție mai mare de 0,30 care a auzit de Pedal Pushers, dacă proporția eșantionului este mai mare de 1,645 abateri standard peste 0,30. După ce a făcut puțină aritmetică, Thad constată că regula sa de decizie este să decidă că acea campanie a fost eficientă dacă eșantionul are o proporție mai mare de 0,375 care a auzit de Pedal Pushers. Altfel eșantionul ar fi putut proveni prea ușor dintr-o populație cu o proporție egală sau mai mică de 0,30.

Tabelul 4.1 Partea de jos a unui tabel-t, care arată distribuția normală

alpha 0,1 0,05 0,03 0,01
df infinity 1,28 1,65 1,96 2,33

Pasul final este de a calcula statistica eșantionului și de a aplica regula deciziei. Dacă statistica eșantionului se încadrează în intervalul obișnuit, datele susțin H0, lumea este probabil deloc surprinzătoare, iar campania nu a făcut nicio diferență. Dacă statistica eșantionului este în afara intervalului obișnuit, datele suportă Ha, lumea este puțin surprinzătoare, iar campania a afectat numărul de oameni care au auzit de Pedal Pushers. Când Thad se uită în sfârșit la datele eșantionului, el găsește că 0,39 din eșantion au auzit de Pedal Pushers. Campania publicitară a avut succes!

Sursa: Mohammad Mahbobi and Thomas K. Tiemann, Introductory Business Statistics with Interactive Spreadsheets – 1st Canadian Edition, © 2015 Mohammad Mahbobi, licența CC BY 4.0

© 2021 MultiMedia Publishing, Statistica pentru afaceri. Traducere și adaptare: Nicolae Sfetcu

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *