13) Deci am evaluat prima rulare a modelului nostru. Nu s-au găsit reguli. Nu sunt multe de evaluat acolo, nu? Deci, să revenim la perspectiva designului și să aruncăm o privire asupra acelor parametri pe care i-am evidențiat pe scurt în pașii anteriori. Există doi factori principali care dictează dacă tipurile de frecvență sunt sau nu traduse în reguli de asociere: procentul de încredere și procentul de suport. Procentul de încredere este o măsură a cât de încrezători suntem că atunci când un atribut este marcat ca adevărat, atributul asociat va fi, de asemenea, marcat ca adevărat. În exemplul de analiză clasică a coșului de cumpărături, am putea analiza două articole adesea asociate unul cu celălalt: fursecuri și lapte. Dacă am examina zece coșuri de cumpărături și am constata că fursecurile au fost achiziționate în patru dintre ele, iar laptele a fost achiziționat în șapte și că, în continuare, în trei din cele patru cazuri în care au fost achiziționate fursecuri, laptele era și în acele coșuri, am avea 75% încredere în regula asociației: fursecuri → lapte. Acesta este calculat prin împărțirea celor trei cazuri în care fursecurile și laptele au coincis la cele patru instanțe în care ar fi putut coincide (3/4 = 0,75 sau 75%). Regula fursecuri → lapte a avut șansa să apară de patru ori, dar a avut loc doar de trei ori, așa că încrederea noastră în această regulă nu este absolută.
Acum luați în considerare reciproca regulii: lapte → fursecuri. Laptele a fost găsit în șapte dintre cele zece coșuri ipotetice ale noastre, în timp ce fursecurile au fost găsite în patru. Știm că coincidența sau frecvența conexiunii dintre aceste două produse este de trei. Prin urmare, încrederea noastră în lapte → fursecuri scade la doar 43% (3/7 = 0,429 sau 43%). Laptele a avut șansa de a fi găsit cu fursecuri de șapte ori, dar a fost găsit doar cu ele de trei ori, așa că încrederea noastră în lapte → fursecuri este puțin mai mică decât încrederea noastră în fursecuri → lapte. Dacă o persoană vine la magazin cu intenția de a cumpăra fursecuri, suntem mai încrezători că va cumpăra și lapte decât dacă intențiile i-ar fi fost inversate. La acest concept se face referire în mineritul regulilor de asociere ca Premisa → Concluzie. Premisele sunt uneori denumite și antecedente, în timp ce concluziile sunt uneori denumite consecințe. Pentru fiecare împerechere, procentele de încredere vor diferi în funcție de atributul care este premisa și de concluzie. Când sunt găsite asocieri între trei sau mai multe atribute, de exemplu, fursecuri, biscuiți → lapte, procentele de încredere sunt calculate pe baza celor două atribute găsite cu al treilea. Acest lucru poate deveni complicat de făcut manual, deci este bine să avem RapidMiner pentru a găsi aceste combinații și a rula calculele pentru noi!
Procentul de suport este o măsură mai ușor de calculat. Acesta este pur și simplu de câte ori a apărut regula, împărțit la numărul de observații din setul de date. Numărul de articole din setul de date este numărul absolut de ocazii în care asocierea ar fi putut avea loc, din moment ce fiecare client ar fi putut achiziționa fursecuri și lapte împreună în coșul de cumpărături. În fapt nu au făcut-o, și un astfel de fenomen ar fi foarte puțin probabil în orice analiză. Posibil, dar improbabil. Știm că, în exemplul nostru ipotetic, fursecurile și laptele au fost găsite împreună în trei din zece coșuri de cumpărături, așa că procentul nostru de suport pentru această asociere este de 30% (3/10 = 0,3, sau 30%). Nu există o reciprocă pentru procentele de suport, deoarece această valoare este pur și simplu numărul de ori în care asocierea a avut loc împărțit la numărul de ori în care ar fi putut apărea loc în setul de date.
Deci, acum că înțelegem acești doi parametri esențiali în mineritul regulilor de asociere, să facem o modificare a parametrilor și să vedem dacă găsim reguli de asociere în datele noastre. Ar trebui să fiți din nou în perspectiva designului, dar dacă nu, reveniți acum. Faceți clic pe operatorul Create Association Rules și modificați parametrul de încredere minimă la 0,5 (consultați Figura 5-10). Acest lucru indică lui RapidMiner că orice asociere cu cel puțin 50% de încredere ar trebui să fie afișată ca regulă. Având acesta drept prag pentru procentul de încredere, dacă am folosi coșurile de cumpărături ipotetice discutate în paragrafele anterioare pentru a explica încrederea și suportul, fursecuri → lapte ar reveni, de regulă, deoarece procentul de încredere a fost de 75%, în timp ce lapte → fursecuri nu ar reveni, datorită procentului de încredere de 43% al acelei asociații. Să rulăm din nou modelul nostru cu valoarea de încredere 0,5 și să vedem ce obținem.
Figura 5-10. Modificarea pragului procentual de încredere.
Figura 5-11. Patru reguli găsite cu pragul de încredere de 50%.
14) Evrika! Am găsit reguli, și bănuiala noastră că organizațiile religioase, familiale și hobby sunt legate a fost corectă (rețineți Figura 5-7). Uitați-vă la regula numărul patru. A ratat cu puțin să fie considerată o regulă cu un prag de încredere de 80% la 79,6%. Celelalte asociații ale noastre au procente mai mici de încredere, dar sunt încă destul de bune. Putem observa că pentru fiecare dintre aceste patru reguli, mai mult de 20% dintre observațiile din setul nostru de date le susțin. Rețineți că, deoarece suportul nu este reciproc, procentele de suport pentru regulile 1 și 3 sunt aceleași, ca și pentru regulile 2 și 4. Pe măsură ce premisele și concluziile au fost inversate, procentele de încredere au variat totuși. Dacă ne-am fi setat pragul de încredere la 0,55 (sau 55% la sută), regula 1 ar renunța la rezultatele noastre, astfel încât Familia → Religios ar fi o regulă, dar Religios → Familia nu ar fi. Celelalte calcule din dreapta (LaPlace.. .Conviction) sunt indicatori aritmetici suplimentari ai puterii relațiilor regulilor. Pe măsură ce comparați aceste valori cu procentele de suport și de încredere, veți vedea că se urmăresc destul de consecvent între ele.
Dacă doriți, puteți reveni la perspectiva designului și experimentați. Dacă faceți clic pe operatorul FP-Growth, puteți modifica valoarea min support. Rețineți că, în timp ce procentul de suport este valoarea calculată și afișată de operatorul Create Association Rules, parametrul min support din FP-Growth necesită de fapt un nivel de încredere. Valoarea implicită de 0,95 este foarte comună în multe analize de date, dar poate doriți să o reduceți puțin și să rulați din nou modelul pentru a vedea ce se întâmplă. Scăderea min support la 0,5 oferă reguli suplimentare, inclusiv unele cu mai mult de două atribute în regulile de asociere. Pe măsură ce experimentați, puteți vedea că un miner de date ar putea avea nevoie să meargă înainte și înapoi de mai multe ori între modelare și evaluare înainte de a trece la…
IMPLEMENTARE
L-am putut ajuta pe Roger cu întrebarea lui. Există legături între tipurile de grupuri comunitare? Da, există. Am descoperit că bisericile comunității, familia și organizațiile de hobby ale comunității au câțiva membri comuni. Poate fi puțin surprinzător faptul că grupurile politice și profesionale nu par a fi interconectate, dar aceste grupuri pot fi, de asemenea, mai specializate și, prin urmare, este posibil să nu există o atracție sau o nevoie extraordinară între organizații. Se pare că Roger va avea cel mai mare noroc să găsească grupuri care să colaboreze la proiecte din oraș, implicând biserici, pasionați și organizații de familie. Folosindu-și contactele dintre pastorii locali și alți clerici, el ar putea cere voluntari din congregațiile lor pentru a conduce proiecte de curățare a parcurilor orașului folosite pentru sporturile tinerilor (regula asociației de organizații familiale) sau pentru a îmbunătăți o pistă de ciclism locală (regula de asociație a organizațiilor de hobby).
REZUMAT
Scenariul fictiv din acest capitol, cu dorința lui Roger de a folosi grupuri comunitare pentru a-și îmbunătăți orașul, a arătat cum mineritul de date a regulilor de asociere poate identifica legături în date care pot avea o aplicație practică. Pe lângă faptul că am aflat despre procesul de creare a modelelor de reguli de asociere în RapidMiner, am introdus un nou operator care ne-a permis să schimbăm tipurile de date ale atributelor. De asemenea, am folosit natura ciclică a lui CRISP-DM pentru a înțelege că, uneori, mineritul datelor implică unele „săpături” înainte și înapoi înainte de a trece la pasul următor. Ați învățat cum sunt calculate procentele de suport și de încredere și despre importanța acestor două valori în identificarea regulilor și determinarea puterii acestora într-un set de date.
Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date
Lasă un răspuns