Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Modelarea datelor în modelul de mineritul datelor cu regulile de asociere

Modelarea datelor în modelul de mineritul datelor cu regulile de asociere

postat în: Data mining 0

8) Reveniți la perspectiva designului. Vom folosi doi operatori specifici pentru a genera modelul nostru de mineritul datelor cu regulile de asociere. Înțelegeți că există mulți alți operatori oferiți în RapidMiner care pot fi utilizați în modele de reguli de asociere. De la început, am stabilit că acest ghid nu este un manual de instruire RapidMiner și, prin urmare, nu va acoperi orice operator posibil care ar putea fi utilizat într-un anumit model. Prin urmare, vă rugăm să nu presupuneți că exemplul acestui capitol demonstrează singura și unica modalitate de a aplica regulile de asociere. Aceasta este una dintre mai multe abordări posibile și sunteți încurajat să explorați alți operatori și funcționalitatea acestora.

Pentru a continua cu exemplul, utilizați câmpul de căutare din fila operatori pentru a căuta un operator numit FP-Growth. Rețineți că este posibil să găsiți unul numit W-FPGrowth. Aceasta este pur și simplu o implementare ușor diferită a algoritmului FP-Growth, care va căuta asocieri în datele noastre, așa că nu confundați cele două nume foarte asemănătoare. Pentru exemplul acestui capitol, selectați operatorul care se numește doar FP-Growth. Continuați și trageți-l în flux. FP în FP-Growth înseamnă Frequency Pattern. Analiza modelului de frecvență este utilă pentru multe tipuri de extragere de date și este o componentă necesară a mineritului regulilor de asociere. Fără a avea frecvențe ale combinațiilor de atribute, nu putem determina dacă vreunul dintre modelele din date apar suficient de des pentru a fi considerat reguli. Fluxul dvs. ar trebui să arate acum ca în Figura 5-6.

Figura 5-6. Adăugarea unui operator FP-Growth la un model de regulă de asociere.

9) Rețineți parametrul min support din partea dreaptă. Vom reveni la acest parametru în timpul porțiunii de evaluare a exemplului acestui capitol. De asemenea, asigurați-vă că atât portul dvs. exa, cât și portul fre sunt conectate la porturi res. Portul exa va genera o filă a exemplelor dvs. (observațiile setului dvs. de date și metadate), în timp ce portul fre va genera o matrice a oricăror modele frecvente pe care operatorul le-ar putea găsi în setul dvs. de date. Rulați modelul pentru a trece la perspectiva rezultatelor.

Figura 5-7. Rezultatele unui operator FP-Growth.

10) În perspectiva rezultatelor, vedem că unele dintre atributele noastre par să aibă unele modele frecvente și, de fapt, începem să vedem că trei atribute arată ca și cum ar putea avea o asociere între ele. Săgețile negre indică zone în care se pare că organizațiile religioase ar putea avea unele conexiuni naturale cu organizațiile de familie și de hobby. Putem investiga în continuare această posibilă conexiune adăugând un ultim operator la modelul nostru. Reveniți la perspectiva designului și, în caseta de căutare a operatorilor, căutați „Create Association” (din nou, fără ghilimele). Trageți operatorul Create Association Rules și plasați-l în spline care conectează portul fre la portul de res. Acest operator preia frecvent date din matricea de modele și caută orice tipare care apar atât de des încât ar putea fi considerate reguli. Modelul dvs. ar trebui să arate acum ca în Figura 5-8.

Figura 5-8. Adăugarea operatorului Create Association Rules.

11) Operatorul Create Association Rules poate genera atât un set de reguli (prin portul rut), cât și un set de articole asociate (prin portul ite). Pur și simplu vom genera reguli, și pentru moment, vom accepta parametrii prestabiliți pentru Create Association Rules, deși rețineți parametrul min confidence, pe care îl vom aborda în faza de evaluare a mineritului nostru. Rulați modelul dvs.

Figura 5-9. Rezultatele modelului nostru de reguli de asociere.

12) Păcat. Nu s-au găsit reguli. Am făcut toată munca asta degeaba? Se părea că aveam speranțe pentru unele asociații la pasul 9, ce s-a întâmplat? Amintiți-vă din Capitolul 1 că procesul CRISP-DM este de natură ciclică și, uneori, trebuie să mergeți înainte și înapoi printre etape înainte de a crea un model care dă rezultate. Acesta este cazul aici. Nu avem nimic de luat în considerare aici, așa că poate că trebuie să modificăm unii dintre parametrii modelului nostru. Acesta poate fi un proces de încercare și eroare, care ne va duce înainte și înapoi între pasul nostru actual de modelare CRISP-DM și… evaluare.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date

Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat $3,99$8,55 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *