Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Reguli de asociere în mineritul datelor (1): înțelegerea și pregătirea datelor

Reguli de asociere în mineritul datelor (1): înțelegerea și pregătirea datelor

postat în: Data mining 0

CONTEXTUL ȘI PERSPECTIVA

Roger este un city manager pentru un oraș de dimensiuni medii, dar în continuă creștere. Orașul are resurse limitate și, la fel ca majoritatea municipalităților, există mai multe nevoi decât resurse. El simte că cetățenii din comunitate sunt destul de activi în diferite organizații comunitare și crede că poate convinge mai multe grupuri să lucreze împreună pentru a satisface unele dintre nevoile din comunitate. Știe că în comunitate există biserici, cluburi sociale, pasionați de hobby și alte tipuri de grupuri. Ceea ce nu știe este dacă există legături între grupuri care ar putea permite colaborări naturale între două sau mai multe grupuri care ar putea lucra împreună la proiecte din oraș. El decide că înainte de a putea cere organizațiilor comunitare să înceapă să lucreze împreună și să accepte responsabilitatea pentru proiecte, trebuie să afle dacă există asociații între diferitele tipuri de grupuri din zonă.

ÎNȚELEGEREA ORGANIZAȚIONALĂ

Scopul lui Roger este să identifice și apoi să încerce să profite de conexiunile existente în comunitatea sa locală pentru a realiza unele lucrări care să beneficieze întreaga comunitate. El știe de multe dintre organizațiile din oraș, are informații de contact pentru ele și chiar este implicat în unele dintre ele. Familia lui este implicată într-un grup și mai larg de organizații, așa că înțelege la nivel personal diversitatea grupurilor și interesele acestora. Deoarece oamenii pe care el și familia lui îi cunoaște sunt implicați în alte grupuri din oraș, el cunoaște, într-un sens mai general, multe tipuri diferite de organizații, interesele, obiectivele și potențialele contribuții ale acestora. Știe că, pentru început, principala sa preocupare este să găsească tipuri de organizații care par să fie conectate una cu cealaltă. Identificarea persoanelor cu care să lucreze la fiecare biserică, club social sau organizație politică va fi copleșitoare fără a clasifica organizațiile în grupuri și a căuta asocieri între grupuri. Numai după ce verifică conexiunile existente, se va simți gata să înceapă să contacteze oamenii și să le ceară să folosească contactele lor interorganizaționale și să preia dreptul de proprietate asupra proiectului. Prima lui nevoie este să găsească unde există astfel de asociații.

ÎNȚELEGEREA DATELOR

Pentru a răspunde la întrebarea sa, Roger a solicitat ajutorul nostru în crearea unui model de extragere a datelor privind regulile de asociere. Regulile de asociere sunt o metodologie de extragere a datelor care caută să găsească conexiuni frecvente între atributele dintr-un set de date. Regulile de asociere sunt foarte frecvente când se efectuează analiza coșului de cumpărături. Agenții de marketing și vânzătorii din multe sectoare folosesc această abordare de extragere a datelor pentru a găsi ce produse sunt achiziționate cel mai frecvent împreună. Dacă ați cumpărat vreodată articole pe un site de comerț electronic, cum ar fi Amazon.com, probabil că ați văzut roadele mineritului de date a regulilor de asociere. Acestea se găsesc cel mai frecvent în secțiunile de recomandări ale unor astfel de site-uri web. S-ar putea să observați că atunci când căutați un smartphone, vă sunt adesea f[cute recomandări pentru protecții de ecran, huse de protecție și alte accesorii, cum ar fi cablurile de încărcare sau cablurile de date. Articolele recomandate sunt identificate prin minerit pentru articolele pe care clienții anteriori le-au cumpărat împreună cu articolul pe care îl căutați. Cu alte cuvinte, se constată că acele articole sunt asociate cu articolul pe care îl căutați și asocierea respectivă este atât de frecventă în setul de date al site-ului web, încât asocierea poate fi considerată o regulă. Astfel s-a născut numele acestei abordări de minerit de date: „reguli de asociere”. Deși regulile de asociere sunt cele mai frecvente în analiza coșului de cumpărături, această tehnică de modelare poate fi aplicată la o gamă largă de întrebări. Îl vom ajuta pe Roger creând un model de reguli de asociere pentru a încerca să găsească legături între tipurile de organizații comunitare.

Lucrând împreună, utilizăm cunoștințele lui Roger despre comunitatea locală pentru a crea un scurt sondaj pe care îl vom administra online prin intermediul unui site web. Pentru a asigura o măsură a integrității datelor și pentru a încerca să ne protejăm împotriva posibilelor abuzuri, sondajul nostru web este protejat prin parolă. Fiecare organizație invitată să participe la sondaj primește o parolă unică. Liderului organizației respective i se cere să partajeze parola membrilor săi și să încurajeze participarea la sondaj. Membrii comunității au o lună pentru a răspunde și, de fiecare dată când un individ se conectează, completează sondajul, parola folosită este înregistrată, astfel încât să putem determina câte persoane din fiecare organizație au răspuns. După încheierea lunii, avem un set de date compus din următoarele atribute:

  1. Elapsed_Time: Aceasta este timpul petrecut de fiecare respondent completând sondajul nostru. Este exprimat în minute zecimale (de exemplu, 4,5 în acest atribut ar fi patru minute, treizeci secunde).
  2. Time_in_Community: Această întrebare din sondaj a chestionat persoana dacă locuiește în zonă de 0-2 ani, 3-9 ani sau peste 10 ani; și este înregistrat[ în setul de date ca scurtă, medie sau, respectiv, lungă.
  3. Gender: Sexul respondentului la sondaj.
  4. Working: O coloană da/nu care indică dacă respondentul are sau nu un loc de muncă plătit.
  5. Age: Vârsta respondentului la sondaj în ani.
  6. Family: O coloană da/nu care indică dacă respondentul este sau nu membru al unei organizații comunitare orientate spre familie, ligi de recreere sau sportive pentru copii, grupuri de genealogie etc.
  7. Hobbies:    O coloană da/nu care indică dacă respondentul este sau nu membru al unei organizații comunitare orientate spre hobby, cum ar fi radioamatori, recreere în aer liber, mersul cu motocicleta sau cu bicicleta etc.
  8. Social_Club: O coloană da/nu care indică dacă respondentul este sau nu membru al unei organizații sociale comunitare, cum ar fi Rotary International, Lion’s Club etc.
  9. Political:    O coloană da/nu care indică dacă respondentul este sau nu membru al unei organizații politice cu întâlniri regulate în comunitate, cum ar fi un partid politic, un grup de acțiune la nivel local, un efort de lobby etc.
  10. Professional: O coloană da/nu care indică dacă respondentul este sau nu membru al unei organizații profesionale cu întâlniri locale ale sectoarelor, cum ar fi o filial[ a unei societăți juridice sau medicale, un grup de proprietari de afaceri mici etc.
  11. Religious:    O coloană da/nu care indică dacă respondentul este sau nu membru al unei biserici din comunitate.
  12. Support_Group: O coloană da/nu care indică dacă respondentul este sau nu membru al unei organizații comunitare orientate spre sprijin, cum ar fi Alcoolicii Anonimi, un grup de gestionare a furiei etc.

Pentru a păstra un nivel de confidențialitate personală, numele respondenților individuali nu au fost colectate prin sondaj și niciun respondent nu a fost rugat să ofere informații de identificare personală atunci când răspunde.

PREGĂTIREA DATELOR

Un set de date CSV pentru acest exercițiu este disponibil pentru descărcare de pe site-ul web însoțitor al ghidului (https://www.telework.ro/wp-content/uploads/2022/09/Chapter05DataSet.csv). Dacă doriți să urmați exercițiul, continuați și descărcați fișierul Chapter05DataSet.csv acum și salvați-l în folderul de date RapidMiner. Apoi, parcurgeți următorii pași pentru a pregăti setul de date pentru extragerea regulilor de asociere:

1) Importați setul de date CSV în depozitul de date RapidMiner. Salvați-l cu numele Chapter5. Dacă aveți nevoie de o actualizare despre cum să aduceți acest set de date în arhiva dvs. RapidMiner, consultați pașii de la 7 la 14 ai Exercițiului Hands On din Capitolul 3. Pașii vor fi aceiași, cu excepția fișierului pe care îl selectați să îl importați. Importați toate atributele și acceptați tipurile de date prestabilite. Acesta este același proces ca și în Capitolul 4, așa că sperăm că până acum vă simțiți confortabil cu pașii de importare a datelor în RapidMiner.

2) Trageți setul de date din Capitolul 5 într-o nouă fereastră de proces în RapidMiner și rulați modelul pentru a inspecta datele. Când rulați modelul, dacă vi se solicită, salvați procesul ca Chapter5_Process, așa cum se arată în Figura 5-1.

RapidMiner - Reguli de asociere în mineritul datelorFigura 5-1. Adăugarea datelor pentru modelul exemplu din capitolul 5.

3) În perspectiva rezultatelor, priviți mai întâi vizualizarea Meta Data (Figura 5-2). Rețineți că nu avem nicio valoare lipsă printre cele 12 atribute din 3.483 de observații. Examinând statisticile, nu vedem date inconsecvente. Pentru tipurile de date numerice, RapidMiner ne-a dat media (avg) pentru fiecare atribut, precum și abaterea standard pentru fiecare atribut. Abaterile standard sunt măsurători ale cât de dispersate sau variate sunt valorile dintr-un atribut și, prin urmare, pot fi folosite pentru a urmări date inconsecvente. O regulă generală bună este că orice valoare care este mai mică de două abateri standard sub medie (sau media aritmetică) sau două abateri standard deasupra mediei este o valoare anormală statistic. De exemplu, în atributul Age din figura 5-2, vârsta medie este de 36,731, în timp ce abaterea standard este de 10,647. Două abateri standard deasupra mediei ar fi 58,025 (36,731 + (2*10,647)), iar două abateri standard sub medie ar fi 15,437 (36,731-(2*10,647)). Dacă ne uităm la coloana Range din Figura 5-2, putem vedea că atributul Age are un interval de la 17 la 57, astfel încât toate observațiile noastre se încadrează în două abateri standard ale mediei. Nu găsim date inconsistente în acest atribut. Acesta nu va fi întotdeauna cazul, așa că un miner de date ar trebui să fie mereu atent pentru astfel de indicații de date inconsecvente. De asemenea, este important să realizați că, deși două abateri standard reprezintă un ghid, nu este o regulă strictă. Minerii de date ar trebui să fie atenți la motivul pentru care unele observații pot fi legitime și, totuși, departe de medie, sau de ce unele valori care se încadrează în două deviații standard ale mediei ar trebui în continuare examinate. Un alt element ar trebui remarcat pe măsură ce examinăm Figura 5-2: atributele da/nu despre dacă o persoană a fost sau nu membră a diverselor tipuri de organizații comunitare au fost înregistrate ca 0 sau 1, iar atributele respective au fost importate ca tipuri de date „întreg”. Operatorii de reguli de asociere pe care îi vom folosi în RapidMiner necesită ca atributele să fie de tip de date „binominale”, așa că mai avem încă ceva de pregătit pentru date.

RapidMiner - Reguli de asociere în mineritul datelorFigura 5-2. Metadate ale sondajului nostru de implicare a grupurilor comunitare.

4) Reveniți la perspectiva designului. Avem o înțelegere destul de bună a obiectivelor și a datelor noastre, dar știm că este nevoie de o pregătire suplimentară. În primul rând, trebuie să reducem numărul de atribute din setul nostru de date. Timpul scurs pentru fiecare persoană pentru a completa sondajul nu este neapărat interesant în contextul întrebării noastre actuale, și anume dacă există sau nu conexiuni existente între tipurile de organizații din comunitatea noastră și, dacă da, unde există acele legături. Pentru a reduce setul de date la numai acele atribute legate de întrebarea noastră, adăugați un operator Select Attributes în fluxul dvs. și selectați următoarele atribute pentru includere, după cum este ilustrat în Figura 5-3: Family, Hobbies, Social_Club, Political, Professional, Religious, Support_Group. După ce ați selectat aceste atribute, faceți clic pe OK pentru a reveni la procesul principal.

RapidMiner - Reguli de asociere în mineritul datelorFigura 5-3. Selectarea atributelor de inclus în modelul regulilor de asociere.

5) Un alt pas este necesar în pregătirea datelor noastre. Aceasta este pentru a schimba tipurile de date ale atributelor selectate de la întreg la binominal. După cum s-a menționat anterior, operatorii regulilor de asociere au nevoie de acest tip de date pentru a funcționa corect. În caseta de căutare din fila Operators din vizualizarea design, tastați „Numerical to” (fără ghilimele) pentru a localiza operatorii care vor schimba atributele cu un tip de date numerice cu un alt tip de date. Cel pe care îl vom folosi este Numerical to Binominal. Trageți acest operator în fluxul dvs.

RapidMiner - Reguli de asociere în mineritul datelorFigura 5-4. Adăugarea unui operator de conversie a tipurilor de date la un model de minerit de date.

6) În scopurile noastre, toate atributele care rămân după aplicarea operatorului Select Attributes trebuie convertite din numeric în binominal, așa cum indică săgeata neagră în Figura 5-4, vom converti „all” din fostul tip de date în acesta din urmă. Am putea converti un subset sau un singur atribut, selectând una dintre aceste opțiuni din meniul derulant tip de filtru de atribute. Am făcut acest lucru în trecut, dar în acest exemplu, putem accepta prestabilirea și ascunde toate atributele simultan. De asemenea, trebuie să observați că în RapidMiner, tipul de date binominal este folosit în loc de binom, un termen cu care mulți analiști de date sunt mai obișnuiți. Există o distincție importantă. Binom înseamnă unul dintre cele două numere (de obicei 0 și 1), astfel încât tipul de date de bază este încă numeric. Binominal, pe de altă parte, înseamnă una dintre cele două valori care pot fi numerice sau bazate pe caractere. Dați clic pe butonul de redare pentru a rula modelul dvs. și pentru a vedea cum a avut loc această conversie în setul nostru de date. În perspectiva rezultatelor, ar trebui să vedeți transformarea, așa cum este prezentată în Figura 5-5.

RapidMiner - Reguli de asociere în mineritul datelorFigura 5-5. Rezultatele unei transformări de tip de date.

7) Pentru fiecare atribut din setul nostru de date, valorile 1 sau 0 care au existat în setul nostru de date sursă se reflectă acum ca „adevărat” sau „fals”. Faza noastră de pregătire a datelor este acum finalizată și suntem pregătiți pentru etapele următoare.

Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu. © 2022 MultiMedia Publishing, Mineritul de date

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0.00$2.35 Selectează opțiunile
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Informația, ca și concept, include o mare diversitate de sensuri în contexte diferite, de la cele zilnice până la cele tehnice. Conceptul de informație este strâns legat de noțiunile de restricție, comunicare, control, date, forme, educație, cunoaștere, înțelegere, stimul mental, … Citeşte mai mult

Nu a fost votat $3.99$9.61 Selectează opțiunile
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat $2.99$6.88 Selectează opțiunile

 

<iframe width=”560″ height=”315″ src=”https://www.youtube.com/embed/0j2x_7KbEpM” title=”YouTube video player” frameborder=”0″ allow=”accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture” allowfullscreen></iframe>

 

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *