Luați în considerare câteva dintre activitățile în care ați fost implicat în ultimele trei sau patru zile. Ați cumpărat produse alimentare sau benzină? Ați participat la un concert, film sau alt eveniment public? Poate ați ieșit să mâncați la un restaurant, ați trecut pe la oficiul poștal local pentru a trimite un colet, ați făcut o achiziție online sau ați sunat la o companie de utilități. În fiecare zi, viața noastră este plină de interacțiuni — întâlniri cu companii, alte persoane, guvern și diverse alte organizații.
În societatea actuală bazată pe tehnologie, multe dintre aceste întâlniri implică transferul de informații pe cale electronică. Aceste informații sunt înregistrate și transmise prin rețele pentru a finaliza tranzacțiile financiare, a reatribui proprietatea sau responsabilitatea și pentru a permite livrarea de bunuri și servicii. Gândiți-vă la cantitatea de date colectate de fiecare dată când are loc chiar și una dintre aceste activități.
Luați magazinul alimentar de exemplu. Dacă luați articole de pe raft, acele articole vor trebui să fie completate pentru viitorii cumpărători – poate chiar și pentru dvs. – la urma urmei, va trebui să faceți din nou achiziții similare când acea cutie cu cereale se epuizează în câteva săptămâni. Magazinul alimentar trebuie să-și reînnoiască în mod constant stocul, păstrând în stoc articolele pe care oamenii le doresc, în timp ce mențin prospețimea produselor pe care le vând. Este logic că bazele de date mari rulează în culise, înregistrând date despre ceea ce ați cumpărat și cât de mult din acestea, pe măsură ce verificați și plătiți factura la băcănie. Toate aceste date trebuie să fie înregistrate și apoi raportate unei persoane care are sarcina de a reordona articolele pentru inventarul magazinului.
Cu toate acestea, în lumea mineritului de date, pur și simplu păstrarea la zi a inventarului este doar începutul. Magazinul dvs. alimentar vă cere să aveți un card de cumpărător frecvent sau un dispozitiv similar care, atunci când este scanat la momentul plății, vă oferă cel mai bun preț pentru fiecare articol pe care îl cumpărați? Dacă da, acum pot începe nu numai să urmărească tendințele de cumpărare la nivelul întregului magazin, ci și tendințele individuale de achiziție. Magazinul poate viza piața către dvs. trimițând e-mailuri cu cupoane pentru produsele pe care tindeți să le cumpărați cel mai frecvent.
Acum să facem un pas mai departe. Amintiți-vă, dacă puteți, ce tipuri de informații ați furnizat când ați completat formularul pentru a primi cardul de cumpărător frecvent. Probabil ați indicat adresa, data nașterii (sau cel puțin anul nașterii), dacă sunteți bărbat sau femeie și, probabil, dimensiunea familiei, intervalul de venituri anuale ale gospodăriei sau alte asemenea informații. Gândiți-vă la gama de posibilități deschise acum pentru magazinul dvs. alimentar, în timp ce se analizează acea cantitate mare de date pe care le colectează la casa de marcat în fiecare zi:
- Folosind coduri poștale, magazinul poate localiza zonele cu cea mai mare densitate de clienți, ajutându-le poate decizia cu privire la locația de construcție a următorului magazin.
- Folosind informații referitoare la sexul clientului, magazinul poate adapta afișajele de marketing sau promoțiile la preferințele clienților bărbați sau femei.
- Cu informații despre vârstă, magazinul poate evita să trimită prin poștă cupoane pentru alimente pentru copii către clienții în vârstă sau promoții pentru produse de igienă feminină pentru gospodăriile cu un singur ocupant de sex masculin.
Acestea sunt doar câteva dintre numeroasele exemple de utilizări potențiale pentru mineritul de date. Poate că, pe măsură ce citiți această introducere, v-au venit în minte și alte utilizări potențiale pentru mineritul de date. Poate că v-ați întrebat și cât de etice ar putea fi unele dintre aceste aplicații. Acest text a fost conceput pentru a vă ajuta să înțelegeți nu numai posibilitățile generate de mineritul de date, ci și tehnicile implicate în realizarea acestor posibilități în realitate, acceptând în același timp responsabilitatea care însoțește colectarea și utilizarea unor cantități atât de mari de informații personale.
Scopuri, intenții și limitări
Mineritul datelor, așa cum este explicat în capitolul 1 al acestui text, aplică metode statistice și logice la seturi mari de date. Aceste metode pot fi folosite pentru a clasifica datele sau pot fi folosite pentru a crea modele predictive. Categorizările seturilor mari pot include gruparea persoanelor în tipuri similare de clasificări sau identificarea de caracteristici similare într-un număr mare de observații.
Cu toate acestea, modelele predictive transformă aceste descrieri în așteptări pe care ne putem baza deciziile. De exemplu, proprietarul unui site web de vânzare de cărți ar putea prevedea cât de des ar putea avea nevoie să-și reaprovizioneze rezerva pentru un anumit titlu, sau proprietarul unei stațiuni de schi poate încerca să prevadă cea mai devreme dată posibilă de deschidere pe baza sosirilor estimate și acumulărilor de zăpadă.
Este important să recunoaștem că mineritul de date nu poate oferi răspunsuri la toate întrebările, și nici nu ne putem aștepta ca modelele predictive să dea întotdeauna rezultate care să prevadă realitatea viitoare. Mineritul datelor este limitat la datele care au fost colectate. Și aceste limitări pot fi multe. Trebuie să ne amintim că este posibil ca datele să nu fie complet reprezentative pentru grupul de persoane căruia am dori să îi aplicăm rezultatele. Este posibil ca datele să fi fost colectate incorect sau s-ar putea să fie depășite. Există o expresie care poate fi aplicată în mod adecvat la mineritul de date, printre multe alte lucruri: GIGO, sau Garbage In, Garbage Out (Gunoi bagi, gunoi obții). Calitatea rezultatelor noastre de minerit a datelor va depinde direct de calitatea colectării și organizării noastre a datelor. Chiar și după ce am făcut tot posibilul pentru a colecta date de înaltă calitate, trebuie totuși să ne amintim să ne bazăm deciziile nu numai pe rezultatele mineritului de date, ci și pe resursele disponibile, cantitățile acceptabile de risc și bunul simț.
Sursa: Dr. Matthew North, Data Mining for the Masses, licența CC BY 3.0. Traducere și adaptare de Nicolae Sfetcu
© 2022 MultiMedia Publishing, Mineritul de date
Lasă un răspuns