Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Filtrarea colaborativă în mineritul datelor – Probleme cu evaluările explicite (2)

Filtrarea colaborativă în mineritul datelor – Probleme cu evaluările explicite (2)

postat în: Data mining 0

Cu ceva timp în urmă am dat o listă cu articolele pe care le-am cumpărat de la Amazon în ultima lună. Se pare că am cumpărat două dintre acele articole pentru alți oameni. Am cumpărat cartea anticancer pentru vărul meu și cartea Rework pentru fiul meu. Pentru a vedea de ce aceasta este o problemă, permiteți-mi să vin cu un exemplu mai convingător, mergând mai departe în istoricul meu de achiziții. Am cumpărat niște greutăți pentru exerciții și cartea Enter the Kettlebell! Secret of the Soviet Supermen drept cadou pentru fiul meu, și un animal de pluș Chase Border Collie pentru soția mea, deoarece câinele nostru border collie de 14 ani a murit. Folosind istoricul achizițiilor ca o evaluare implicită a ceea ce îi place unei persoane, te-ar putea face să crezi că oamenilor cărora le plac greutățile, le plac animalele de pluș, cum ar fi microElicopterele, cărțile despre cancer și cartea Ready Player One. Istoricul achizițiilor Amazon nu poate face distincția între achizițiile pentru mine și achizițiile pe care le fac cadou. Stephen Baker descrie un exemplu înrudit:

Baker 2008.60-61:

”Să-ți dai seama că o anumită bluză albă este o ținută de afaceri pentru o femeie baby boomer este doar primul pas pentru computer. Sarcina mai importantă este să construiești un profil al cumpărătorului care cumpără acea bluză. Să zicem că este soția mea. Ea merge la Macy’s și cumpără patru sau cinci articole pentru ea însăși. Lenjerie, pantaloni, câteva bluze, poate o curea. Toate articolele se potrivesc profilului de boomer. Se concentrează. Apoi, la plecare, își amintește să cumpere un cadou de ziua de naștere pentru nepoata noastră de 16 ani. Ultima dată când am văzut-o, această fată purta haine negre, cu multe înscrisuri pe ea, majoritatea furioase. Ea ne-a spus că este un adept al stilului gotic. Așa că soția mea intră într-o secțiune „alternativă” și – la naiba – ia unul dintre acele zgarde de câine plină de vârfuri ascuțite.”

Dacă încercăm să construim un profil al unei persoane – ceea ce îi place unei anumite persoane – această achiziție de zgarda pentru câini este problematică.

În cele din urmă, luați în considerare un cuplu care partajează un cont Netflix. Îi plac filmele de acțiune cu multe explozii și elicoptere; îi plac filmele intelectuale și comediile romantice. Dacă ne uităm doar la istoricul vizionării, construim un profil ciudat al cuiva care îi plac două lucruri foarte diferite.

Amintiți-vă că am spus că achiziționarea cărții Anticancer: A New Way of Life a fost un cadou pentru vărul meu. Dacă mi-aș analiza puțin mai mult istoricul achizițiilor, am vedea că am cumpărat această carte înainte. De fapt, în ultimul an am cumpărat mai multe exemplare a trei cărți. Ne putem imagina că fac aceste achiziții multiple nu pentru că pierd cărțile sau că îmi pierd mințile și uit că am citit cărțile. Motivul cel mai rațional este că mi-au plăcut atât de mult cărțile încât, într-un fel, recomand aceste cărți altora, oferindu-le cadou. Astfel, putem obține o cantitate substanțială de informații din istoricul achizițiilor unei persoane.

Calistenia creierului: Ce putem folosi ca date implicite atunci când observăm comportamentul unei persoane la computer? Înainte de a întoarce pagina, veniți cu o listă de posibilități

Date implicite:

  • Pagini web: clicul pe linkul către o pagină și timpul petrecut uitându-se la o pagină, vizite repetate, trimiterea unei pagini către alții, ce vizionează o persoană pe playerele Hulu
  • Muzică: ce ascultă persoana sărind peste anumite melodii de câte ori apar acestea la rând

Acest lucru doar zgârie suprafața!

Rețineți că algoritmii descriși în capitolul 2 pot fi utilizați indiferent dacă datele sunt explicite sau implicite.

Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu

Statistica pentru afaceri
Statistica pentru afaceri

Statistica pentru afaceri este un ghid practic elementar de statistică, cu eșantioanele de date și exemplele orientate spre afaceri. Statistica face posibilă analiza problemelor de afaceri din lumea reală cu date reale, astfel încât să puteți determina dacă o strategie … Citeşte mai mult

Nu a fost votat 17.87 lei38.30 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei10.53 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat 13.39 lei23.47 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *