Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Probleme cu evaluările implicite în mineritul datelor (Data Mining)

Probleme cu evaluările implicite în mineritul datelor (Data Mining)

Într-un articol anterior am dat o listă cu articolele pe care le-am cumpărat de la Amazon în ultima lună. Se pare că am cumpărat două dintre acele articole pentru alte persoane. Am cumpărat un microelicopter și cartea Ready Player One pentru mine, cartea Anticancer pentru vărul meu și cartea Rework pentru fiul meu. Pentru a vedea de ce aceasta este o problemă, permiteți-mi să vin cu un exemplu mai convingător mergând mai departe în istoricul achizițiilor mele. Am cumpărat mai demult niște greutăți pentru exerciții fizice și cartea Enter the Kettlebell! Secret of the Soviet Supermen cadou pentru fiul meu și un cățel de pluș pentru soția mea, deoarece câinele nostru de 14 ani a murit. Folosind istoricul achizițiilor ca o evaluare implicită a ceea ce îi place unei persoane, vă poate face să credeți că oamenilor cărora le plac cățeii de pluș le plac microelicopterele, cărțile despre cancer și cartea Ready Player One. Istoricul achizițiilor Amazon nu poate distinge între achizițiile pentru mine și achizițiile pe care le fac cadou. Stephen Baker descrie un exemplu înrudit:

”Să-ți dai seama că o anumită bluză albă este o ținută de afaceri pentru o femeie în vârstă este doar primul pas pentru calculator. Sarcina mai importantă este să construiești un profil al cumpărătorului care cumpără bluza respectivă. Să spunem că este soția mea. Merge la Macy’s și cumpără patru sau cinci articole pentru ea însăși. Lenjerie, pantaloni, câteva bluze, poate o curea. Toate articolele se potrivesc acestui profil de femeie în vârstă. Este luată în considerare. Apoi, la plecare, își amintește să cumpere un cadou de ziua de naștere pentru nepoata noastră de 16 ani. Ultima dată când am văzut-o, această fată purta haine negre, cu multe înscrisuri pe ele, majoritatea mânioase. Ea ne-a spus că este o gotică. Așa că soția mea intră într-o secțiune „alternativă” și – la naiba – ia una din acele zgarde de câini pline de vârfuri ascuțite.”

Dacă încercăm să construim un profil al unei persoane prin evaluările implicite – ce îi place unei anumite persoane – această achiziție de zgardă pentru câini este problematică.

În cele din urmă, luați în considerare un cuplu care partajează un cont Netflix. Îi plac filmele de acțiune cu multe explozii și elicoptere; îi plac filmele intelectuale și comediile romantice. Dacă ne uităm doar la istoricul închirierii, construim un profil ciudat al unei persoane care îi plac două lucruri foarte diferite.

Amintiți-vă că am spus că achiziționarea cărții Anticancer: A New Way of Life a fost un cadou pentru vărul meu. Dacă mi s-ar analiza puțin mai mult istoricul achizițiilor, s-ar vedea că am cumpărat această carte înainte. De fapt, în ultimul an am cumpărat mai multe exemplare a trei cărți. Ne putem imagina că fac aceste achiziții multiple nu pentru că pierd cărțile sau că îmi pierd mințile și uit că am citit cărțile. Motivul cel mai rațional este că mi-au plăcut cărțile atât de mult încât, într-un fel, recomand aceste cărți altora, oferindu-le cadou. Astfel, putem obține o cantitate substanțială de informații din istoricul de achiziții al unei persoane.

Ce putem folosi ca date implicite atunci când observăm comportamentul unei persoane la un computer? Înainte de a continua, iată o listă de posibilități de date implicite:

Pagini web:

  • clic pe linkul către o pagină
  • timpul petrecut privind o pagină
  • vizite repetate
  • recomandarea unei pagini altora
  • ce urmărește o persoană pe site

Muzica:

  • ce ascultă persoana respectivă
  • melodiile peste care sare
  • de câte ori este reascultată o melodie

Aceste aspecte sunt doar o foarte mică parte din ce trebuie luat în considerare!

Rețineți că algoritmii descriși în articolele anterioare pot fi utilizați indiferent dacă datele sunt explicite sau implicite.

Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu

Articol oferit sub licență CC BY-NC 3.0

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2,99$5,07 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *