Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Măsurarea similitudinilor în mineritul datelor (Data Mining)

Măsurarea similitudinilor în mineritul datelor (Data Mining)

postat în: Data mining 0

Iată câteva indicii utile:

  • Dacă datele sunt rare, luați în considerare utilizarea similarității cosinusului.
  • Dacă datele sunt supuse unei inflații de grad (utilizatorii diferiți pot folosi scale diferite) utilizați Pearson.
  • Dacă datele sunt dense (aproape toate atributele au valori diferite de zero) și magnitudinea valorilor atributelor este importantă, utilizați modele de distanță precum Euclidean sau Manhattan.

Deci, dacă datele sunt dense (aproape toate atributele au valori diferite de zero), atunci modelele Manhattan și Euclidean sunt rezonabil de utilizat. Ce se întâmplă dacă datele nu sunt dense? Luați în considerare un sistem extins de evaluare a muzicii și trei persoane, care au evaluat 100 de melodii pe site-ul nostru:

  • Jake: fan înfocat country
  • Linda și Eric: iubesc din toată inima rockul anilor 60!

Linda și Eric se bucură de același tip de muzică. De fapt, printre ratingurile lor, au 20 de melodii în comun și diferența dintre ratingurile celor 20 de melodii (pe o scară de la 1 la 5) are în medie doar 0,5 !! Distanța Manhattan dintre ele ar fi de 20 x 0,5 = 10. Distanța euclidiană ar fi:

d = √((0,5)2 × 20) = √(0,25 × 20) = √5 = 2,236

Linda și Jake au apreciat o singură melodie în comun: What a Beautiful Day a lui Chris Cagle. Linda a crezut că este bună și a evaluat-o cu 3, Jake a considerat-o minunată și i-a dat 5. Deci, distanța Manhattan dintre Jake și Linda este 2, iar distanța euclidiană este

d = √(3− 5)2 = √4 = 2

Așadar, atât distanțele Manhattan, cât și distanțele euclidiene arată că Jake este un mai apropiat de Linda decât Eric. Deci, în acest caz, ambele măsuri de distanță produc rezultate slabe.

Hei, am o idee care ar putea rezolva această problemă.
În acest moment, oamenii evaluează melodiile pe o scară de la 1 la 5. Cum rămâne cu melodiile pe care oamenii nu le evaluează? Voi presupune că ratingul este 0. Astfel rezolvăm problema datelor rare, deoarece fiecare obiect are o valoare pentru fiecare atribut!

O idee bună, dar nici asta nu funcționează. Pentru a vedea de ce, trebuie să mai aducem câteva personaje în mica noastră dramă: Cooper și Kelsey. Jake, Cooper și Kelsey au gusturi muzicale uimitor de similare. Jake a evaluat 25 de melodii pe site-ul nostru.

  • Cooper a evaluat 26 de melodii, iar 25 dintre ele sunt aceleași melodii apreciate și de Jake. Le place același tip de muzică, iar distanța medie în rating este de doar 0,25 !!
  • Kelsey iubește atât muzica, cât și site-ul nostru și a evaluat 150 de melodii. 25 dintre aceste melodii sunt aceleași cu cele pe care Cooper și Jake le-au apreciat. La fel ca și Cooper, distanța medie în rating-urile ei și a lui Jake este de doar 0,25 !!
  • Sentimentul nostru este că Cooper și Kelsey sunt la fel de apropiate de Jake.
  • Acum, luați în considerare formulele noastre modificate de distanță Manhattan și euclideană, unde atribuim un 0 pentru fiecare melodie pe care persoana nu a evaluat-o.
  • Cu această schemă, Cooper este mult mai apropiat de Jake decât este Kelsey.
  • De ce?

Pentru a răspunde de ce, să ne uităm la următorul exemplu simplificat (din nou, un 0 înseamnă că persoana respectivă nu a evaluat melodia respectivă):

Melodia: 1 2 3 4 5 6 7 8 9 10
Jake 0 0 0 4.5 5 4.5 0 0 0 0
Cooper 0 0 4 5 5 5 0 0 0 0
Kelsey 5 4 4 5 5 5 5 5 4 4

Din nou, privind melodiile pe care le-au evaluat reciproc (melodiile 4, 5 și 6), Cooper și Kelsey par la fel de apropiați pentru Jake. Cu toate acestea, distanța Manhattan folosind aceste valori zero spune o altă poveste:

dCooper,Jake = (4 − 0) + (5 − 4.5) + (5 − 5) + (5 − 4.5) = 4 + 0.5 + 0 + 0.5 = 5

dKelsey,Jake = (5 − 0) + (4 − 0) + (4 − 0) + (5 − 4.5) + (5 − 5) + (5 − 4.5) + (5 − 0) + (5 − 0) + (4 − 0) + (4 − 0) = 5 + 4 + 4 + 0,5 + 0 + 0,5 + 5 + 5 + 4 + 4 = 32

Problema este că aceste valori zero tind să domine orice măsură a distanței. Deci soluția adăugării zerourilor nu este mai bună decât formulele originale de distanță. O soluție pe care oamenii au folosit-o este de a calcula – într-un anumit sens – o distanță „medie” în care se calculează distanța utilizând melodii pe care le-au evaluat în comun împărțit la numărul de melodii pe care le-au evaluat în comun.

Din nou, distanțele Manhattan și euclideană funcționează spectaculos de bine pe datele dense, dar dacă datele sunt rare, poate fi mai bine să folosiți similitudinea cosinusoidală.

Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *