Îmi place ceea ce îți place
Vom începe explorarea exploatării datelor prin analizarea sistemelor de recomandare. Sistemele de recomandare sunt peste tot – de la Amazon:
la last.fm recomandând muzică sau concerte:
În exemplul Amazon de mai sus, Amazon combină două biți de informație pentru a face o recomandare. Primul este că am văzut The Lotus Sutra tradus de Gene Reeves; al doilea, faptul că clienții care au văzut această traducere a lui Lotus Sutra au văzut și alte câteva traduceri.
Metoda de recomandare pe care o analizăm aici se numește filtrare colaborativă. Se numește colaborativă deoarece face recomandări bazate pe alte persoane – de fapt, oamenii colaborează pentru a veni cu recomandări. Funcționează astfel. Să presupunem că sarcina este să vă recomandăm o carte. Caut printre alți utilizatori ai site-ului pentru a găsi unul care să fie similar cu dvs. în cărțile care vă plac. Odată ce găsesc acea persoană similară, văd ce îi place și vă recomand acele cărți – poate The Windup Girl, de Paolo Bacigalupi.
Cum găsesc pe cineva asemănător?
Așadar, primul pas este să găsești pe cineva asemănător. Iată explicația simplă 2D (dimensională). Să presupunem că utilizatorii evaluează cărțile pe un sistem de 5 stele – zero stele consideră cartea ca fiind foarte proastă, 5 stele consideră cartea ca fiind foarte bună. Deoarece am spus că ne uităm la cazul simplu 2D, ne restrângem evaluările la două cărți: Snow Crash de Neal Stephenson și The Girl with the Dragon Tattoo de Steig Larsson.
În primul rând, iată un tabel care prezintă 3 utilizatori care au evaluat aceste cărți
Snow Crash | Girl with the Dragon Tattoo | |
Amy | 5 * | 5 * |
Bill | 2 * | 5 * |
Jim | 1 * | 4 * |
Aș dori să recomand o carte misterioasei doamne X care a evaluat Snow Crash cu 4 stele și The Girl with the Dragon Tattoo cu 2 stele. Prima sarcină este de a găsi persoana care este cea mai asemănătoare sau cea mai apropiată de doamna X. Fac asta calculând distanța.
Distanța Manhattan
Cea mai ușoară măsură a distanței de calculat este ceea ce se numește Distanța Manhattan, sau distanța șoferului de taxi. În cazul 2D, fiecare persoană este reprezentată printr-un punct (x, y). Voi adăuga un indice la x și y pentru a face referire la diferite persoane. Deci (x1, y1) ar putea fi Amy și (x2, y2) ar putea fi evaziva doamnă X. Distanța Manhattan este apoi calculată de
| x1 – x2 | + | y1 – y2 |
(deci valoarea absolută a diferenței dintre valorile x plus valoarea absolută a diferenței dintre valorile y). Deci, distanța Manhattan pentru Amy și doamna X este 4:
Calculul distanței dintre doamna X și toate cele trei persoane ne oferă:
Distanța de la doamna X | |
Amy | 4 |
Bill | 5 |
Jim | 5 |
Amy este cea mai apropiată potrivire. Putem să ne uităm în istoria ei și să vedem, de exemplu, că a dat cinci stele la The Windup Girl de Paolo Bacigalupi și i-am recomanda acea carte doamnei X.
Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu
Articol oferit sub licență CC BY-NC 3.0
Lasă un răspuns