Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Un exemplu de minerit de date (data mining) folosind metoda recomandării

Un exemplu de minerit de date (data mining) folosind metoda recomandării

postat în: Data mining 0

Cai-Nicolas Zeigler a adunat peste un milion de evaluări ale cărților de pe site-ul Book Crossing. Aceste evaluări sunt de la 278.858 de utilizatori evaluând 271.379 de cărți. Aceste date anonimizate sunt disponibile la http://www.informatik.uni-freiburg.de/~cziegler/BX/ atât ca dump SQL, cât și ca fișier text cu valori separate prin virgulă (CSV). Am avut câteva probleme la încărcarea acestor date în Python din cauza unor probleme aparente de codificare a caracterelor. Versiunea mea fixată ​​a fișierelor CSV este disponibilă aici.

Fișierele CSV reprezintă trei tabele:

  • BX-Users, care, după cum sugerează și numele, conține informații despre utilizatori. Există un câmp de cod de utilizator întreg, precum și locația (adică, Albuquerque, NM) și vârsta. Numele au fost eliminate pentru a anonimiza datele.
  • BX-Books. Cărțile sunt identificate după codul ISBN, titlul cărții, autor, anul publicării și editor.
  • BX-Book-Ratings, care include un cod de utilizator, ISBN pentru carte și o evaluare de la 0 la 10.

Funcția loadBookDB din clasa de recomandare încarcă datele din aceste fișiere.

Acum voi încărca setul de date pentru cărți. Argumentul pentru funcția loadBookDB este calea către fișierele de carte BX.

>>> r.loadBookDB(‘/Users/raz/Downloads/BX-Dump/’)
1700018

Notă: Acesta este un set de date mare, iar încărcarea pe computer poate dura ceva timp. Pe Hackintosh-ul meu (2,8 GHz i7 860 cu 8 GB RAM) durează 24 de secunde pentru a încărca setul de date și 30 de secunde pentru a rula o interogare.

Acum pot primi recomandări pentru utilizatorul 17118, o persoană din Toronto:

>>> r.recommend(‘171118’)
[(“The Godmother’s Web by Elizabeth Ann Scarborough”, 10.0), (“The Irrational Season (The Crosswicks Journal, Book 3) by Madeleine L’Engle”, 10.0), (“The Godmother’s Apprentice by Elizabeth Ann Scarborough”, 10.0), (“A Swiftly Tilting Planet by Madeleine L’Engle”, 10.0), (‘The Girl Who Loved Tom Gordon by Stephen King’, 9.0), (‘The Godmother by Elizabeth Ann Scarborough’, 8.0)]

>>> r.userRatings(‘171118’, 5)
Ratings for toronto, ontario, canada
2421
The Careful Writer by Theodore M. Bernstein! 10
Wonderful Life: The Burgess Shale and the Nature of History by Stephen Jay Gould! 10
Pride and Prejudice (World’s Classics) by Jane Austen! 10
The Wandering Fire (The Fionavar Tapestry, Book 2) by Guy Gavriel Kay! 10
Flowering trees and shrubs: The botanical paintings of Esther Heins by Judith Leet! 10

Proiecte

Nu veți învăța cu adevărat acest material decât dacă vă jucați cu codul. Iată câteva sugestii de ce ați putea încerca.

  1. Implementați distanța Manhattan și distanța euclidiană și comparați rezultatele acestor trei metode.
  2. Aici găsiți evaluări pentru 25 de filme. Creați o funcție care încarcă datele în clasificatorul dvs. Metoda de recomandare descrisă mai sus ar trebui să recomande filme pentru o anumită persoană.

Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu

Articol oferit sub licență CC BY-NC 3.0

Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile
Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *