Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Un exemplu de minerit de date (data mining) folosind metoda recomandării

Un exemplu de minerit de date (data mining) folosind metoda recomandării

postat în: Data mining 0

Cai-Nicolas Zeigler a adunat peste un milion de evaluări ale cărților de pe site-ul Book Crossing. Aceste evaluări sunt de la 278.858 de utilizatori evaluând 271.379 de cărți. Aceste date anonimizate sunt disponibile la http://www.informatik.uni-freiburg.de/~cziegler/BX/ atât ca dump SQL, cât și ca fișier text cu valori separate prin virgulă (CSV). Am avut câteva probleme la încărcarea acestor date în Python din cauza unor probleme aparente de codificare a caracterelor. Versiunea mea fixată ​​a fișierelor CSV este disponibilă aici.

Fișierele CSV reprezintă trei tabele:

  • BX-Users, care, după cum sugerează și numele, conține informații despre utilizatori. Există un câmp de cod de utilizator întreg, precum și locația (adică, Albuquerque, NM) și vârsta. Numele au fost eliminate pentru a anonimiza datele.
  • BX-Books. Cărțile sunt identificate după codul ISBN, titlul cărții, autor, anul publicării și editor.
  • BX-Book-Ratings, care include un cod de utilizator, ISBN pentru carte și o evaluare de la 0 la 10.

Funcția loadBookDB din clasa de recomandare încarcă datele din aceste fișiere.

Acum voi încărca setul de date pentru cărți. Argumentul pentru funcția loadBookDB este calea către fișierele de carte BX.

>>> r.loadBookDB(‘/Users/raz/Downloads/BX-Dump/’)
1700018

Notă: Acesta este un set de date mare, iar încărcarea pe computer poate dura ceva timp. Pe Hackintosh-ul meu (2,8 GHz i7 860 cu 8 GB RAM) durează 24 de secunde pentru a încărca setul de date și 30 de secunde pentru a rula o interogare.

Acum pot primi recomandări pentru utilizatorul 17118, o persoană din Toronto:

>>> r.recommend(‘171118’)
[(“The Godmother’s Web by Elizabeth Ann Scarborough”, 10.0), (“The Irrational Season (The Crosswicks Journal, Book 3) by Madeleine L’Engle”, 10.0), (“The Godmother’s Apprentice by Elizabeth Ann Scarborough”, 10.0), (“A Swiftly Tilting Planet by Madeleine L’Engle”, 10.0), (‘The Girl Who Loved Tom Gordon by Stephen King’, 9.0), (‘The Godmother by Elizabeth Ann Scarborough’, 8.0)]

>>> r.userRatings(‘171118’, 5)
Ratings for toronto, ontario, canada
2421
The Careful Writer by Theodore M. Bernstein! 10
Wonderful Life: The Burgess Shale and the Nature of History by Stephen Jay Gould! 10
Pride and Prejudice (World’s Classics) by Jane Austen! 10
The Wandering Fire (The Fionavar Tapestry, Book 2) by Guy Gavriel Kay! 10
Flowering trees and shrubs: The botanical paintings of Esther Heins by Judith Leet! 10

Proiecte

Nu veți învăța cu adevărat acest material decât dacă vă jucați cu codul. Iată câteva sugestii de ce ați putea încerca.

  1. Implementați distanța Manhattan și distanța euclidiană și comparați rezultatele acestor trei metode.
  2. Aici găsiți evaluări pentru 25 de filme. Creați o funcție care încarcă datele în clasificatorul dvs. Metoda de recomandare descrisă mai sus ar trebui să recomande filme pentru o anumită persoană.

Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu

Articol oferit sub licență CC BY-NC 3.0

Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat $0,00$2,35 Selectează opțiunile
Introducere în inteligența artificială
Introducere în inteligența artificială

Inteligența artificială s-a dezvoltat exploziv în ultimii ani, facilitând luarea deciziilor inteligente și automate în cadrul scenariilor de implementare. Inteligența artificială se referă la un ecosistem de modele și tehnologii pentru percepție, raționament, interacțiune și învățare.  Asistăm la o convergență … Citeşte mai mult

Nu a fost votat $2,99$5,07 Selectează opțiunile
Introducere în Business Intelligence
Introducere în Business Intelligence

Colecția ȘTIINȚA INFORMAȚIEI ”Introducere în Business Intelligence” oferă cititorilor informații cuprinzătoare despre business intelligence, explorând toate aspectele importante ale inteligenței de afaceri în scenariul actual. Subiectele tratate se referă la abordările de bază ale business intelligence. Cartea își propune să … Citeşte mai mult

Nu a fost votat $2,99$4,80 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.