Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Mineritul de date (Data Mining) pe înțelesul tuturor

Mineritul de date (Data Mining) pe înțelesul tuturor

postat în: Data mining 0

Imaginați-vă viața într-un mic oraș american acum 150 de ani. Toată lumea se cunoaște. O ladă cu țesături ajunge la magazinul general. Vânzătorul observă că modelul unei anumite pânze i-ar place foarte mult doamnei Clancey, deoarece știe că îi plac modelele florale strălucitoare și își notează mental să îi arăte următoarea dată când va veni la magazin. Chow Winkler îi spune domnului Wilson, deținătorul salonului, că se gândește să-și vândă pușca de rezervă Remington. Domnul Wilson menționează aceste informații lui Bud Barclay, despre care știe că este în căutarea unei puști de calitate. Șeriful Valquez și adjuncții săi știu că Lee Pye este o persoană pe care trebuie să o urmărească, deoarece îi place să bea, are un temperament coleric și este puternic. Viața într-un oraș mic de acum 100 de ani era legată prin o mulțime de conexiuni.

Oamenii știau ce îți place și ce îți displace, sănătatea ta, starea căsătoriei tale. În bine sau în rău, era o experiență personalizată. Și această viață extrem de personalizată în comunitate a fost adevărată în toată lumea.

Să sărim înainte cu o sută de ani până în anii 1960. Interacțiunile personalizate sunt mai puțin probabile, dar sunt încă prezente. O intrare obișnuită într-o librărie locală ar putea fi întâmpinată cu „Avem noul James Michener” – funcționarul știind că cel care intră iubește cărțile lui James Michener. Sau vânzătorul ar putea recomanda unui obișnuit al librăriei Conștiința unui conservator de Barry Goldwater, deoarece știe că acesta este un conservator ferm. Un client obișnuit se așează la o masă, iar chelnerița spune „Ca de obicei?”

Chiar și astăzi există loc de personalizare. Mă duc la cafeneaua locală din Mesilla și barmanul spune „Un venti latte cu un shot suplimentar?” știind că asta consum în fiecare dimineață. Îmi duc pudelul standard la îngrijitori, iar îngrijitorul nu trebuie să întrebe ce stil de tuns vreau. Știe că îmi place genul sport fără zorzoane cu urechile în stil german.

Dar lucrurile s-au schimbat în orașele mici față de acum 100 de ani. Marile magazine alimentare și hipermarketurile au înlocuit alimentarele din cartier și pe alți comercianți. La începutul acestei schimbări, alegerile erau limitate. Henry Ford a spus odată „Orice client poate avea o mașină vopsită în orice culoare dorește atâta timp cât culoarea este neagră”. Magazinul de discuri avea un număr limitat de înregistrări; librăria avea un număr limitat de cărți. Vrei înghețată? Alegerile erau vanilie, ciocolată și poate căpșuni. Vrei o mașină de spălat? În 1950 aveai două opțiuni la Sears local: modelul standard pentru 55 USD sau cel lux pentru 95 USD.

Bine ați venit în secolul 21

În secolul 21 acele alegeri limitate sunt un lucru de domeniul trecutului. Vreau să cumpăr niște muzică? iTunes are aproximativ 11 milioane de melodii pentru a alege. 11 milioane! Au vândut 16 miliarde de piese din octombrie 2011. Am nevoie de mai multe opțiuni? Pot merge la Spotify, care are peste 15 milioane de melodii.

Vreau să cumpăr o carte? Amazon are de ales din peste 2 milioane de titluri.

Vreau să vizionez un videoclip? Există o mulțime de opțiuni, peste 100.000 de titluri

Vreau să cumpăr un laptop? Când introduc laptop în caseta de căutare Amazon, obțin 3.811 rezultate

Tastez aragaz pentru orez și am peste 1.000 de posibilități.

În viitorul apropiat vor exista și mai multe alegeri – miliarde de piese muzicale online – o mare varietate de produse video care pot fi personalizate cu imprimarea 3D.

Găsirea unor lucruri relevante

Problema constă în găsirea unor lucruri relevante. În mijlocul tuturor celor 11 milioane de melodii de pe iTunes, probabil că sunt destul de multe pe care le voi iubi absolut, dar cum le găsesc? Vreau să vizionez un film streaming de pe Netflix în seara asta, unde ar trebui să mă uit? Vreau să descarc un film folosind P2P, dar care film? Și problema se înrăutățește. În fiecare minut se adaugă terabyți de conținut media. În fiecare minut, 100 de fișiere noi sunt disponibile pe usenet. În fiecare minut, 24 de ore de videoclip sunt încărcate pe YouTube. În fiecare oră sunt publicate 180 de cărți noi. În fiecare zi există din ce în ce mai multe opțiuni de cumpărat în lumea reală. Devine din ce în ce mai dificil să găsești lucrurile relevante în acest ocean de posibilități.

Dacă sunteți un producător de media – spune Zee Avi din Malaezia – pericolul nu este cineva care vă descarcă muzica în mod ilegal – pericolul este obscuritatea.

Dar cum să găsești lucruri?

Cu ani în urmă, în acel mic oraș, prietenii noștri ne-au ajutat să găsim lucruri. Bucata aceea de țesătură care ar fi perfectă pentru noi; acel roman nou la librărie; acel nou LP la magazinul de discuri. Chiar și astăzi ne bazăm pe prieteni pentru a ne ajuta să găsim câteva lucruri relevante.

Am folosit experți pentru a ne ajuta să găsim lucruri. Cu ani în urmă, Consumer Reports putea evalua toate mașinile de spălat vândute – toate 20 – sau toate aragazele pentru orez vândute – toate 10, și să facă recomandări. Astăzi există sute de aragazuri pentru orez diferite disponibile pe Amazon și este puțin probabil ca o singură sursă de experți să le evalueze pe toate. Cu ani în urmă, Roger Ebert recenza practic toate filmele disponibile. Astăzi se produc în fiecare an aproximativ 25.000 de filme în toată lumea. În plus, acum avem acces la videoclipuri dintr-o varietate de surse. Roger Ebert sau orice alt expert nu poate examina toate filmele disponibile pentru noi.

De asemenea, folosim lucrul în sine pentru a ne ajuta să găsim lucruri. De exemplu, am deținut o mașină de spălat Sears care a durat 30 de ani, urmează să cumpăr o altă mașină de spălat Sears. Mi-a plăcut un album de la Beatles – Voi cumpăra un altul, șansele sunt bune să îmi placă și ăsta.

Aceste metode de găsire a prietenilor relevanți, experți, lucrul în sine, sunt încă prezente și astăzi, dar avem nevoie de ajutor de calcul pentru a le transforma în secolul 21, unde avem miliarde de alegeri.

Pur și simplu nu sunt chestii …

Mineritul datelor nu înseamnă doar recomandări de lucruri sau solicitarea către comercianți să vândă mai multe lucruri. Luați în considerare aceste exemple.

Primarul acelui orășel de acum 100 de ani, îi cunoștea pe toți. Când a candidat la realegere, a știut să adapteze ceea ce spunea fiecărui individ.

Tatăl meu aparținea Uniunii Muncitorilor Auto. În timpul alegerilor, îmi amintesc că reprezentantul sindicatului venise la noi acasă pentru a-i reaminti tatălui meu ce candidați să voteze:

Hei Syl, ce mai fac soția și copiii? … Acum, permite-mi să îți spun de ce ar trebui să votați pentru Frank Zeidler, candidatul socialist la funcția de primar …

Acest mesaj politic individualizat s-a transformat în reclame omogene în timpul ascensiunii televiziunii. Toată lumea a primit exact același mesaj. Un bun exemplu în acest sens este faimosul anunț de televiziune Daisy în sprijinul lui Lyndon Johnson (o tânără care rupe petale de pe o margaretă în timp ce o bombă nucleară se desprinde în fundal). Acum, cu alegerile determinate de marje mici și de utilizarea tot mai mare a mineritului datelor, individualizarea a revenit. Vă interesează dreptul femeilor de a alege? S-ar putea să primiți un apel telefonic direcționat chiar către această problemă.

Șeriful din acel mic oraș știa cine sunt cei care fac probleme. Acum, amenințările par a fi ascunse, pentru teroriștii din 2001 guvernul SUA a adoptat Actul Patriotic al SUA (prescurtarea pentru Uniting    A and Strengthening America by Providing Appropriate Tools Required to Intercept and Obstruct Terrorism). În parte, acest proiect de lege permite anchetatorilor să obțină înregistrări din o varietate de surse, inclusiv biblioteci (ce cărți citim), hoteluri (cine a stat, unde și cât timp), companii de carduri de credit, drumuri cu taxă care înregistrează pe unde am trecut. În cea mai mare parte, guvernul folosește companii private pentru a păstra date despre noi. Companiile precum Seisint au date despre aproape toți, fotografii despre noi, unde trăim, ce conducem, venitul nostru, comportamentul nostru de cumpărare, prietenii noștri. Seisint deține supercalculatoare care folosesc tehnici de minerit a datelor pentru a face predicții despre oameni. Apropo, produsul lor se numește …

Matrix

Data Mining extinde ceea ce facem deja!

Stephen Baker își începe cartea The Numerati în acest fel:

”Imaginați-vă că ești într-o cafenea, poate cea zgomotoasă în care stau eu în acest moment. O femeie tânără la o masă din dreapta ta tastează pe laptopul ei. Întorci capul și te uiți la ecranul ei. Navighează pe internet. Te uiți.

”Trec orele. Citește o lucrare online. Observi că ea citește trei articole despre China. Urmărește filme de vineri seară și de uită la trailerul pentru Kung Fu Panda. Face clic pe un anunț care promite că o va conecta la vechii colegi de liceu. Stai acolo luând notițe. Cu fiecare minut care trece, înveți mai multe despre ea. Acum imaginează-ți că ai putea urmări 150 de milioane de oameni navigând în același timp.”

Mineritul datelor este axat pe găsirea de tipare în date. La scară mică, suntem experți în construirea de modele mentale și găsirea de modele. Vreau să mă uit la un film în seara asta cu soția mea. Am un model mental despre ceea ce îi place. Știu că nu-i plac filmele violente (nu i-a plăcut Districtul 9 din acest motiv). Îi plac filmele lui Charlie Kaufman. Pot folosi acel model mental pe care îl am despre preferințele sale de film pentru a prezice ce filme îi pot plăcea sau nu.

Un prieten vizitează Europa. Știu că este vegetarian și pot folosi aceste informații pentru a prezice că nu i-ar plăcea litoralul local. Oamenii sunt buni în a face modele și a face predicții. Mineritul datelor extinde această capacitate și ne permite să gestionăm cantități mari de informații – cele 150 de milioane de oameni din cotația Baker de mai sus. Permite serviciului Pandora Music să adapteze un post de muzică la preferințele dvs. muzicale specifice. Acesta permite lui Netflix să facă recomandări specifice de filme personalizate pentru dvs.

Tera-mineritul nu este ceva din Starcraft II

La sfârșitul secolului al XX-lea, un set de date de milioane de cuvinte era considerat mare. În Noul Testament grecesc sunt doar aproximativ 200.000 de cuvinte, dar analiza lor în anii 1990 era prea mare pentru a se potrivi în memoria mainframe-ului, necesitând rezultate de spool pe benzi magnetice, pe care a trebuia să le soliciți să fie montate.

Astăzi nu este neobișnuit să faceți minerit de date pe terabyți de informații. Google are peste 5 petabytes (adică 5.000 terabytes) de date web. În 2006, Google a lansat un set de date către comunitatea de cercetare bazat pe un trilion de cuvinte. Agenția Națională de Securitate are înregistrări de apeluri pentru trilioane de apeluri telefonice.

Acxiom, o companie care colectează informații (achiziții de carduri de credit, înregistrări telefonice, dosare medicale, înregistrări auto etc.) a 200 de milioane de adulți din SUA, a acumulat peste 1 petabyte de date.

Robert O’Harrow, Jr., autorul cărții No Place to Hide, într-un efort de a ne ajuta să înțelegem câtă informație este 1 petabyte, spune că este echivalentul a unei stive de 50.000 de mile de Biblii King James. Conduc frecvent 2.000 km între New Mexico și Virginia. Când încerc să-mi imaginez bibliile stivuite pe tot parcursul, pare o cantitate incredibilă de date.

Biblioteca Congresului are în jur de 20 de terabyți de text. Puteți stoca întreaga colecție a Bibliotecii Congresului pe hard disk-uri de câteva mii de dolari! În schimb, Walmart are peste 570 de terabyți de date. Toate aceste date pur și simplu nu stau acolo – sunt exploatate în mod constant, se fac noi asociații, se identifică modele. Tera-minerit.

Sursa: Ron Zacharski, A Programmer’s Guide to Data Mining – The Ancient Art of the Numerati. Licența CC BY-NC 3.0. Traducere și adaptare: Nicolae Sfetcu

Eseuri filosofice
Eseuri filosofice

Descoperă universul gândirii critice și al reflecției profunde!

Nu a fost votat 24.11 lei87.42 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Ghidul autorului de cărţi electronice
Ghidul autorului de cărţi electronice

Descoperă cum să devii autor de succes în era digitală!

Nu a fost votat 24.11 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Ghid marketing pe Internet
Ghid marketing pe Internet

Autor: Nicolae Sfetcu (Ediţia a doua, Revizia 2) Unul din cele mai vechi ghiduri pentru marketing pe Internet în limba română, dar şi unul din cele mai concise şi mai practice ghiduri. Deşi au trecut mulţi ani de la scrierea … Citeşte mai mult

Nu a fost votat 0.00 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *