Home » Articole » RO » Afaceri » Știința datelor (Data Science) » Data mining » Mineritul web (Web mining)

Mineritul web (Web mining)

Web-ul este imens și crește dinamic pe zi ce trece, cu o rată exponențială. Dacă interogarea este puțin mai complexă, devine dificil să obțineți informații relevante ca răspuns. Multe motoare de căutare încearcă să optimizeze interogarea utilizatorilor și/sau rezultatele căutării pentru a oferi informații relevante. De asemenea, multe situri sunt situri de comerț electronic care concurează pentru a-și atrage clienții, iar unele se bazează pe recomandări. Acum, aproape toate siturile bune folosesc tehnici de exploatare web pentru a-și îmbunătăți performanța.

Informații despre aproape orice sunt disponibile pe Web. Deci, astăzi, WWW este sursa uriașă globală de informații. Dimensiunea web-ului a crescut atât de mult încât găsirea de informații relevante devine o sarcină dificilă. Deși motoarele de căutare (cum ar fi Google, Yahoo, Bing, etc) contribuie foarte mult la găsirea informațiilor necesare. Pentru o interogare simplă, ele returnează mii de documente în rezultat. Majoritatea acestor documente sunt irelevante. Deci, din nou, avem probleme în a găsi documentul dorit din rezultatul interogării de către motorul de căutare. Deși motoarele de căutare din ziua de azi folosesc mai multe tehnici avansate pentru a-și ajuta utilizatorii să găsească informațiile necesare, de exemplu sistemul de recomandare [1], rezultatele din mineritul webului joacă un rol vital în căutările pe web. Datorită dimensiunilor mari și a informațiilor în schimbare dinamică, apar probleme de scalabilitate temporale. Acest lucru ridică, de asemenea, problema importantă a supraîncărcării de informații. Precizia este procentul din rezultatele relevante returnate ca răspuns la interogarea a utilizatorului. Reapelarea este procentul rezultatelor relevante cu privire la o interogare. Dacă motorul de căutare returnează x rezultate, y sunt rezultatele relevante, în timp ce motorul de căutare nu reușește să returneze z rezultate relevante. Precizia este y/x și reapelarea este y/(y+z). Precizia arată utilitatea rezultatului, în timp ce reapelarea arată completitudinea rezultatului. În plus, utilizatorii/proprietarii de web se confruntă cu unele dintre următoarele probleme:

precizia = (pozitive adevărate)/(pozitive adevărate + pozitive false) = (teroriști identificați corect)/(teroriști identificați corect + indivizi etichetați incorect ca teroriști)

reapelarea = (pozitive adevărate)/(pozitive adevărate + negative false) = (teroriști identificați corect)/(teroriști identificați corect + teroriști etichetați incorect ca neteroriști)

i. Precizie scăzută: Majoritatea motoarelor de căutare folosesc căutarea bazată pe cuvinte cheie. Utilizatorul a introdus interogarea sub formă de cuvânt cheie. Rezultatul interogării este lista de pagini clasificate pe baza asemănării cuvintelor cheie. Majoritatea acestor pagini sunt irelevante. Prin urmare, există dificultăți în găsirea paginilor relevante și necesare.

ii. Reapelare scăzută: Majoritatea motoarelor de căutare fac indexarea documentelor web. Indexările sunt folosite în căutare în timp ce se răspunde la interogarea utilizatorului. Toate documentele web disponibile nu pot fi indexate. Prin urmare, există dificultăți în găsirea informațiilor necesare din aceste pagini web neindexate.

iii. Găsirea de cunoștințe noi din datele web: Scopul în sistemul web este de a crea informații potențial utile din vastele date disponibile pe web; procesul se numește mineritul web. Autorii din [2] au încercat să utilizeze web-ul ca bază de cunoștințe pentru activitățile de luare a deciziilor.

iv. Personalizare web: Pentru succesul oricărui sit de comerț electronic, este necesar să aveți grijă de preferințele individuale ale utilizatorului. Proprietarii de situri web ar trebui să înțeleagă nevoile utilizatorilor și să reprezinte în consecință conținutul, adică ar trebui să creeze situri web adaptabile. Cercetările arată că ar trebui să existe un magazin individual pe web pentru fiecare client [3]. Majoritatea utilizatorilor de internet preferă să primească informații personalizate. Deci, proprietarii de situri web pot plasa publicitatea și ofertele în funcție de preferințele clienților. Cum funcționează personalizarea web este prezentat în Fig. 1.

Date web

Pregătirea datelor:
Curățire, integrare, selecție, filtrare, date structurate

Date structurate

Descoperirea tiparelor:
Identificarea modelului de utilizator, găsirea modelului de recomandare

Bază de cunoștințe

Personalizare web:
Motoare de minerit, evaluarea tiparelor, sistem interfață/recomandare pentru utilizator

Funcții de personalizare

Fig. 1. Personalizare Web

v. Învățarea despre clienți: Cunoștințele despre istoria și modelele clienților joacă un rol important în proiectarea, dezvoltarea și gestionarea eficientă a sitului web.

Tehnicile de mineritul web s-au dovedit a fi foarte utile pentru a aborda toate problemele de mai sus direct sau indirect [4]. Alte tehnici sunt, de asemenea, disponibile în literatură pentru a aborda problemele de mai sus, cum ar fi regăsirea informațiilor, sistemul de gestionare a bazelor de date, învățarea automată, procesarea limbajului natural, comunitatea documentelor web etc. În abordarea directă, instrumentele sau tehnicile de minerit web abordează direct problemele de mai sus precum agentul grupului de știri clasifică știrile relevante și irelevante, sistemul de recomandare este folosit pentru a sugera conținutul sau articolele utilizatorilor. În abordarea indirectă, abordările mineritului web sunt utilizate ca parte a altor aplicații. De exemplu, analiza coșului de piață pentru detectarea spamului prin email, evaluarea creditului, extragerea informațiilor, detectarea fraudei, vizualizarea datelor.

Referințe

  • [1]    Cho, Y. H., Kim, J. K. and Kim, S. H. A personalized recommender system based on web usage mining and decision tree induction, in Expert Systems with Applications, 23(3): 329–42, September 2002.
  • [2]    Mitchell, T.. Machine Learning. McGraw Hill, 1997.
  • [3]    Schafer, J.B., Konstan, J.A., Riedl, J., E – commerce recommendation applications, Data Mining and Knowledge Discovery 5 (1/2)(2001) 115-153.
  • [4]    Raymond, K., Hendrik, B.. Web Mining Research: A Survey. July 2000

Sursa: Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere Nicolae Sfetcu

Lucrul cu baze de date
Lucrul cu baze de date

Colecția ȘTIINȚA INFORMAȚIEI Lucrul cu bazele de date este astăzi printre cele mai căutate abilități IT. Acum puteți obține o bază de plecare în proiectarea și implementarea bazelor de date cu o abordare practică, ușor de înțeles. ”Lucrul cu baze … Citeşte mai mult

Nu a fost votat $3,99$7,99 Selectează opțiunile
Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat $3,99$9,61 Selectează opțiunile
Tehnologia Blockchain - Bitcoin
Tehnologia Blockchain – Bitcoin

Internetul a schimbat complet lumea, cultura şi obiceiurile oamenilor. După o primă fază caracterizată prin transferul liber al informaţiilor, au apărut preocupările pentru siguranţa comunicaţiilor online şi confidenţialitatea utilizatorilor. Tehnologia blockchain asigură ambele aceste deziderate. Relativ nouă, ea are şansa să producă … Citeşte mai mult

Nu a fost votat $2,99$11,99 Selectează opțiunile

Lasă un răspuns

Adresa ta de email nu va fi publicată.