Web-ul este imens și crește dinamic pe zi ce trece, cu o rată exponențială. Dacă interogarea este puțin mai complexă, devine dificil să obțineți informații relevante ca răspuns. Multe motoare de căutare încearcă să optimizeze interogarea utilizatorilor și/sau rezultatele căutării pentru a oferi informații relevante. De asemenea, multe situri sunt situri de comerț electronic care concurează pentru a-și atrage clienții, iar unele se bazează pe recomandări. Acum, aproape toate siturile bune folosesc tehnici de exploatare web pentru a-și îmbunătăți performanța.
Informații despre aproape orice sunt disponibile pe Web. Deci, astăzi, WWW este sursa uriașă globală de informații. Dimensiunea web-ului a crescut atât de mult încât găsirea de informații relevante devine o sarcină dificilă. Deși motoarele de căutare (cum ar fi Google, Yahoo, Bing, etc) contribuie foarte mult la găsirea informațiilor necesare. Pentru o interogare simplă, ele returnează mii de documente în rezultat. Majoritatea acestor documente sunt irelevante. Deci, din nou, avem probleme în a găsi documentul dorit din rezultatul interogării de către motorul de căutare. Deși motoarele de căutare din ziua de azi folosesc mai multe tehnici avansate pentru a-și ajuta utilizatorii să găsească informațiile necesare, de exemplu sistemul de recomandare [1], rezultatele din mineritul webului joacă un rol vital în căutările pe web. Datorită dimensiunilor mari și a informațiilor în schimbare dinamică, apar probleme de scalabilitate temporale. Acest lucru ridică, de asemenea, problema importantă a supraîncărcării de informații. Precizia este procentul din rezultatele relevante returnate ca răspuns la interogarea a utilizatorului. Reapelarea este procentul rezultatelor relevante cu privire la o interogare. Dacă motorul de căutare returnează x rezultate, y sunt rezultatele relevante, în timp ce motorul de căutare nu reușește să returneze z rezultate relevante. Precizia este y/x și reapelarea este y/(y+z). Precizia arată utilitatea rezultatului, în timp ce reapelarea arată completitudinea rezultatului. În plus, utilizatorii/proprietarii de web se confruntă cu unele dintre următoarele probleme:
precizia = (pozitive adevărate)/(pozitive adevărate + pozitive false) = (teroriști identificați corect)/(teroriști identificați corect + indivizi etichetați incorect ca teroriști)
reapelarea = (pozitive adevărate)/(pozitive adevărate + negative false) = (teroriști identificați corect)/(teroriști identificați corect + teroriști etichetați incorect ca neteroriști)
i. Precizie scăzută: Majoritatea motoarelor de căutare folosesc căutarea bazată pe cuvinte cheie. Utilizatorul a introdus interogarea sub formă de cuvânt cheie. Rezultatul interogării este lista de pagini clasificate pe baza asemănării cuvintelor cheie. Majoritatea acestor pagini sunt irelevante. Prin urmare, există dificultăți în găsirea paginilor relevante și necesare.
ii. Reapelare scăzută: Majoritatea motoarelor de căutare fac indexarea documentelor web. Indexările sunt folosite în căutare în timp ce se răspunde la interogarea utilizatorului. Toate documentele web disponibile nu pot fi indexate. Prin urmare, există dificultăți în găsirea informațiilor necesare din aceste pagini web neindexate.
iii. Găsirea de cunoștințe noi din datele web: Scopul în sistemul web este de a crea informații potențial utile din vastele date disponibile pe web; procesul se numește mineritul web. Autorii din [2] au încercat să utilizeze web-ul ca bază de cunoștințe pentru activitățile de luare a deciziilor.
iv. Personalizare web: Pentru succesul oricărui sit de comerț electronic, este necesar să aveți grijă de preferințele individuale ale utilizatorului. Proprietarii de situri web ar trebui să înțeleagă nevoile utilizatorilor și să reprezinte în consecință conținutul, adică ar trebui să creeze situri web adaptabile. Cercetările arată că ar trebui să existe un magazin individual pe web pentru fiecare client [3]. Majoritatea utilizatorilor de internet preferă să primească informații personalizate. Deci, proprietarii de situri web pot plasa publicitatea și ofertele în funcție de preferințele clienților. Cum funcționează personalizarea web este prezentat în Fig. 1.
Date web → |
Pregătirea datelor: |
||
↓ | Date structurate | ||
Descoperirea tiparelor: |
|||
↓ |
Bază de cunoștințe | ||
Personalizare web: |
|||
↓ |
|||
Funcții de personalizare |
Fig. 1. Personalizare Web
v. Învățarea despre clienți: Cunoștințele despre istoria și modelele clienților joacă un rol important în proiectarea, dezvoltarea și gestionarea eficientă a sitului web.
Tehnicile de mineritul web s-au dovedit a fi foarte utile pentru a aborda toate problemele de mai sus direct sau indirect [4]. Alte tehnici sunt, de asemenea, disponibile în literatură pentru a aborda problemele de mai sus, cum ar fi regăsirea informațiilor, sistemul de gestionare a bazelor de date, învățarea automată, procesarea limbajului natural, comunitatea documentelor web etc. În abordarea directă, instrumentele sau tehnicile de minerit web abordează direct problemele de mai sus precum agentul grupului de știri clasifică știrile relevante și irelevante, sistemul de recomandare este folosit pentru a sugera conținutul sau articolele utilizatorilor. În abordarea indirectă, abordările mineritului web sunt utilizate ca parte a altor aplicații. De exemplu, analiza coșului de piață pentru detectarea spamului prin email, evaluarea creditului, extragerea informațiilor, detectarea fraudei, vizualizarea datelor.
Referințe
- [1] Cho, Y. H., Kim, J. K. and Kim, S. H. A personalized recommender system based on web usage mining and decision tree induction, in Expert Systems with Applications, 23(3): 329–42, September 2002.
- [2] Mitchell, T.. Machine Learning. McGraw Hill, 1997.
- [3] Schafer, J.B., Konstan, J.A., Riedl, J., E – commerce recommendation applications, Data Mining and Knowledge Discovery 5 (1/2)(2001) 115-153.
- [4] Raymond, K., Hendrik, B.. Web Mining Research: A Survey. July 2000
Sursa: Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere Nicolae Sfetcu
Lasă un răspuns