Mineritul web

Mineritul web și descoperirile tiparelor ascunse în cantitatea mare de date găsește informații necunoscute, relevante și utile, conținute în documentele web [5, 17]. Tehnicile de minerit pe web sunt inspirate din tehnicile de minerit a datelor. Nu utilizează în mod direct tehnicile de minerit a datelor din cauza naturii diverse a datelor web care sunt disponibile sub formă de date nestructurate, semistructurate și structurate. Pentru analiza documentelor web, există mai multe sarcini de minerit și algoritmi în literatură. Spre deosebire de depozitarea de date, web are tipuri mixte de date, de ex. date de conținut (text, audio, video și grafică), date de structură (hyperlinkuri, grafuri web) și date de utilizare (date de jurnal web). Pe baza tipurilor de date utilizate, mineritul web poate fi clasificat ca mineritul conținutului web, mineritul structurii web sau analiza linkurilor și mineritul utilizării web [17].

Mineritul conținutului web

Mineritul conținutului web descoperă informațiile utile și relevante din conținutul paginii web care ar putea fi text nestructurat, date XML, tabele structurate, informații grafice, imagini, videoclipuri etc [17]. De exemplu, clasificarea documentelor web în funcție de conținutul lor, recenzii despre produse de minerit, sentimentele utilizatorilor în datele blogului.

Mineritul structurii web

Se ocupă în mod special de structurile intra și inter documente, adică structura de legături a conținutului într-o pagină web și interconectivitatea paginii web între site-uri web. Structura paginii web afectează clasarea acesteia. Mineritul structurii web poate fi clasificată ca structură de hyperlink și structură de document [16]. Structura de linkuri conectează conținutul în locații diferite din aceeași pagină web sau poate fi utilizată pentru a interconecta diferitele pagini web ale aceluiași site sau al unui site web diferit, în timp ce structura documentului organizează conținutul paginii sub forma structurii datorită diferitelor etichete HTML și XML.

Mineritul utilizării web

Mineritul utilizării web descoperă modelele de traversare ale utilizatorului din jurnalele web care înregistrează fluxurile de clicuri ale utilizatorului. Mulți algoritmi de minerit a datelor sunt aplicabili și în mineritul utilizării web. Mineritul utilizării web folosește mai mulți algoritmi de minerit a datelor. Principala problemă cu mineritul utilizărilor web sunt datele neprocesate din fluxul de clic din fișierul jurnal de utilizare a web. Mineritul web moștenește procesul utilizat în mineritul de date. Ambele diferă în ceea ce privește tehnicile de culegere de date. Datele din depozitul de date sunt colectate din diferite surse eterogene, cum ar fi fișierele plate ale bazelor de date. Acest proces implică curățarea, integrarea și transformarea datelor. Datele pentru minerit din depozitul de date sunt deja colectate, în timp ce pentru mineritul web sarcina de colectare a datelor este plictisitoare, dar cumva crawlerele web sunt utile în această activitate. După ce colectarea datelor este finalizată, aceasta necesită preprocesare, integrare, transformare și selectare a datelor necesare pentru mineritul web. În cele din urmă, se face generalizarea și analiza.

Subsarcini ale mineritului web

Date web
Pregătirea datelor:
Curățire, integrare, selecție, filtrare, date structurate
Date structurate
Descoperirea tiparelor:
Identificarea modelului de utilizator, găsirea modelului de recomandare
Bază de cunoștințe
Personalizare web:
Motoare de minerit, evaluarea tiparelor, sistem interfață/recomandare pentru utilizator
Funcții de personalizare

Fig. 1. Personalizare Web

Mineritul web include patru sarcini secundare, prezentate în Fig. 2:

  • Colectarea resurselor: această fază preia documentele dorite și este realizată de motoarele de căutare web sau crawlerele web [7].
  • Selectarea/preprocesarea informațiilor: după găsirea resursei, documentele web relevante sunt selectate și transformate în formă standard. Majoritatea metodelor au folosit lucrări pentru a selecta datele și reprezintă datele în formă tabelară [8].
  • Generalizare: încearcă să afle modelul general de acces al utilizatorilor în cadrul și între site-uri web. Aceasta determină interesul și comportamentul utilizatorului. Sunt utilizate tehnicile de minerit web, cum ar fi clasificarea, tehnicile de reguli de asociere în cluster etc.
  • Analiză/validare: acest pas analizează, interpretează și validează informațiile potențiale în raport cu modelele de informații. Scopul acestei sarcini este mineritul cunoștințelor din informațiile obținute prin pașii anteriori. Există mai multe modele pentru a simula și valida datele web pentru minerit.

Toți pașii sunt prezentați în Fig. 1.

Date web Descoperirea de resurse web/Extragerea informațiilor (conținut / structură / date de utilizare) Selectarea preprocesarea și transformarea datelor web / Extragerea informațiilor Generalizare / Descoperirea tiparelor (clustering / clasificare / reguli de asociere( Analiza, interpretarea și validarea tiparelor Cunoaștere

Fig. 2. Subsarcini ale mineritului web

Mineritul web moștenește tehnicile de minerit de date pentru a extrage automat informațiile pentru a obține cunoștințe din conținutul web. Evaluarea modelelor implică generalizare, clasificare în cluster și analiză.

Referințe

  • [5]    Srivastava J., Cooley R., Deshpande M, Tan, P-N. Discovery and Applications of Usage Patterns from Web Data ACM SIGKDD Explorations Newsletter, 2000, 1(2) 12-23
  • [7]    Crimmins, F., Smeaton, A. F., Dkaki, T. and Mothe, J. TetraFusion: information discovery on the Internet. Journal of IEEExpert, pp 55-62, July 1999.
  • [17]    Johnson, F., Gupta, S. K., Web Content Mining Techniques: A Survey, International journal of computer applications (0975-888), vol. 47, no. 11, June 2012.

Sursa: Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere Nicolae Sfetcu

Rețele de comunicații 5G
Rețele de comunicații 5G

Descoperă cum 5G transformă lumea și pregătește-te să fii parte din viitor.

Nu a fost votat $2.99$6.88 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Căutarea, extragerea, organizarea și evaluarea informațiilor
Căutarea, extragerea, organizarea și evaluarea informațiilor

Transformă informația în putere cu ajutorul acestei cărți indispensabile!

Nu a fost votat $3.99$9.61 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Introducere în inteligența artificială
Introducere în inteligența artificială

Pășește în era digitală pregătit să înțelegi și să aplici conceptele care schimbă lumea!

Nu a fost votat $2.99$5.24 Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *