Home » Articole » Articole » Afaceri » Știința datelor (Data Science) » Data mining » Taxonomia mineritului web – Mineritul conținutului web

Taxonomia mineritului web – Mineritul conținutului web

postat în: Data mining 0

Taxonomia mineritului web este prezentată în Fig. 3. și este descrisă în continuare.

Mineritul web (Web mining) - Taxonomia mineritului web

(Taxonomia mineritului web)

Mineritul conținutului web este folosit pentru a extrage informații utile și relevante din datele de conținut care includ date structurate, semistructurate și nestructurate [6].

Creșterea rapidă a web-ului duce la mai multe probleme, cum ar fi dificultatea de a găsi informații relevante, de a face analize statistice, de a afla despre clienți și comportamentul lor. Pentru aceasta, datele nestructurate și semistructurate pot fi transformate într-o formă structurată pentru a ușura analiza. Conversia datelor nestructurate și semi-structurate în formă structurată este un domeniu de lucru viitor. Mineritul conținutului web folosește două abordări, în primul rând, pentru a extrage conținutul documentelor web și, în al doilea rând, pentru a extrage sau îmbunătăți rezultatele căutării motoarelor de căutare web.

Câteva dintre provocările mineritului de conținut web sunt prezentate mai jos:

  1. Extragerea datelor/informațiilor: Există multe tehnici de extragere a datelor structurate din web numite și generare wrapper [9]. (Wrapper, în mineritul datelor, este o procedură care extrage subconținutul obișnuit al unei surse de informații nestructurate sau slab structurate și îl traduce într-o formă relațională, astfel încât să poată fi procesate ca date structurate.) Prima este să scrieți un program dedicat pentru a extrage date de pe orice site. În această abordare sunt necesare multe eforturi și, de asemenea, acesta este un proces consumator de timp. Deci nu este fezabil. A doua este inducția wrapper sau învățarea wrapper. (Inducția wrapper este problema elaborării procedurilor de extracție pe o bază automată, cu o dependență minimă de regulile realizate manual.) În aceasta, programatorul etichetează mai întâi unele pagini de antrenament care sunt folosite pentru a crea un sistem de învățare și, de asemenea, se generează unele reguli din acestea. Aceste reguli sunt folosite pentru a extrage date de conținut de pe alte site-uri web. Această tehnică se mai numește și tehnică de învățare supravegheată. Câteva exemple de a doua tehnică sunt WIEN, Stalker [10], BWI [11] etc. A treia tehnică extrage automat date structurate de pe site-uri web. Această tehnică găsește modele/gramatici în paginile web și apoi folosește aceste modele pentru a extrage date de pe alte site-uri web; de exemplu IEPAD [12], MDR [13], RoadRunner EXALG [14], [15], sunt câteva exemple de a treia abordare.
  2. Integrarea informațiilor web: Web-ul are o cantitate foarte mare de date. Site-uri web diferite reprezintă aceleași informații în propriul lor format. Chiar și pe același site web, prezentarea informațiilor în două locuri distincte poate fi diferită. De obicei, tehnicile de extragere necesită datele într-un anumit format standard. Aceste informații trebuie să fie integrate într-un singur loc, astfel încât să poată fi folosite în scop de minerit. Există două probleme legate de integrarea web. În primul rând, integrarea interfeței de interogare web pentru a interoga mai multe baze de date deep web, și în al doilea rând este potrivirea schemei în care potrivim ierarhiile de concept, de ex. integrarea directoarelor a două motoare de căutare Yahoo și Google pentru a se potrivi cu ierarhiile de concept [18]. Extragerea informațiilor din multe baze de date deep web este dificilă, deoarece aceste date vaste nu pot fi indexate de motoarele de căutare tradiționale[19].
  3. Construirea unor ierarhii de concept: Informațiile de pe web sunt atât de mari încât ar trebui organizate. Informațiile organizate devin mai ușor de gestionat și utilizat. Dar, din cauza dimensiunii mari, este dificil să organizați întregul web. Deși putem organiza rezultatul căutării unei interogări. Paginile web rezultate pe baza clasării ca răspuns la interogarea utilizatorului nu sunt suficiente pentru multe aplicații, așa că o altă modalitate de organizare a informațiilor este ierarhiile de concepte, deci uneori categorizarea [17]. Cea mai utilizată tehnică pentru crearea ierarhiei este gruparea rezultatelor și este folosită de cercetători în [20].
  4. Segmentarea automată a paginii web și eliminarea zgomotului: În general, o pagină web constă din mai multe părți, de ex. principalele zone de conținut, meniuri, anunțuri etc. care nu contribuie la extragerea cunoștințelor, și performanța site-ului web poate fi îmbunătățită după eliminarea acestui zgomot. De asemenea, reduce performanța procesului mineritului web [21].
  5. Mineritul surselor web de opinii: În epoca în creștere a pieței, concurența este în creștere. În astfel de situații, companiile solicită feedback sub formă de opinii ale consumatorilor sub formă de sondaje sau folosesc metode manuale pentru a obține feedback despre produsele și serviciile lor. Și aceste informații sunt disponibile public pe site-urile web în sine sau sub formă de bloguri pe unele site-uri ale bloggerilor. Aceste informații sunt acum frecvent utilizate pentru a îmbunătăți performanța site-ului web și reorganizarea acestuia.
  6. Deep Web: Este un web invizibil sau ascuns care nu este indexat și nu este codificat în HTML. Așa că devine dificil pentru motoarele de căutare să extragă informații din această sursă de internet.

Referințe

  • [6]    Mendez-Torreblanca, A. and Monte, M. A Trend Discovery for Dynamic Web Content Mining, IEEE, Inteligence System, Vol 14, pages.20-22, 2002.
  • [9]    Bing Liu, Kevin Chen-Chuan Chang, Editorial Issue on Web Content Mining, issue2, 2004.
  • [10]    Muslea, I., Minton, S. and Knoblock, C. A Hierarchical Approach to Wrapper Induction. Agents-99, 1999.
  • [11]    Freitag, D and McCallum, A. Information Extraction with HMM Structures Learned by Stochastic Optimization. AAAI-00, 2000.
  • [12]    Chang, C-H., Lui, S-L. IEPAD: Information Extraction Based on Pattern Discovery. WWW-10, 2001.
  • [13]    Liu, B., Grossman, R. and Zhai, Y. Mining Data Records in Web Pages. KDD-03, 2003.
  • [14]    Arasu, A. and Garcia-Molina, H. Extracting Structured Data from Web Pages. SIGMOD-03, 2003.
  • [15]    Lerman, K., Getoor L., Minton, S. and Knoblock, C. Using the Structure of Web Sites for Automatic Segmentation of Tables. SIGMOD-04, 2004.
  • [16]    Tyagi N., Gupta S.K. (2018) Web Structure Mining Algorithms: A Survey. In: Aggarwal V., Bhatnagar V., Mishra D. (eds) Big Data Analytics. Advances in Intelligent Systems and Computing, vol 654. Springer, Singapore.
  • [17]    Johnson, F., Gupta, S. K., Web Content Mining Techniques: A Survey, International journal of computer applications (0975-888), vol. 47, no. 11, June 2012.
  • [18]    Agrawal, R., Srikant, R. On Integrating Catalogs. WWW-01, 2001.
  • [19]    Bergman, M. K. The Deep Web: Surfacing Hidden Value. Technical report, BrightPlanet LLC, Dec. 2000
  • [20]    Chuang, S.-L. and Chien, L.-F., A Practical Web-based Approach to Generating Topic Hierarchy for Text Segments. CIKM-04, 2004.
  • [21]    Yi, L., and Liu, B. Web Page Cleaning for Web Mining through Feature Weighting IJCAI-03, 2003.

Sursa: Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere Nicolae Sfetcu

Analitica rețelelor sociale
Analitica rețelelor sociale

Analitica rețelelor sociale este un domeniu nou și emergent, pregătit pentru a permite companiilor să își îmbunătățească inițiativele de gestionare a performanței în diferite funcții de afaceri. Indiferent dacă este vorba de măsurarea eficienței campaniilor promoționale, colectarea de informații despre … Citeşte mai mult

Nu a fost votat 18.80 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Etica Big Data în cercetare
Etica Big Data în cercetare

Principalele probleme cu care se confruntă oamenii de știință în lucrul cu seturile mari de date (Big Data), evidențiind principale aspecte etice, luând în considerare inclusiv legislația din Uniunea Europeană. După o scurtă Introducere despre Big Data, secțiunea Tehnologia prezintă … Citeşte mai mult

Nu a fost votat 0.00 lei11.07 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.
Rețele de comunicații 5G
Rețele de comunicații 5G

Datorită impactului său așteptat în economie și societate, a cincea generație de telecomunicații mobile (5G) este una dintre cele mai importante inovații ale timpului nostru. Așteptările cresc cu capacitățile de bandă largă ale 5G, accesibile tuturor și peste tot, la … Citeşte mai mult

Nu a fost votat 14.09 lei32.42 lei Selectează opțiunile Acest produs are mai multe variații. Opțiunile pot fi alese în pagina produsului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *