Informațiile eterogene disponibile pe web și caracteristicile specifice oferă o oportunitate excelentă, precum și provocări pentru cercetătorii pentru mineritul web. Câteva caracteristici sunt următoarele:
- Informațiile de pe web sunt foarte mari și cresc rapid. De asemenea, aceste informații uriașe sunt disponibile tuturor cu ușurință.
- Informațiile despre orice sunt disponibile în diferite formate și prezentare. De asemenea, informațiile despre orice subiect sunt diverse.
- Eșantionul de date este disponibil pentru antrenament și predicții în diferite formate de fișiere cum ar fi .xls, .xlsx, .json, .csv, .arff etc.
- Datele de jurnal ale serverelor web sunt, de asemenea, disponibile pentru a afla modelul de navigare al utilizatorilor, recomandările și marketingul vizat.
- Datele sunt disponibile în diferite formate, cum ar fi date structurate, nestructurate, semi-structurate, de utilizare (jurnal de server, clic de utilizator), date de hyperlink, date multimedia, știri, audio, video, imagini, date în reclame, date criptate etc.
- Informațiile despre orice subiect sunt disponibile în totalitate în diferite formate și prezentări din cauza autorului diferit. Prezentarea acestor informații utilizatorilor web într-un singur format reprezintă o provocare foarte mare pentru motoarele de căutare.
- Informațiile sunt interconectate cu ajutorul hiperlinkurilor.
- Majoritatea informațiilor de pe web prezintă zgomot. Zgomotul trebuie filtrat înainte de extragerea datelor, ceea ce reprezintă o mare provocare.
- Internetul oferă, de asemenea, servicii sub diferite forme, cum ar fi achiziționarea de articole prin marketing online, plata facturilor, înregistrarea pe site-uri web, achiziționarea de nume de domenii, jocul online, vizionarea filmelor, ascultarea melodiilor și multe altele. Fiecare dintre aceste servicii oferă o oportunitate de minerit, de ex. pentru predicție, recomandări, servicii.
- Informațiile de pe web se schimbă dinamic. Contabilizarea modificării este cu siguranță utilă pentru multe aplicații.
- Cu excepția datelor, informațiilor și serviciilor, web-ul menține și o societate virtuală. Există interacțiune între oameni, computere și companii. Aceste date de interacțiune sunt disponibile sub formă de jurnale de tranzacții, recenzii, bloguri, ceea ce este foarte util pentru îmbunătățirea și consolidarea interacțiunii.
Sursa: Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere Nicolae Sfetcu
Lasă un răspuns