Acesta analizează structura linkurilor site-ului. Această structură de legături poate fi organizată sub formă de topologie și poate fi folosită pentru a găsi similarități și relații între site-uri web. Aceste informații despre linkuri pot fi folosite și pentru reorganizarea site-ului web și clasarea paginilor web. Algoritmul popular bazat pe linkuri pentru clasarea paginilor sunt HITS (Hypertext Induced Topic Search – Căutare de subiecte induse prin hipertext) și PageRank [22]. După ce am văzut rezultatul analizei minării structurii web, o nouă zonă de cercetare numită Link Mining (mineritul linkurilor) devine și ea populară. Unele dintre sarcinile posibile ale minării de linkuri sunt următoarele:
- Clasificare bazată pe link: paginile web sunt reprezentate ca noduri ale graficului web. Aceasta etichetează sau clasifică nodurile sau obiectele din grafic pe baza caracteristicilor nodurilor sau nodurilor învecinate.
- Analiza cluster bazată pe link: linkul paginii web include suficiente informații pentru gruparea site-urilor web. Aceasta folosește abordarea de învățare nesupravegheată.
- Tip de link: aceasta este folosită pentru a prezice tipul sau scopul linkului dintre două pagini web.
- Puterea linkului: indică importanța unei legături prin ponderea asocierii pentru aceasta. Ponderea este atribuită în funcție de gradul de apropiere dintre două noduri/pagini din graficul web.
- Cardinalitatea linkului: indică numărul de linkuri existente între două noduri din graficul web.
Referințe
- Page, L., Brin, S., Motwani, R., and Winograd, T. The Pagerank citation ranking: Bring order to the web. Technical report, Stanford University, 1998.
Sursa: Santosh Kumar and Ravi Kumar, ”A Study on Different Aspects of Web Mining and Research Issues”, 2021 IOP Conf. Ser.: Mater. Sci. Eng. 1022 012018. Licența CC BY 3.0. Traducere Nicolae Sfetcu
Lasă un răspuns