Există trei caracteristici importante ale webului care îl fac greu de indexat:
- volumul foarte mare,
- rata foarte mare de chimbări, şi
- generarea paginilor dinamice.
Aceste caracteristici se combină producând o mare varietate de posibile URL-uri indexabile.
Volumul mare implică posibilitatea indexării de a descărca doar o fracţiune de pagini web la un moment dat, fiind deci necesar stabilirea unor priorităţi la indexare. Rata mare de schimbare presupune că atunci când robotul descarcă ultima pagină dintr-un sit web, este foarte posibil ca noi pagini să fi apărut în sit, sau ca pagini deja indexate să fi fost actualizate sau şterse.
Creşterea recentă a numărului de pagini generate de limbajele scripting pe servere crează noi dificultăţi datorită combinaţiilor nenumărate de parametri HTTP GET, dintre care numai o mică selecţie va returna conţinut unic. De exemplu, o simplă galerie foto online poate oferi trei opţiuni utilizatorului, conform parametrilor HTTP GET. Dacă există patru modalităţi de a sorta imaginile, trei mărimi diferite pentru thumbnail, două formaturi de fişiere, şi o opţiune de dezactivare a conţinutului livrat utilizatorului, atunci acelaşi conţinut poate fi accesat prin 48 URL-uri diferite, toate fiind prezente pe sit. Această combinare matematică crează o problemă pentru roboţi, întrucât ei trebuie să aleagă dintre nenumărate combinaţii pentru a extrage conţinut unic.
După cum nota Edwards et al., „Întrucât lărgimea de bandă pentru roboţi nu este nici infinită nici gratuită, este esenţial să se indexeze webul într-un mod nu numai scalabil, dar şi eficient, dacă se doreşte menţinerea unor măsurători rezonabile pentru calitate şi noutate.” [1]. Un robot trebuie să aleagă cu grijă în fiecare etapă ce pagină va vizita în continuare.
Comportarea unui robot de indexare este rezultatul unei combinaţii de politici:
- o politică de selecţie care stabileşte ce pagini să se descarce,
- o politică de revizitare care stabileşte după cât timp se va verifica din nou pagina pentru schimbări,
- o politică de politeţe care stabileşte cum să se evite supraîncărcarea siturilor web, şi
- o politică de paralelism care stabileşte modul de coordonare a roboţilor de indexare distribuiţi.
Referinţe
(Traducere şi adaptare din Wikipedia sub licenţa GNU)
Aveţi nevoie de un webmaster? Click AICI. Tel. 0745-526896
Lasă un răspuns