Roboţi web

Un robot web (Web crawler, Web spider, Web robot, sau, în comunitatea FOAF, Web scutter) este un program sau script automat care scrutează World Wide Web metodic, automat. Alte nume mai puţin uzuale sunt ante-uri, indexori atutomat, boturi, sau viermi (ants, automatic indexers, bots, worms) (Kobayashi, M. and Takeda, K. (2000). „Information retrieval on the web„. ACM Computing Surveys (ACM Press) 32 (2): 144–173. doi:10.1145/358923.358934.).

Procesul este denumit  Web crawling sau spidering. Multe situri, în special motoarele de căutare, folosesc spidering pentru a-şi actualiza datele. Roboţii web sunt folosiţi în principal pentru a crea copii ale tuturor paginilor vizitate pentru procesarea ulterioară de către motoarele de căutare care le indexează pentru a oferi o căutare rapidă. Roboţii pot fi de asemenea folosiţi pentru întreţinerea automată a sitului web, precum în verificarea linkurilor sau validarea codurilor HTML. De asemenea, roboţii pot fi folosiţi pentru a obţine anumite tipuri specifice de informaţii din paginile web, precum extragerea adreselor de email (folosite de obicei pentru spam).

Un robot este un tip de bot, sau agent software. În general, el foloseşte o listă de URL-uri pentru vizite, denumite grăunţi (seeds). În vizitele sale pe aceste URL-uri, robotul identifică toate hiperlinkurile din pagini şi le adaugă la lista de URL.uri de vizitat, denumită front de lucru (crawl frontier). URL-urile din frontul de lucru sunt revizitate periodic în funcţie de un set de politici.

Referinţe

(Traducere şi adaptare din Wikipedia sub licenţa GNU de NS)

Video: Lecture -38 Search Engine And Web Crawler – Part-I

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *