Un robot web (Web crawler, Web spider, Web robot, sau, în comunitatea FOAF, Web scutter) este un program sau script automat care scrutează World Wide Web metodic, automat. Alte nume mai puţin uzuale sunt ante-uri, indexori atutomat, boturi, sau viermi (ants, automatic indexers, bots, worms) (Kobayashi, M. and Takeda, K. (2000). „Information retrieval on the web„. ACM Computing Surveys (ACM Press) 32 (2): 144–173. doi: .).
Procesul este denumit Web crawling sau spidering. Multe situri, în special motoarele de căutare, folosesc spidering pentru a-şi actualiza datele. Roboţii web sunt folosiţi în principal pentru a crea copii ale tuturor paginilor vizitate pentru procesarea ulterioară de către motoarele de căutare care le indexează pentru a oferi o căutare rapidă. Roboţii pot fi de asemenea folosiţi pentru întreţinerea automată a sitului web, precum în verificarea linkurilor sau validarea codurilor HTML. De asemenea, roboţii pot fi folosiţi pentru a obţine anumite tipuri specifice de informaţii din paginile web, precum extragerea adreselor de email (folosite de obicei pentru spam).
Un robot este un tip de bot, sau agent software. În general, el foloseşte o listă de URL-uri pentru vizite, denumite grăunţi (seeds). În vizitele sale pe aceste URL-uri, robotul identifică toate hiperlinkurile din pagini şi le adaugă la lista de URL.uri de vizitat, denumită front de lucru (crawl frontier). URL-urile din frontul de lucru sunt revizitate periodic în funcţie de un set de politici.
Referinţe
- Abiteboul, S., Preda, M., and Cobena, G. (2003). „Adaptive on-line page importance computation„. In Proceedings of the twelfth international conference on World Wide Web (Budapest, Hungary: ACM Press): 280–290. doi: .
- Boldi, P., Codenotti, B., Santini, M., and Vigna, S. (2004a). UbiCrawler: a scalable fully distributed Web crawler. Software, Practice and Experience, 34(8):711–726.
- Boldi, P., Santini, M., and Vigna, S. (2004b). Do your worst to make the best: Paradoxical effects in pagerank incremental computations. In Proceedings of the third Workshop on Web Graphs (WAW), volume 3243 of Lecture Notes in Computer Science, pages 168-180, Rome, Italy. Springer.
- Burner, M. (1997). Crawling towards eternity – building an archive of the World Wide Web. Web Techniques, 2(5).
- Castillo, C. (2004). Effective Web Crawling. PhD thesis, University of Chile.
- Cho, J., Garcia-Molina, H., and Page, L. (1998). „Efficient crawling through URL ordering„. In Proceedings of the seventh conference on World Wide Web (Brisbane, Australia).
- Cho, J. and Garcia-Molina, H. (2000). Synchronizing a database to improve freshness. In Proceedings of ACM International Conference on Management of Data (SIGMOD), pages 117-128, Dallas, Texas, USA.
- Cho, J. and Garcia-Molina, H. (2002). Parallel crawlers. In Proceedings of the eleventh international conference on World Wide Web, pages 124–135, Honolulu, Hawaii, USA. ACM Press.
- Cho, J. and Garcia-Molina, H. (2003). Estimating frequency of change. ACM Transactions on Internet Technology, 3(3).
- Cothey, V. (2004). „Web-crawling reliability„. Journal of the American Society for Information Science and Technology 55 (14). doi: .
- Edward G. Coffman, Z. Liu, R. W. (1998). Optimal robot scheduling for Web search engines. Journal of Scheduling, 1(1):15–29.
- Heydon, A. and Najork, M. (1999). Mercator: A scalable, extensible Web crawler. World Wide Web, 2(4):219–229.
- Lawrence, S. and Giles, C. L. (2000). Accessibility of information on the web. Intelligence, 11(1), 32–39.
- Miller, R. and Bharat, K. (1998). Sphinx: A framework for creating personal, site-specific web crawlers. In Proceedings of the seventh conference on World Wide Web, Brisbane, Australia. Elsevier Science.
- Nelson, M. L. , Van de Sompel, H. , Liu, X., Harrison, T. L. and McFarland, N. (2005). „mod_oai: An Apache module for metadata harvesting„. In Proceedings of the 9th European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2005): 509.
- Pant, G., Srinivasan, P., Menczer, F. (2004). „Crawling the Web” (PDF). Web Dynamics: Adapting to Change in Content, Size, Topology and Use, edited by M. Levene and A. Poulovassilis: 153-178.
- da Silva, A. S., Veloso, E. A., Golgher, P. B., Ribeiro-Neto, B. A., Laender, A. H. F., and Ziviani, N. (1999). Cobweb – a crawler for the Brazilian web. In Proceedings of String Processing and Information Retrieval (SPIRE), pages 184–191, Cancun, Mexico. IEEE CS Press.
- Yibei Ling and Jie Mi, An optimal trade-off between content freshness and refresh cost, Journal of applied probability, 2004, vol. 41, no3, pp. 721-734.
(Traducere şi adaptare din Wikipedia sub licenţa GNU de NS)
Video: Lecture -38 Search Engine And Web Crawler – Part-I
Lasă un răspuns