Rastrejador web

Autora: John Stephens
Data De La Creació: 1 Gener 2021
Data D’Actualització: 1 Juliol 2024
Anonim
Crear un rastreador web con Scrapy en Python
Vídeo: Crear un rastreador web con Scrapy en Python

Content

Definició: què significa Web Crawler?

Un rastrejador web és un bot d'Internet que ajuda a la indexació web. Exploren una pàgina a la vegada a través d’un lloc web fins que totes les pàgines s’han indexat. Els rastrejadors web ajuden a recopilar informació sobre un lloc web i els enllaços relacionats amb ells, i també ajuden a validar el codi HTML i els enllaços.


Un rastrejador web també es coneix com a aranya web, indexador automàtic o simplement rastrejador.

Una introducció a Microsoft Azure i al Microsoft Cloud | Durant aquesta guia, podreu conèixer què és la informàtica en núvol i com Microsoft Azure us pot ajudar a migrar i executar el vostre negoci des del núvol.

Techopedia explica Web Crawler

Els rastrejadors web recopilen informació, com ara l’URL del lloc web, la informació de metaetiquetes, el contingut de la pàgina web, els enllaços de la pàgina web i les destinacions que provenen d’aquests enllaços, el títol de la pàgina web i qualsevol altra informació rellevant. Feu un seguiment dels URL ja descarregats per evitar tornar a baixar la mateixa pàgina. Una combinació de polítiques com ara la política de revisió, la política de selecció, la política de paral·lelització i la política de cortesia determinen el comportament del rastrejador web. Hi ha molts reptes per als rastrejadors de web, és a dir, la gran i en constant evolució de World Wide Web, els compromisos de selecció de contingut, les obligacions socials i el tracte amb els adversaris.


Els rastrejadors web són els components clau dels motors de cerca i sistemes que cerquen pàgines web. Ajuden a indexar les entrades web i permeten als usuaris fer consultes amb l’índex i també proporcionen les pàgines web que coincideixen amb les consultes. Un altre ús dels rastrejadors web és en l'arxivatge web, que consisteix a recollir i arxivar periòdicament grans conjunts de pàgines web. Els rastrejadors web també s'utilitzen en la mineria de dades, en què les pàgines s'analitzen per a propietats diferents com les estadístiques i, a continuació, s'analitzen dades.