搜索引擎内部有一个URL索引库,所以搜索引擎蜘蛛从搜索引擎的服务器上沿着搜索引擎已有的URL抓取一个网页,把网页内容抢回来页面被收录后,搜索引擎会对其进行分析,将内容从链接中分离出来,暂时将内容放在一边搜索引擎在对链接进行分析后,并不会马上派蜘蛛去抓取,而是将链接和锚文本记录到URL索引数据。
传统上,我们常认为搜索引擎蜘蛛就像真正的蜘蛛在蜘蛛网上爬行,找到一个链接,顺着它爬行到一个页面,然后再顺着这个页面中的链接继续爬行,形成一个蜘蛛网或一棵大树然而,这种比喻虽然形象,却不准确实际上,搜索引擎内部有一个网址索引库蜘蛛从搜索引擎的服务器出发,顺着已知的网址爬行并抓取网页。