Baidu
技术交流 您现在的位置: 主页 > 新闻中心 > 技术交流 >

如何吸引蜘蛛抓取网站

发布者:春风软件 发布时间:2016-04-12 08:50

理论上说蜘蛛能够爬行和抓取所有的页面,但实际上不能、也不会这么做。衡水冀州春风软件告诉您如何让自己更多的页面被收录,怎样设法吸引蜘蛛来抓取。

网站和页面权重:

质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以会有更多内页被收录。

页面更新:

蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,多次抓取后蜘蛛会对页面更新频率有所了解,补偿更新的页面,蜘蛛也就没有必要经常抓取。如果页面内容经常更新,蜘蛛就会更加频繁地访问这种页面,页面上出现的新连接,也自然会被蜘蛛更快地跟踪,抓取新页面。

导入连接:

无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入连接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。

与首页点击距离:

一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也越大。

URL结构:

页面权重是在收录并进行迭代计算后才知道的,那么前面说的页面权重高有利于被抓取,搜索引擎蜘蛛在抓取前怎么知道这个页面的权重呢?所以蜘蛛要进行预判,除了链接、与首页距离、历史数据等因素外,段的、层次浅的url也可能被直观认为在网站上的权重相对较高。