蜘蛛抓取静态页面与触发gzip压缩的实验结果

时间:2011-09-13 18:48:52 

利用google管理员工具模拟googlebot抓取某静态页面,得到的HTTP头信息中没有Content-Encoding:gzip的标志,查看了content-length也是未压缩前的大小,所以很疑惑,是否蜘蛛的抓取不会触发gzip压缩,这是问题一。

问题一自己解决了,googlebot在向服务期发送http请求的过程中,Accept-Encoding项不出意外应该为空,我做了如下的实验,首先利用googlebot抓取该静态页面,确定得到的HTTP头信息中不存在Content-Encoding:gzip该项,并核对了content-length的大小。然后,使用浏览器访问触发服务器端对静态页面进行gzip压缩,用firebug确定返回了Content-Encoding:gzip以及content-length后,再次利用模拟googlebot抓取该页面,得到的头文件中终于出现了gzip的身影并且对比第一次抓取返回的content-length可以明确该页面被gzip大幅压缩过。

好吧,那我自问自答了。

得出的结论就是googlebot(应该也能适用到其他蜘蛛上)在抓取页面发送头信息的时候并不会触发gzip压缩,但是它的确读得懂被gzip压缩后的html文件,也就是如果你的网站本身有较高并且较深的访问流量,那么这个反而会大大的提高蜘蛛的抓取效率,所以这个有可能会成为SE判断一个网站流量乃至质量的一个因素

但接着我又有了问题二,那就是,gzip对静态页面的压缩版本在服务器上保存时间能有多久呢?

于是我拿了自己的一个美国站点以及一个国内站点进行了对比,发现同样都支持静态页面gzip压缩的两个站点反应却完全不同,国内的虚拟主机抽样查询了一些静态页面,发现全部为gzip压缩后的版本,也就是说,除非原页面发生了变动,那么国内该主机gzip压缩后的版本不出意外会永久性的保留在服务器端,但是美国的主机让我着实觉得被坑爹了一回,抽样的静态页面,初次访问全部没有gzip压缩版本,第二次重新访问才返回gzip压缩结果,打开速度提升,但是此后该压缩版本在一分钟左右会被删除,于是页面的打开速度又回到了原来的水平,我勒个去,这和没有开启gzip有什么区别啊。晚些回去检查下服务器设置,看是服务商坑爹还是自己美设置好。

关于问题二,找到了一张图片,应该能解释为什么美国主机上的gzip静态文件只会存在一会,不出意外应该和对方对临时目录大小的设置有关。

本文地址:http://www.gnbase.com/thread-3805-1.html

标签:gzip,蜘蛛,静态,压缩
0
投稿

猜你喜欢

  • 10个关于选择完美cms系统的简易指导

    2010-03-09 13:25:00
  • 熬夜的电脑族吃什么食物对眼睛好

    2007-10-13 09:41:00
  • Win 2000的超酷技巧

    2007-08-23 14:14:00
  • linux上安装Docker(非常简单的安装方法)

    2022-10-31 00:41:09
  • 遭“钓鱼”网骗光生活费 大学生发帖人肉骗子

    2009-10-13 13:46:00
  • 如何在主流博客中展示你的个性头像

    2011-10-12 20:59:00
  • PHPWind v7.3.2综合积分计算错误

    2009-05-31 17:45:00
  • Web服务器负载均衡方案

    2008-12-22 17:22:00
  • Exchange Server 灾难恢复的黄金三招

    2010-02-23 19:07:00
  • Web网站的性能测试工具

    2008-04-01 09:25:00
  • Linux VPS备份教程 手动备份网站数据

    2023-11-05 04:37:42
  • 做点击站必看的相关外语

    2008-07-24 12:26:00
  • SEO黑帽变黑客 从令人讨厌到互联网犯罪

    2009-03-02 11:13:00
  • SEOmoz:网站宕机是最影响搜索引擎排名

    2009-09-15 14:42:00
  • Linux中文本处理工具之sort命令详解

    2023-08-28 15:19:58
  • 优化百度比优化谷歌轻松得多 效果也好很多

    2009-02-05 12:42:00
  • GoDaddy主机的安全信息 Godaddy

    2010-05-07 12:36:00
  • google采取的大动作

    2008-05-26 11:57:00
  • 耕耘自己一亩三分田 个人站长勿入SEO误区

    2008-12-05 08:19:00
  • 苹果2010年将新开50家专卖店 上海增两家

    2009-11-13 09:41:00
  • asp之家 网站运营 m.aspxhome.com