找回密码
 注册加入
搜索
查看: 1160|回复: 0

谷歌在GET中适当加入POST请求抓取网页内容

[分享]
发表于 2011-12-15 15:58:20 | 显示全部楼层 |阅读模式

近日,谷歌黑板报上发布了一篇名为《GET,POST以及安全获取更多网络信息》的博文。文章对谷歌近期对抓取网页内容方式的改善进行了详细介绍。文章中提到,谷歌将在今后读取网页内容的时候不单单只采用GET抓取,而是时情况而定适当的加入POST请求方式抓取网页内容,进一步提高谷歌搜索引擎对网页内容的判断。

随着互联网的高速发展,JavaScript和AJAX日渐普,越来越多的网页需要POST请求——因为网页的全部内容或因为有些网页信息缺失以及/或者POST无法返回资源而使网页无法显示。而谷歌方面认为单一的采用GET来抓取网页所需资源将无法呈现最全面、准确的结果。

因此,谷歌改善了flash索引,在GET抓取之中引入POST请求,以此对网页内容作出更完整、准确的抓取及索引。

谷歌抓取网页内容步骤如下:

1.通过GET抓取网页内容。

2.索引网页内容,并尝试渲染页面。

3.在渲染过程中使用POST请求读取页面内容,产生一个新的POST内容页面。

4.将POST请求所得内容网页与其他数据负载添加到Googlebot的抓取队列。

5.Googlebot执行一个POST请求抓取网页。

6.谷歌将最终POST结果呈现,也有可能将GET与POST请求结果融合。

7.完成索引。

搜索引擎新闻内容来源于网络,由笔者组织文字并排版,并不完全代表本博客实际观点,仅供读者参考交流。

若有涉及作者版权等问题请及时与笔者取得联系,以便更正、删除或按规定办理。

本文链接地址:http://www.yushenblog.com/news/450.html


/ [; R% _7 n0 d$ _/ _' }$ G# f+ t
您需要登录后才可以回帖 登录 | 注册加入

本版积分规则

Archiver|手机版|小黑屋|Discuz!扩展中心 - 杭州富迪文化艺术策划有限公司 版权所有 ( 浙ICP备14042422号-1 )|网站地图QQ机器人

GMT+8, 2025-7-7 00:20 , Processed in 0.846038 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.|IP地址位置数据由 纯真CZ88 提供支持

快速回复 返回顶部 返回列表