找回密码
 注册加入

扫一扫,极速登录

QQ登录

只需一步,快速开始

搜索
查看: 28|回复: 0

主流蜘蛛分析——Bytespider

[复制链接]
发表于 2024-4-9 14:57:25 | 显示全部楼层 |阅读模式
Bytespider 这个爬虫是字节跳动旗下头条搜索的爬虫,其爬虫 UA 为:
  1. #PC端
  2. Mozilla/5.0 (compatible; Bytespider; https://zhanzhang toutiao com/)
  3. AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36

  4. #Android端
  5. Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko)
  6. Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang toutiao com/)
  7. #
  8. iOS端
  9. Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko)
  10. Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang toutiao com/)
复制代码


如果不想头条搜索爬取自己的网站,可采用以下两种方法屏蔽头条搜索的爬虫:

  1. #IP屏蔽
  2. 头条搜索的ip字段总共涉及10个ip,具体字段如下:
  3. 110.249.201.0/24
  4. 110.249.202.0/24
  5. 111.225.148.0/24
  6. 111.225.149.0/24
  7. 220.243.135.0/24
  8. 220.243.136.0/24
  9. 220.243.188.0/24
  10. 220.243.189.0/24
  11. 60.8.123.0/24
  12. 60.8.151.0/24

  13. # robots.txt 屏蔽

  14. Bytespider 遵守robots规则,可采用以下方法屏蔽:
  15. User-agent: Bytespider
  16. Disallow: /
复制代码


头条搜索的站点配图一般是使用 og:image 标签(Open Graph Protocol Meta)来识别的,因此想要网页旁边出现漂亮合理的配图可在网页 <head></head> 中添加 Open Graph Protocol Meta 标签。
0bc91fd21aae7cb4316f6895f0916d40.jpg

您需要登录后才可以回帖 登录 | 注册加入  

本版积分规则

Archiver|手机版|小黑屋|Discuz!扩展中心 ( 浙ICP备14042422号-1 )|网站地图QQ机器人

GMT+8, 2024-5-2 02:11 , Processed in 0.169107 second(s), 15 queries , Gzip On, Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表