主流蜘蛛分析——YandexBot

湖中沉 发表于 2024-4-9 15:31:09

俄罗斯搜索巨头Yandex的蜘蛛，Yandex是俄罗斯重要网络服务门户之一。据Gallup传媒，ФОМ 和 Комкон调查公司资料，Yandex是俄罗斯网络拥有用户最多的网站。2006年初每天访问Yandex的人数（包括外国访问者）达到四百万。Yandex所提供的服务包括搜索、最新新闻、地图和百科、电子信箱、电子商务、互联网广告及其他服务。Yandex在俄罗斯本地搜索引擎的市场份额已远超俄罗斯Google。

Yandex 机器人可以正确处理 robots.txt，但是需要满足以下要求：

文件大小不超过 500KB。
它是一个名为 "robots "的TXT文件， robots.txt。
该文件位于网站的根目录中。
该文件可供机器人使用：托管网站的服务器以 HTTP 代码回应，状态为 200 OK。检查服务器的响应
如果文件不符合要求，该网站被认为是开放索引的，也就是 Yandex 搜索引擎可以任意访问网页内容。
Yandex 支持从位于一个网站的 robots.txt 文件重定向到位于另一个网站的文件。在这种情况下，目标文件中的指令被考虑在内。这种重定向在移动网站时可能很有用。

在 robots.txt 文件中，机器人会检查以 User-agent: 开头的记录，并寻找字符 Yandex（大小写不重要）或 *。如果 User-agent: Yandex 字符串被检测到，User-agent: * 字符串会被忽略。如果 User-agent: Yandex和 User-agent: * 字符串未被发现，机器人将被视为具有无限的访问权限。

你可以为 Yandex 机器人输入单独的指令。

例如下面的一些示例：
User-agent: YandexBot # 用于索引爬虫的写法
Disallow: /*id=

User-agent: Yandex # 将会对所有 YandexBot 起效
Disallow: /*sid= # 除了主要的索引机器人

User-agent: * # 对 YandexBot 不会起作用
Disallow: /cgi-bin

根据标准，你应该在每个 User-agent 指令前插入一个空行。＃字符指定了注释。在这个字符之后的所有内容，直到第一个换行，都将被忽略。

页: [1]

Discuz!扩展中心 - 杭州富迪文化艺术策划有限公司's Archiver

主流蜘蛛分析——YandexBot