SEO - robots.txt



robots.txt 文件包含网站上搜索引擎蜘蛛可以访问的 URL 列表。这种方法不会阻止 Google 对网站进行索引;它主要用于控制网站免受搜索过载的影响。使用 <noindex>阻止 Google 抓取网站内容或使用密码保护以将其隐藏。

标准 robots.txt 文件结构

Robots

即使 robots.txt 文件可能包含许多用户代理和指令(例如禁止、允许、抓取延迟等)行,但这两部分组合在一起被认为是整个 robots.txt 文件。

这是一个真实的“robots.txt”文件示例

Robots Website

什么是用户代理?

每个搜索引擎都使用唯一的用户代理来识别自己。在 robots.txt 文件中,您可以为每个用户代理指定特定的指令。可以使用无数的用户代理。但是,以下几个对 SEO 很有帮助:

平台和浏览器 用户代理示例
Windows 10 上的 Google Chrome Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
MS Windows 10 上的 Mozilla Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0
适用于 macOS 的 Mozilla Mozilla/5.0 (Macintosh; Intel Mac OS X 13.4; rv:109.0) Gecko/20100101 Firefox/113.0
适用于 Android 的 Mozilla Mozilla/5.0 (Android 13; Mobile; rv:109.0) Gecko/113.0 Firefox/113.0
macOS 上的 Safari Mozilla/5.0 (Macintosh; Intel Mac OS X 13_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15
Microsoft Edge Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/113.0.1774.57

注意

  • 请记住,robots.txt 对所有用户代理都非常敏感。

  • 要将指令分配给每个用户代理,请使用星号 (*) 通配符。

以下是一些最流行的用户代理机器人的示例:

创建者 机器人
Google Googlebot
微软必应 Bingbot
雅虎 Slurp
Google 图片 Googlebot-Image
百度 Baiduspider
DuckDuckGo DuckDuckBot

例如,假设您希望阻止除 Googlebot 之外的所有机器人分析您的网站。以下是如何操作:

Sample Robots

指令

您希望指定的用户的代理遵守的准则称为指令。

支持的指令

以下是 Google 目前识别及其应用的指令:

  • Disallow - 此指令用于阻止搜索引擎访问位于特定路径的文件和网页。

  • Allow - 此指令用于允许或许可搜索引擎访问位于特定路径的文件和网页。

  • Sitemaps - 要告诉搜索引擎网站地图的位置,请使用此指令。网站地图通常包含网站开发者希望搜索引擎蜘蛛扫描和索引的内容。

不支持的指令

以下列出的 Google 指令是从未正式支持且不再可用的一些指令。

  • Crawl-delay - 此指令以前用于指定抓取时间间隔。例如,假设您希望 Googlebot 在每次抓取操作之间保持 10 秒的空闲状态,那么抓取延迟将设置为 10。Bing 继续支持此请求,而 Google 已停止。

Crawl-Delay
  • Noindex - Google 从未为此指令集提供任何正式支持。

  • Nofollow - Google 从未正式支持此指令。

robots.txt 文件的最大允许大小是多少?

大约 500 千字节。

robots.txt 文件是必需的吗?

大多数网站,特别是流量较小的网站,不一定需要包含 robots.txt 文件。但是,没有不包含它的正当理由。通过对搜索引擎爬虫允许访问网站的内容拥有更大的控制权,您可以处理以下问题:

  • 保护网站的私密区域,限制对相同数据的抓取。

  • 限制对网页内部搜索结果的抓取。

  • 防止服务器拥塞和过载。

  • 阻止 Google 消耗设定的抓取资源。

  • 禁止资产文件、视频和照片出现在 Google 搜索结果页面上。

尽管 Google 通常无法索引具有 robots.txt 限制的网站,但务必记住,没有办法通过使用 robots.txt 文件来确保从搜索结果中删除。

查找 robots.txt 文件的方法

如果您已经设置了一个 robots.txt 文件,则可以在“exampledomain.com/robots.txt”处找到网站的 robots.txt 脚本。在 Web 浏览器中输入那里的 URL。当您看到类似以下内容的文本时,您就拥有了一个 robots.txt 文件:

Robots Txt

创建 robots.txt 文件:说明

  • 如果您从未创建过 robots.txt 文件,它很简单。只需启动一个空白的 .txt 文件并开始输入指令。继续添加您操作的指令,直到您涵盖了所有预期字段。将您保存的文件命名为“robots.txt”。

  • robots.txt 生成器是另一种选择。使用此类工具的好处是它减少了语法错误。这是幸运的,因为单个错误可能会对您的网站产生灾难性的 SEO 影响。缺点是灵活性方面存在一些限制。

robots.txt 文件的位置

  • 您的 robots.txt 文件引用的子域名的主要目录应包含它。例如,robots.txt 文件必须位于“tutorialspoint.com/robots.txt”处才能控制“tutorialspoint.com”的抓取行为。

  • 如果您希望将抓取限制为“ebooks.domain.com”等子域名,则必须能够在“ebooks.domain.com/robots.txt”处查看 robots.txt 文件。

robots.txt 文件指南

为每个指令另起一行

每个指令必须创建一行。如果它没有创建,搜索引擎蜘蛛将会感到困惑。

可以使用通配符使指令更易于访问

在表达指令时,通配符 (*) 可以识别 URL 序列并在所有用户代理中实现它们。

要指示 URL 的结尾,请输入“$”。

要指示 URL 的结尾,请使用美元符号“$”。如果您希望阻止 Web 爬虫查看您网站上的所有 .png 文件,则 robots.txt 文件可能类似于以下内容:

Dollar Symbol

每个用户代理只使用一次

当您重复使用单个用户代理时,Google 不会介意。但是,将合并和遵循来自不同声明的所有规则,从而降低准确性,并且在某些情况下,不会计算一个方面。考虑到配置的复杂性较低,因此只需指定每个用户代理一次是有意义的。保持井井有条和简单可以降低您犯严重错误的风险。

编写注释以告知其他人有关您的 robots.txt 文件

由于注释的存在,开发人员(甚至您以后的自己)可以更容易地理解您的 robots.txt 文件。应使用哈希 (#) 开头注释行。

详细说明以防止意外错误

设置指令而没有具体准则可能会导致被忽视的错误,这些错误可能会严重损害您的 SEO 工作。

Comments

由于 robots.txt 导致的阻止问题

这表示您的网站上存在未被 Google 索引的内容,这些内容已被 robots.txt 限制。如果数据很重要并且需要被抓取和索引,请关闭 robots.txt 爬虫限制。

结论

robots.txt 是一个简单但有效的文件。如果使用得当,它可以帮助您的 SEO。如果您不小心使用它,您以后会后悔的。

广告
© . All rights reserved.