SEO - robots.txt

robots.txt 文件包含网站上搜索引擎蜘蛛可以访问的 URL 列表。这种方法不会阻止 Google 对网站进行索引；它主要用于控制网站免受搜索过载的影响。使用 <noindex>阻止 Google 抓取网站内容或使用密码保护以将其隐藏。

标准 robots.txt 文件结构

即使 robots.txt 文件可能包含许多用户代理和指令（例如禁止、允许、抓取延迟等）行，但这两部分组合在一起被认为是整个 robots.txt 文件。

这是一个真实的“robots.txt”文件示例

什么是用户代理？

每个搜索引擎都使用唯一的用户代理来识别自己。在 robots.txt 文件中，您可以为每个用户代理指定特定的指令。可以使用无数的用户代理。但是，以下几个对 SEO 很有帮助：

平台和浏览器	用户代理示例
Windows 10 上的 Google Chrome	Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36
MS Windows 10 上的 Mozilla	Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0
适用于 macOS 的 Mozilla	Mozilla/5.0 (Macintosh; Intel Mac OS X 13.4; rv:109.0) Gecko/20100101 Firefox/113.0
适用于 Android 的 Mozilla	Mozilla/5.0 (Android 13; Mobile; rv:109.0) Gecko/113.0 Firefox/113.0
macOS 上的 Safari	Mozilla/5.0 (Macintosh; Intel Mac OS X 13_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15
Microsoft Edge	Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/113.0.1774.57

注意

请记住，robots.txt 对所有用户代理都非常敏感。
要将指令分配给每个用户代理，请使用星号 (*) 通配符。

以下是一些最流行的用户代理机器人的示例：

创建者	机器人
Google	Googlebot
微软必应	Bingbot
雅虎	Slurp
Google 图片	Googlebot-Image
百度	Baiduspider
DuckDuckGo	DuckDuckBot

例如，假设您希望阻止除 Googlebot 之外的所有机器人分析您的网站。以下是如何操作：

指令

您希望指定的用户的代理遵守的准则称为指令。

支持的指令

以下是 Google 目前识别及其应用的指令：

Disallow - 此指令用于阻止搜索引擎访问位于特定路径的文件和网页。
Allow - 此指令用于允许或许可搜索引擎访问位于特定路径的文件和网页。
Sitemaps - 要告诉搜索引擎网站地图的位置，请使用此指令。网站地图通常包含网站开发者希望搜索引擎蜘蛛扫描和索引的内容。

不支持的指令

以下列出的 Google 指令是从未正式支持且不再可用的一些指令。

Crawl-delay - 此指令以前用于指定抓取时间间隔。例如，假设您希望 Googlebot 在每次抓取操作之间保持 10 秒的空闲状态，那么抓取延迟将设置为 10。Bing 继续支持此请求，而 Google 已停止。

Noindex - Google 从未为此指令集提供任何正式支持。
Nofollow - Google 从未正式支持此指令。

robots.txt 文件的最大允许大小是多少？

大约 500 千字节。

robots.txt 文件是必需的吗？

大多数网站，特别是流量较小的网站，不一定需要包含 robots.txt 文件。但是，没有不包含它的正当理由。通过对搜索引擎爬虫允许访问网站的内容拥有更大的控制权，您可以处理以下问题：

保护网站的私密区域，限制对相同数据的抓取。
限制对网页内部搜索结果的抓取。
防止服务器拥塞和过载。
阻止 Google 消耗设定的抓取资源。
禁止资产文件、视频和照片出现在 Google 搜索结果页面上。

尽管 Google 通常无法索引具有 robots.txt 限制的网站，但务必记住，没有办法通过使用 robots.txt 文件来确保从搜索结果中删除。

查找 robots.txt 文件的方法

如果您已经设置了一个 robots.txt 文件，则可以在“exampledomain.com/robots.txt”处找到网站的 robots.txt 脚本。在 Web 浏览器中输入那里的 URL。当您看到类似以下内容的文本时，您就拥有了一个 robots.txt 文件：

创建 robots.txt 文件：说明

如果您从未创建过 robots.txt 文件，它很简单。只需启动一个空白的 .txt 文件并开始输入指令。继续添加您操作的指令，直到您涵盖了所有预期字段。将您保存的文件命名为“robots.txt”。
robots.txt 生成器是另一种选择。使用此类工具的好处是它减少了语法错误。这是幸运的，因为单个错误可能会对您的网站产生灾难性的 SEO 影响。缺点是灵活性方面存在一些限制。

robots.txt 文件的位置

您的 robots.txt 文件引用的子域名的主要目录应包含它。例如，robots.txt 文件必须位于“tutorialspoint.com/robots.txt”处才能控制“tutorialspoint.com”的抓取行为。
如果您希望将抓取限制为“ebooks.domain.com”等子域名，则必须能够在“ebooks.domain.com/robots.txt”处查看 robots.txt 文件。

robots.txt 文件指南

为每个指令另起一行

每个指令必须创建一行。如果它没有创建，搜索引擎蜘蛛将会感到困惑。

可以使用通配符使指令更易于访问

在表达指令时，通配符 (*) 可以识别 URL 序列并在所有用户代理中实现它们。

要指示 URL 的结尾，请输入“$”。

要指示 URL 的结尾，请使用美元符号“$”。如果您希望阻止 Web 爬虫查看您网站上的所有 .png 文件，则 robots.txt 文件可能类似于以下内容：

每个用户代理只使用一次

当您重复使用单个用户代理时，Google 不会介意。但是，将合并和遵循来自不同声明的所有规则，从而降低准确性，并且在某些情况下，不会计算一个方面。考虑到配置的复杂性较低，因此只需指定每个用户代理一次是有意义的。保持井井有条和简单可以降低您犯严重错误的风险。

编写注释以告知其他人有关您的 robots.txt 文件

由于注释的存在，开发人员（甚至您以后的自己）可以更容易地理解您的 robots.txt 文件。应使用哈希 (#) 开头注释行。

详细说明以防止意外错误

设置指令而没有具体准则可能会导致被忽视的错误，这些错误可能会严重损害您的 SEO 工作。

由于 robots.txt 导致的阻止问题

这表示您的网站上存在未被 Google 索引的内容，这些内容已被 robots.txt 限制。如果数据很重要并且需要被抓取和索引，请关闭 robots.txt 爬虫限制。

结论

robots.txt 是一个简单但有效的文件。如果使用得当，它可以帮助您的 SEO。如果您不小心使用它，您以后会后悔的。

打印页面