Robots.txt 简介与指南


您是否厌倦了绞尽脑汁地找出网站的哪些部分可以被搜索引擎和其他机器人访问?在配置 robots.txt 文件中的设置时,您是否感到迷茫?不用担心 - 这篇博文将引导您了解 robots.txt 文件是什么、它为什么对 SEO 至关重要以及如何确保正确设置!无论您是 SEO 新手还是只是想复习一下机器人排除标准,本指南都将提供您需要的一切。所以系好安全带,让我们开始吧!

什么是 robots.txt?

机器人排除协议,通常称为“robots.txt”,是一种与搜索引擎机器人和爬虫进行通信的方式。其主要目的是为这些机器人提供有关应索引或爬取网站上哪些页面的说明。您可以通过将其命名为“robots.txt”来快速找到此文件,该文件位于为此类目的而指定的根目录中。虽然其主要用途围绕着让您更多地控制网站内某些方面的爬取方式,但请记住,使用它不会提供增强的安全措施,也不会隐藏任何敏感信息不被在线公开;相反,它仅用于防止被认为不相关的低质量内容通过将其包含在所述引擎执行的索引过程中而损害现有的排名。

在爬取网站时,搜索引擎机器人将寻找可能位于其根目录中的 robots.txt 文件。如果找到该文档,机器人将读取它以识别哪些网页允许扫描,哪些网页应避免。此文档中提供的指令指定机器人应该爬取或避免爬取哪些页面;这些说明严格遵守其语法格式,并且还必须考虑大小写敏感性。

为什么 robots.txt 很重要?

robots.txt 文件至关重要,原因如下。首先,它使网站所有者能够更好地控制搜索引擎机器人如何爬取其网站。通过使用该文件,网站所有者可以阻止机器人爬取不相关或低质量的页面,这可能会对他们的搜索引擎排名产生负面影响。

其次,robots.txt 文件可以通过减少服务器负载来帮助提高网站性能。搜索引擎机器人可能会向网站发送大量请求,这可能会给服务器带来压力。通过使用 robots.txt 文件来限制机器人爬取的页面数量,网站所有者可以减少服务器负载并提高网站性能。

第三,robots.txt 文件可以帮助网站所有者保护敏感信息。虽然该文件本身不是安全功能,但它可以阻止机器人爬取包含敏感信息的页面,例如登录页面或个人数据。但是,必须注意的是,robots.txt 文件不能替代其他安全措施,例如密码保护或 IP 阻止。

robots.txt 的语法

robots.txt 文件的语法很简单,并遵循特定的格式。文件中的每一行都包含一个指令后跟一个值。指令区分大小写,必须用小写字母编写。一些常用的指令包括:

  • User-agent - 此指令指定以下指令适用的搜索引擎机器人的名称。如果要将指令应用于所有机器人,请使用星号 (*)。

  • Disallow - 此指令告诉机器人不要爬取网站上的特定页面或目录。指令后的值为页面或目录的 URL 路径。例如,“Disallow: /admin”将阻止机器人爬取 /admin 目录中的任何页面。

  • Allow - 此指令告诉机器人爬取网站上的特定页面或目录。它用于覆盖任何先前的 Disallow 指令。指令后的值为页面或目录的 URL 路径。

  • Crawl-delay - 此指令指定机器人请求网站上的另一个页面之前应等待的秒数。这对于防止机器人向服务器发送过多请求而导致服务器过载很有用。

下面是一个名为 robots.txt 的文档示例,该文档用于指示搜索引擎如何与某人的网站交互。

User-agent: * Disallow: /admin/ Disallow: /cart/ Allow: /blog/ Crawl-delay: 10

在这种情况下,User-agent 指令后带有星号,这意味着所有搜索引擎机器人均受以下指令约束。Disallow 指令阻止机器人爬取 /admin/ 和 /cart/ 目录中的任何页面。Allow 指令允许机器人爬取 /blog/ 目录中的任何页面。Crawl-delay 指令告诉机器人每次请求之间等待十秒钟。

创建 robots.txt 文件

创建 robots.txt 文件是一个简单的过程。打开文本编辑器并创建一个名为“robots.txt”的新文件。将必要的指令和值添加到文件中,保存它,然后将其上传到网站的根目录。需要注意的是,如果 robots.txt 文件使用不当,也可能产生意想不到的后果。例如,如果网站所有者意外阻止了应爬取和索引的页面,则可能会对网站的搜索引擎排名产生负面影响。此外,某些搜索引擎机器人可能不遵循 robots.txt 文件中的指令,这意味着该文件不能保证页面不会被索引。

因此,拥有网站的个人必须谨慎使用 robots.txt 文档,并在公开发布之前验证其准确性。应考虑 robots.txt 文件不能替代其他 SEO 方法,包括增强页面标题和描述或生成高质量的反向链接以及有价值的内容。

了解局限性

在创建或编辑 robots.txt 文件之前,应了解此 URL 阻止技术的限制。根据您的目标和情况,您可能需要考虑其他方法来确保您的 URL 无法在线找到。

  • 特定搜索引擎可能不支持 robots.txt 限制

爬虫是否遵循 robots.txt 文件中的指令取决于爬虫本身;它们无法强迫爬虫在您的网站上执行行为。虽然像 Googlebot 和其他一些信誉良好的网络爬虫会遵守 robots.txt 文件中的指令,但其他爬虫可能不会。因此,如果希望保护敏感材料免受数字爬虫和蜘蛛的侵害,建议使用其他阻塞方法。

  • 不同的爬虫理解语法的程度各不相同

信誉良好的网络爬虫会遵守 robots.txt 文件中的指令,尽管不同的爬虫可能会有不同的解释。为了避免混淆不同的网络爬虫,在向它们发出指令时,您应该了解正确的语法。

  • 即使被 robots.txt 阻止,页面仍可能被索引,前提是链接到其他网站

即使 robots.txt 文件阻止了黑名单 URL,Google 仍可能找到并对其进行索引,因为它可能链接到其他网站。因此,URL 地址以及可能的其他公开可访问数据(例如指向网站的链接中的锚文本)可能会继续显示在 Google 搜索结果中。使用 noindex 元标记或响应标头、对服务器上的文件进行密码保护或完全删除页面以防止您的 URL 出现在 Google 搜索结果中。

更新于:2023年4月3日

192 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.