- SEO 教程
- SEO - 首页
- SEO - 什么是 SEO?
- SEO - 策略与方法
- SEO - 页面内优化技巧
- SEO - 页面外优化技巧
- SEO - 网站域名
- SEO - 相关文件名
- SEO - 设计与布局
- SEO - 优化关键词
- SEO - 长尾关键词
- SEO - 标题标签
- SEO - 元描述
- SEO - 优化元标签
- SEO - 为 Google 优化
- SEO - robots.txt
- SEO - URL 结构
- SEO - 标题
- SEO - 重定向
- SEO - 权威性和信任度
- SEO - PDF 文件
- SEO - 优化锚文本
- SEO - 优化图片
- SEO - 重复内容
- SEO - Meta Robots 标签
- SEO - Nofollow 链接
- SEO - XML 网站地图
- SEO - 规范化 URL
- SEO - UI/UX 的作用
- SEO - 关键词差距分析
- SEO - 获取高质量反向链接
- SEO - 添加 Schema 标记
- SEO - 作者权威性
- SEO - 修复断链
- SEO - 内部页面链接
- SEO - 清理不良链接
- SEO - 获取权威反向链接
- SEO - 核心网页指标
- SEO - 更新旧内容
- SEO - 填补内容空白
- SEO - 链接建设
- SEO - 特色代码段
- SEO - 从 Google 中删除 URL
- SEO - 内容为王
- SEO - 验证网站
- SEO - 多媒体类型
- SEO - Google 段落排名
- SEO - 最大化社交分享
- SEO - 首次链接优先规则
- SEO - 优化页面加载时间
- SEO - 聘请专家
- SEO - 学习 EAT 原则
- SEO - 移动端 SEO 技巧
- SEO - 避免负面策略
- SEO - 其他技巧
- SEO - 持续站点审计
- SEO - 总结
- SEO 有用资源
- SEO - 快速指南
- SEO - 有用资源
- SEO - 讨论
SEO - robots.txt
robots.txt 文件包含网站上搜索引擎蜘蛛可以访问的 URL 列表。这种方法不会阻止 Google 对网站进行索引;它主要用于控制网站免受搜索过载的影响。使用 <noindex>阻止 Google 抓取网站内容或使用密码保护以将其隐藏。
标准 robots.txt 文件结构
即使 robots.txt 文件可能包含许多用户代理和指令(例如禁止、允许、抓取延迟等)行,但这两部分组合在一起被认为是整个 robots.txt 文件。
这是一个真实的“robots.txt”文件示例
什么是用户代理?
每个搜索引擎都使用唯一的用户代理来识别自己。在 robots.txt 文件中,您可以为每个用户代理指定特定的指令。可以使用无数的用户代理。但是,以下几个对 SEO 很有帮助:
| 平台和浏览器 | 用户代理示例 |
|---|---|
| Windows 10 上的 Google Chrome | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 |
| MS Windows 10 上的 Mozilla | Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0 |
| 适用于 macOS 的 Mozilla | Mozilla/5.0 (Macintosh; Intel Mac OS X 13.4; rv:109.0) Gecko/20100101 Firefox/113.0 |
| 适用于 Android 的 Mozilla | Mozilla/5.0 (Android 13; Mobile; rv:109.0) Gecko/113.0 Firefox/113.0 |
| macOS 上的 Safari | Mozilla/5.0 (Macintosh; Intel Mac OS X 13_4) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.5 Safari/605.1.15 |
| Microsoft Edge | Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/113.0.1774.57 |
注意
请记住,robots.txt 对所有用户代理都非常敏感。
要将指令分配给每个用户代理,请使用星号 (*) 通配符。
以下是一些最流行的用户代理机器人的示例:
| 创建者 | 机器人 |
|---|---|
| Googlebot | |
| 微软必应 | Bingbot |
| 雅虎 | Slurp |
| Google 图片 | Googlebot-Image |
| 百度 | Baiduspider |
| DuckDuckGo | DuckDuckBot |
例如,假设您希望阻止除 Googlebot 之外的所有机器人分析您的网站。以下是如何操作:
指令
您希望指定的用户的代理遵守的准则称为指令。
支持的指令
以下是 Google 目前识别及其应用的指令:
Disallow - 此指令用于阻止搜索引擎访问位于特定路径的文件和网页。
Allow - 此指令用于允许或许可搜索引擎访问位于特定路径的文件和网页。
Sitemaps - 要告诉搜索引擎网站地图的位置,请使用此指令。网站地图通常包含网站开发者希望搜索引擎蜘蛛扫描和索引的内容。
不支持的指令
以下列出的 Google 指令是从未正式支持且不再可用的一些指令。
Crawl-delay - 此指令以前用于指定抓取时间间隔。例如,假设您希望 Googlebot 在每次抓取操作之间保持 10 秒的空闲状态,那么抓取延迟将设置为 10。Bing 继续支持此请求,而 Google 已停止。
Noindex - Google 从未为此指令集提供任何正式支持。
Nofollow - Google 从未正式支持此指令。
robots.txt 文件的最大允许大小是多少?
大约 500 千字节。
robots.txt 文件是必需的吗?
大多数网站,特别是流量较小的网站,不一定需要包含 robots.txt 文件。但是,没有不包含它的正当理由。通过对搜索引擎爬虫允许访问网站的内容拥有更大的控制权,您可以处理以下问题:
保护网站的私密区域,限制对相同数据的抓取。
限制对网页内部搜索结果的抓取。
防止服务器拥塞和过载。
阻止 Google 消耗设定的抓取资源。
禁止资产文件、视频和照片出现在 Google 搜索结果页面上。
尽管 Google 通常无法索引具有 robots.txt 限制的网站,但务必记住,没有办法通过使用 robots.txt 文件来确保从搜索结果中删除。
查找 robots.txt 文件的方法
如果您已经设置了一个 robots.txt 文件,则可以在“exampledomain.com/robots.txt”处找到网站的 robots.txt 脚本。在 Web 浏览器中输入那里的 URL。当您看到类似以下内容的文本时,您就拥有了一个 robots.txt 文件:
创建 robots.txt 文件:说明
如果您从未创建过 robots.txt 文件,它很简单。只需启动一个空白的 .txt 文件并开始输入指令。继续添加您操作的指令,直到您涵盖了所有预期字段。将您保存的文件命名为“robots.txt”。
robots.txt 生成器是另一种选择。使用此类工具的好处是它减少了语法错误。这是幸运的,因为单个错误可能会对您的网站产生灾难性的 SEO 影响。缺点是灵活性方面存在一些限制。
robots.txt 文件的位置
您的 robots.txt 文件引用的子域名的主要目录应包含它。例如,robots.txt 文件必须位于“tutorialspoint.com/robots.txt”处才能控制“tutorialspoint.com”的抓取行为。
如果您希望将抓取限制为“ebooks.domain.com”等子域名,则必须能够在“ebooks.domain.com/robots.txt”处查看 robots.txt 文件。
robots.txt 文件指南
为每个指令另起一行
每个指令必须创建一行。如果它没有创建,搜索引擎蜘蛛将会感到困惑。
可以使用通配符使指令更易于访问
在表达指令时,通配符 (*) 可以识别 URL 序列并在所有用户代理中实现它们。
要指示 URL 的结尾,请输入“$”。
要指示 URL 的结尾,请使用美元符号“$”。如果您希望阻止 Web 爬虫查看您网站上的所有 .png 文件,则 robots.txt 文件可能类似于以下内容:
每个用户代理只使用一次
当您重复使用单个用户代理时,Google 不会介意。但是,将合并和遵循来自不同声明的所有规则,从而降低准确性,并且在某些情况下,不会计算一个方面。考虑到配置的复杂性较低,因此只需指定每个用户代理一次是有意义的。保持井井有条和简单可以降低您犯严重错误的风险。
编写注释以告知其他人有关您的 robots.txt 文件
由于注释的存在,开发人员(甚至您以后的自己)可以更容易地理解您的 robots.txt 文件。应使用哈希 (#) 开头注释行。
详细说明以防止意外错误
设置指令而没有具体准则可能会导致被忽视的错误,这些错误可能会严重损害您的 SEO 工作。
由于 robots.txt 导致的阻止问题
这表示您的网站上存在未被 Google 索引的内容,这些内容已被 robots.txt 限制。如果数据很重要并且需要被抓取和索引,请关闭 robots.txt 爬虫限制。
结论
robots.txt 是一个简单但有效的文件。如果使用得当,它可以帮助您的 SEO。如果您不小心使用它,您以后会后悔的。