SEO - XML 站点地图



站点地图:它是什么?

一个列出您网站的网页、视频和其他资源以及它们之间连接的文档。搜索引擎蜘蛛检查此文件以便爬取您的网站。文本、XML 和 RSS 是编写站点地图最常用的格式。最流行的格式是 XML。在本章中,我们将学习 XML。

您需要站点地图吗?

根据网站的规模和设计而定。如果您的网站有 100 个或更少的 URL,并且这些 URL 都是内部链接的,那么您通常不需要站点地图。但是,如果您管理一个拥有数千、数百万甚至数十亿个 URL 的大型网站,那么站点地图将非常有用。

<url>
   <loc>https://example.com/blog/sample-blog-article/</loc>
	<xhtml:link rel=alternate" hreflang="en" href="https://example.com/blog/sample-blog-article/"/>
	<xhtml:link rel=alternate" hreflang="de" href="https://example.com/de/blog/sample-blog-article/"/>
	<xhtml:link rel=alternate" hreflang="fr" href="https://example.com/fr/blog/sample-blog-article/"/>
	<xhtml:link rel=alternate" hreflang="es" href="https://example.com/es/blog/sample-blog-article/"/>
	<xhtml:link rel=alternate" hreflang="it" href="https://example.com/it/blog/sample-blog-article/"/>
	<xhtml:link rel=alternate" hreflang="nl" href="https://example.com/nl/blog/sample-blog-article/"/>
</url>	

关于 XML

XML 格式的站点地图是最灵活的。它易于扩展,可用于提供有关您网页、图片、视频和新闻项目的本地化版本的其他详细信息。

优点

  • 它具有适应性和可扩展性。

  • 它可以提供有关您的 URL 的最详细的信息。

  • CMS 用户可以找到用于创建站点地图的插件。

缺点

  • 高技能任务。

  • 在 URL 频繁更改的较大型门户网站或网站上保持地图更新可能具有挑战性。

XML 标签构成了站点地图协议格式。对于站点地图中包含的任何信息或值,都需要实体转义。

站点地图具有格式

  • <urlset> 用于开头,</urlset> 用于结尾。

  • <urlset> 标签的命名空间必须定义。

  • 作为父 XML 标签,为每个 URL 添加一个 <url> 条目。

  • 为每个 <url> 标签包含一个 <loc> 条目。

其余标签是可配置的。搜索引擎蜘蛛可能会也可能不会适应这些附加标签。有关每个搜索引擎兼容性的详细信息,请阅读其说明手册。此外,站点地图中的每个 URL 都应来自同一主机,例如 www.tutorialspoint.com、guides.tutorialspoint.com 等。

XML 站点地图

这表示一个示例 XML 站点地图,它显示了一个 URL 的位置:

<?xml version="1.0 encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
	   <loc>http://www.example.com/foo.html</loc>
	</url>
</urlset>	

现在,这是一个包含多个 URL 的 XML 站点地图示例:

XML Sitemap with Multiple URLs

XML 的标签规范

可用的 XML 标签如下:

XML 标签 状态 定义
<urlset> 必需 它引用当前协议标准并编码文件的內容。
<url> 必需 它指的是每个存在的 URL 的父标签。此标签的子标签是其余的标题。
<loc> 必需 网站的 URL。如果托管网站的服务器要求,则协议名称 (HTTP) 必须在此 URL 中首先出现,并在末尾带有一个斜杠。此值必须小于 2,048 位。
<lastmod> 可选 这表示网站的最近更新日期。此日期必须使用 W3C 日期时间格式。如果需要,您可以使用 YYYY-MM-DD 代替此格式中的时间组件。请记住,日期必须配置为反映链接网站的最后内容编辑时间,而不是开发人员创建站点地图的时间。
<changefreq> 可选 页面定期更新的可能性。虽然它可能无法准确地反映搜索引擎爬取网站的频率,但此值会向它们提供一个大致的概述。有效代码包括:
  • always。

  • hourly。

  • daily。

  • weekly。

  • monthly。

  • yearly。

  • never。

always - 每次访问时都会更新文档。

never - 需要为存档 URL 分配此值。

<priority> 可选 此标签表示 URL 与您网站上其他 URL 相比的重要性。0.0 到 1.0 之间是有效值。此数字告知搜索引擎您认为哪些页面对于爬取机制最重要。但是,它不会影响您的网页与其他网页上的内容相比的评估方式。默认值 - 0.5

注意

  • 所有标签值都需要实体转义,就像所有 XML 文件一样。

  • Google 会忽略 <priority> 和 <changefreq> 的值。

  • 如果 <lastmod> 值可以定期且独立地验证为准确,则 Google 将使用它。

实体转义字符

您的站点地图文件需要 UTF-8 编码。所有 XML 文件都必须对以下所示的任何字符使用实体转义值,包括 URL 和任何信息内容和值以及 URL。

字符 符号 转义代码
和号 & &
单引号 ' '
双引号 " "
大于号 > >
小于号 < <

站点地图索引文件

您提供的每个站点地图文件中的 URL 总数限制为 50,000 个,其组合大小不得超过 50MB。如果您想减少所需的带宽,可以使用 gzip 压缩站点地图文档的内容;但是,站点地图文件的未压缩大小不能超过 50MB。您需要创建多个站点地图文件才能包含超过五万个 URL。

如果您的网站拥有大量不同的站点地图,则应创建一个名为“Sitemap”的目录文件,其中列出了所有站点地图文件。站点地图索引文件的标准包括 50,000 个或更少的站点地图、最大 50MB 的文件大小以及压缩。

站点地图文件的 XML 格式及其索引文件的 XML 格式相同。站点地图索引模板需要:

  • 开头处有一个 <sitemapindex> 开启标签,结尾处有一个 </sitemapindex> 关闭标签。

  • 每个站点地图都应在其父 XML 标签中具有其条目 <sitemap>。

  • 对于每个 <sitemap> 父标签,都提供一个子条目 <loc>。

  • 同样,站点地图索引文件支持可选标签 <lastmod>。

<?xml version="1.0 encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
	   <loc>http://wwwtutorialspoint.com/sitemap01.xml.gz</loc>
		<lastmod>2023-06-18T18:21:00+00:00</lastmod>
	</sitemap>
   <sitemap>
      <loc>https://tutorialspoint.com/sitemap02.xml.gz</loc>
      <lastmod>2023-06-18</lastmod>
	</sitemap>
</sitemapindex>	

上传 XML 站点地图

使用 Search Console 将您的 XML 站点地图上传到 Google;请按照以下步骤操作:

  • 登录 Google Search Console。

  • 选择“站点地图”。

  • 将站点地图的 URL 添加到网页顶部的“添加新的站点地图”部分。

  • 按“提交”,Google 将处理您新创建的 XML 站点地图。

结论

良好的 XML 站点地图可以为 Google 指引您网站的关键页面,就像路线图一样。无论您网站的内部结构是否可以改进,XML 站点地图都可能对 SEO 有益,因为它们可以帮助 Google 高效地识别您的关键页面。

广告