Amazon Q 商业版 - 文档属性



本章将介绍文档属性是什么,它们在 Amazon Q 商业版中的工作方式,以及它们如何帮助您改进聊天解决方案。本章还列出了 Amazon Q 商业版支持的文档类型。

文档属性

每个文档都附加有关于自身的信息,例如标题、作者、创建日期、上次更新时间和文档类型。

Amazon Q 商业版索引允许您将文档属性连接到字段。这些字段帮助管理员改进来自特定来源的搜索结果。最终用户还可以使用这些字段过滤和缩小搜索结果。

在聊天中使用文档属性进行过滤仅支持通过 API 进行。使用文档属性提升搜索结果在控制台和 API 上都受支持。

文档属性类型

Amazon Q 商业版支持两种类型的文档属性。

保留的文档属性

Amazon Q 商业版具有**保留的或默认的文档属性**,用于创建常用文档属性的映射,以帮助您高效地索引文档。

Amazon Q 商业版提供以下保留的文档属性或索引字段,您可以将元数据映射到这些字段:

  • _authors: 负责文档内容的一位或多位作者的列表。
  • _category: 将文档放在特定组中的类别。
  • _created_at: 文档创建的日期和时间(ISO 8601 格式)。例如,2012-03-25T12:30:10+01:00 是 2012 年 3 月 25 日下午 12:30(加 10 秒)中欧时间的 ISO 8601 日期时间格式。
  • _data_source_id: 包含文档的数据源的标识符。
  • _document_body: 文档的内容。
  • _document_id: 文档的唯一标识符。
  • _document_title: 文档的标题。
  • _file_type: 文档的文件类型,例如 .pdf 或 .docx。
  • _last_updated_at: 文档上次更新的日期和时间(ISO 8601 格式)。例如,2012-03-25T12:30:10+01:00 是 2012 年 3 月 25 日下午 12:30(加 10 秒)中欧时间的 ISO 8601 日期时间格式。
  • _source_uri: 文档可用的 URI。例如,公司网站上文档的 URI。
  • _version: 文档特定版本的标识符。
  • _view_count: 文档已被查看的次数。
  • _language_code (字符串): 应用于文档的语言代码。如果您未指定语言,则默认为英语。

自定义文档属性

自定义属性用于将文档中的唯一信息链接到索引字段。

您可以根据自己的数据创建自定义属性,并将它们映射到自定义索引字段,从而为最终用户创建更量身定制的聊天体验。

例如,您可以创建一个名为“部门”的自定义字段或属性,其值为“人力资源”、“销售”和“制造”。然后,您可以使用这些字段或属性允许您的最终用户将聊天结果过滤到“人力资源”部门的文档,或将响应生成限制到特定的数据存储。

创建后,您无法删除或重命名任何属性。

已映射的文档属性

当您将文档属性映射到索引字段时,您可以决定该字段在聊天期间如何使用。目前,您可以将索引字段配置为执行以下操作:

  • 搜索: 允许最终用户搜索具有指定属性的数据。

文档属性数据类型

文档属性(保留的或自定义的)只能是下表中显示的数据类型。此外,文档属性可用于执行概述的操作。

数据类型 可搜索的 可过滤的 可提升的
日期
数字
字符串
字符串列表
创建索引字段后,您无法更改其类型。

将文档属性映射到索引字段

将文档属性直接映射到索引字段。在使用 API 进行聊天过滤之前,请将您的文档属性映射到索引字段。

  • 您可以通过调用 CreateIndex API 操作来创建索引。
  • 然后,使用**UpdateIndex**操作创建索引字段。在这里,您可以将文档详细信息链接到索引字段。
  • 使用**BatchPutDocument**将文档添加到索引中。Amazon Q 商业版会将文档详细信息与索引字段匹配。

使用 API 将文档属性映射到索引字段后。然后,选择要用于过滤聊天响应的属性。使用**UpdateIndex** API 添加自定义字段。

以下 JSON 示例使用 documentAttributeConfigurations 将名为“部门”的字段添加到索引。

"DocumentmetadataConfigurationUpdates": [
   {
       "Name": "Department",
       "Type": "STRING_VALUE"
   }
]

将数据源映射到索引字段

将数据源文档属性映射到索引字段。如果您使用 Amazon Q 商业版数据源连接器,您可以将默认文档属性映射到索引字段。这些属性有助于用户过滤和缩小聊天响应。

在聊天中使用数据源文档属性进行过滤仅支持通过 API 进行。

数据源连接器会自动查找默认文档属性。您可以将这些属性映射到索引字段。例如,将“dept”字段映射到“Department”索引字段。注意:一旦默认属性被映射,您就无法更改它们。

您还可以映射任何 Amazon Q 商业版保留字段,例如**_created_at**。如果您的数据源具有名为**creation_date**的字段,您可以将此字段映射到名为 _created_at 的等效 Amazon Q 保留字段。

您可以添加自定义文档属性并将它们映射到自定义索引字段。大多数数据源允许字段映射,但 Amazon S3 和数据库数据源除外。这两个具有特殊的映射配置。以下是 Amazon S3 和数据库数据源配置映射的方式:

  • 如果您将文档存储在 Amazon S3 中,您可以通过两种方式映射字段。您可以使用控制台指定字段映射,也可以使用 JSON 元数据文件。要向文档添加元数据,请创建一个包含元数据 JSON 文件的目录结构以及您的文档。然后,在 Attributes JSON 结构中,您可以添加多达 50 个自定义字段或属性。
  • 以下示例使用 Attributes 定义三个自定义字段或属性和一个保留字段。

    "Attributes": {
        "brand": "Amazon Basics",
        "price": 1595,
        "_category": "sports",
        "subcategories": ["outdoors", "electronics"]
    }
    
  • 如果数据库列的名称与保留字段相同,则它们会自动连接。

在设置连接器时,您可以通过两种方式映射字段。在控制台中,您可以选择默认字段映射或创建自定义字段映射,但请注意,某些默认字段无法编辑,并且将显示为灰色。或者,您可以使用 API 映射字段,在其中使用 CreateDataSource 操作映射默认属性,并使用 UpdateIndex 操作创建和映射自定义字段。

使用 BatchPutDocument API 操作导入属性

当使用 BatchPutDocument API 将文档添加到索引时,您可以指定属性,包括保留属性和自定义属性。您可以在单个 API 调用中添加多个字段或属性,最多可添加 50 个自定义字段。

"Attributes": 
{
    "Department": "HR",
    "_category": "Vacation policy"
}
广告