Amazon Q 商业版 - 数据源连接器



数据源连接器是一种将来自不同数据源的数据组合和修改到单个容器索引中的技术。Amazon Q 商业版提供了多种数据源连接器,帮助您以最少的配置创建智能生成式 AI 解决方案。

本章概述了数据源连接器功能、配置以及与您的数据源连接器相关的信息。

数据源连接器概念

要了解数据源连接器的配置,需要了解一些与其相关的特定术语。

  • 源和端点元数据:数据源配置信息位于控制台的源部分。如果您使用 API,则可以使用 **CreateDataSource** 操作的配置参数指定此信息。不同的连接源根据数据源具有不同的配置信息。
  • 授权:Amazon Q 商业版包含连接器索引访问控制列表 (ACL),其中包含有关用户电子邮件地址、本地组的组名称、联合组的组名称的信息。
  • 身份验证:Amazon Q 商业版具有AWS Secrets Manager 密钥,它帮助 Amazon Q 商业版通过您提供的数据源访问凭证对您的数据源访问进行身份验证。
  • 虚拟私有云:Amazon Q 商业版具有虚拟私有云,用于存储数据源或数据库。您可以将 Amazon VPC 与控制台或 Amazon Q 商业版 API 配合使用。
  • Web 代理:用于将数据源实例连接到所有支持的数据源,为此您必须提供主机名和端口号。
  • IAM 角色:数据源连接器需要具有授权和身份验证功能的 IAM 角色。
  • 身份爬虫:Amazon Q 商业版具有身份爬取功能,使它能够从支持的数据源中爬取文档级别的 ACL 信息。
  • 同步范围:Amazon Q 商业版具有同步范围功能,用于自定义数据源连接器爬取和索引的内容。
  • 同步模式:用于自定义数据源内容发生变化时与索引同步的内容。
  • 同步运行计划:Amazon Q 商业版具有同步运行计划功能,可以根据自定义计划定期将数据源与检索器同步。
  • 字段映射:用于将 Amazon Q 商业版索引字段与数据源文档属性映射。

什么是文档?

当您将 Amazon Q 商业版连接到数据源时,将什么视为单个“文档”取决于您使用的连接类型。

下表概述了每个连接器爬取的内容作为文档。

数据源连接器 支持爬取 文档定义
Adobe Experience Manager(云和服务器)
  • 资产
  • 页面
  • 每个资产都被视为单个文档。
  • 每个页面都被视为单个文档。
Alfresco(云和服务器)
  • 文件
  • 评论
  • 每个文件都被视为单个文档。
  • 每个评论都被视为单个文档。
Amazon FSx(Windows) 文件 每个文件都被视为单个文档。
Amazon S3 对象 每个对象都被视为单个文档。任何 object-name.metadata.json 文件和访问控制列表 (ACL) 文件都被视为与其关联的对象的元数据,而不是作为单独的文档处理。
Amazon Q 商业版 Web 爬虫
  • 网页
  • 附件
  • 每个网页都被视为单个文档。
  • 每个附件都被视为单个文档。
Amazon WorkDocs
  • 文件
  • 评论
  • 每个文件都被视为单个文档。
  • 每个评论都被视为单个文档。
Box
  • 文件
  • 任务
  • 评论
  • 网页链接
  • 每个文件都被视为单个文档。
  • 每个任务都被视为单个文档。
  • 每个评论都被视为单个文档。
  • 每个网页链接都被视为单个文档。
Confluence(云和服务器)
  • 空间
  • 页面
  • 博客
  • 评论
  • 附件
  • 每个空间都被视为单个文档。
  • 每个页面都被视为单个文档。
  • 每个博客都被视为单个文档。
  • 每个评论都被视为单个文档。
  • 每个附件都被视为单个文档。
数据库数据源
  • Aurora(MySQL)
  • Aurora(PostgreSQL)
  • Amazon RDS(Microsoft SQL Server)
  • Amazon RDS(MySQL)
  • Amazon RDS(Oracle)
  • Amazon RDS(PostgreSQL)
  • IBM DB2
  • PostgreSQL
  • Microsoft SQL Server
  • MySQL
  • Oracle 数据库
  • 单个数据库中的表数据
  • 单个数据库中的视图数据
  • 表和视图中的每一行都被视为单个文档。
Dropbox
  • 文件
  • 文档
  • 文档模板
  • 快捷方式
  • 每个文件都被视为单个文档。
  • 每个文档都被视为单个文档。
  • 每个文档模板都被视为单个文档。
  • 每个快捷方式都被视为单个文档。
Drupal
  • 文章
  • 基本页面
  • 基本块
  • 自定义内容
  • 自定义块
  • 文章、基本页面、基本块、自定义内容和自定义块的评论
  • 文章、基本页面、基本块、自定义内容和自定义块的附件
  • 每篇文章都被视为单个文档。
  • 每个基本页面都被视为单个文档。
  • 每个基本块都被视为单个文档。
  • 每个自定义内容都被视为单个文档。
  • 每个自定义块都被视为单个文档。
  • 文章、基本页面、基本块、任何自定义内容和自定义块上的每个评论都被视为文档。
  • 文章、基本页面、基本块、任何自定义内容和自定义块中的每个附件都被视为文档。
GitHub(云和服务器)
  • 存储库
  • 存储库提交
  • 问题
  • 问题附件
  • 问题评论
  • 拉取请求文档
  • 拉取请求评论
  • 拉取请求附件
  • 每个存储库都被视为单个文档。
  • 每个存储库提交都被视为单个文档。
  • 每个问题都被视为单个文档。
  • 每个问题附件都被视为单个文档。
  • 每个问题评论都被视为单个文档。
  • 每个拉取请求都被视为单个文档。
  • 每个拉取请求评论都被视为单个文档。
  • 每个拉取请求附件都被视为单个文档。
Gmail
  • 电子邮件
  • 电子邮件附件
  • 每封电子邮件都被视为单个文档。
  • 每个电子邮件附件都被视为单个文档。
Google Drive
  • 文件
  • 评论
  • 每个文件都被视为单个文档。
  • 每个评论都被视为单个文档。
Jira
  • 项目
  • 问题
  • 评论
  • 附件
  • 工作日志
  • 每个项目都被视为单个文档。
  • 每个评论都被视为单个文档。
  • 每个问题都被视为单个文档。
  • 每个评论都被视为单个文档。
  • 每个附件都被视为单个文档。
  • 每个工作日志都被视为单个文档
Microsoft Exchange
  • 电子邮件
  • 附件
  • 日历
  • 联系人
  • 笔记
  • OneNotes
  • 每封电子邮件都被视为单个文档。
  • 每个附件都被视为单个文档。
  • 每个日历都被视为单个文档。
  • 每个评论都被视为单个文档。
  • 每个联系人都被视为单个文档。
  • 每个笔记都被视为单个文档。
  • OneNotes 中的每个页面都被视为单个文档。
Microsoft OneDrive
  • 文件
  • OneNotes
  • 每个文件都被视为单个文档。
  • OneNotes 中的每个页面都被视为单个文档。
Microsoft SharePoint(在线和服务器)
  • 事件
  • 页面
  • 文件
  • 链接
  • 文件附件
  • 评论
  • OneNotes
  • 每个事件都被视为单个文档。
  • 每个页面都被视为单个文档。
  • 每个文件都被视为单个文档。
  • 每个链接都被视为单个文档。
  • 每个文件附件都被视为单个文档。
  • 每个评论都被视为单个文档。
  • OneNotes 中的每个页面都被视为单个文档。
Microsoft Teams
  • 聊天消息
  • 聊天附件
  • 频道帖子
  • 频道 Wiki
  • 频道附件
  • 会议聊天
  • 会议文件
  • 会议笔记
  • 日历会议
  • OneNotes
  • 每条聊天消息都被视为单个文档。
  • 每个聊天附件都被视为单个文档。
  • 每个频道帖子都被视为单个文档。
  • 每个频道 Wiki 被视为单个文档。
  • 每个频道附件都被视为单个文档。
  • 每次会议聊天都被视为单个文档。
  • 每个会议文件都被视为单个文档。
  • 每个会议笔记都被视为单个文档。
  • 每个日历会议都被视为单个文档。
  • OneNotes 中的每个页面都被视为单个文档。
Microsoft Yammer
  • 社区
  • 附件
  • 消息
  • 用户
  • 每个社区都被视为单个文档。
  • 每个附件都被视为单个文档。
  • 每条消息和社区帖子都被视为单个文档。
  • 每个用户都被视为单个文档。
Quip
  • 文件
  • 消息
  • 线程
  • 每个文件都被视为单个文档。
  • 每个评论都被视为单个文档。
  • 线程中发布的每个文件和消息都被视为单个文档。
Salesforce
  • 账户
  • 联系人
  • 活动
  • 合同
  • 案例
  • 合作伙伴
  • 商机
  • 潜在客户
  • 用户
  • 任务
  • 想法
  • 个人资料
  • 解决方案
  • 聊天
  • 文档
  • 自定义实体
  • 知识文章
  • 每个账户都被视为单个文档。
  • 每个联系人都被视为单个文档。
  • 每个广告系列都被视为单个文档。
  • 每个合同都被视为单个文档。
  • 每个案例都被视为单个文档。
  • 每个合作伙伴都被视为单个文档。
  • 每个商机都被视为单个文档。
  • 每个组都被视为单个文档。
  • 每个潜在客户都被视为单个文档。
  • 每个用户都被视为单个文档。
  • 每个任务都被视为单个文档。
  • 每个想法都被视为单个文档。
  • 每个个人资料都被视为单个文档。
  • 每个解决方案都被视为单个文档。
  • 每个 Chatter 都被视为单个文档。
  • 每个文档(文件)都被视为单个文档。
  • 每个自定义实体(记录)都被视为单个文档。
  • 每个知识文章都被视为单个文档。
ServiceNow
  • 事件
  • 知识文章
  • 服务目录
  • 附件
  • 每个事件都被视为单个文档。
  • 每个知识文章都被视为单个文档。
  • 每个服务目录都被视为单个文档。
  • 每个附件都被视为单个文档。
Slack
  • 消息
  • 消息附件
  • 频道帖子
  • 每条消息都被视为单个文档。
  • 每个消息附件都被视为单个文档。
  • 每个频道帖子都被视为单个文档。
Zendesk
  • 工单
  • 工单评论
  • 工单评论附件
  • 文章
  • 文章附件
  • 文章评论
  • 社区主题
  • 社区帖子
  • 社区帖子评论
  • 每个工单都被视为单个文档。
  • 每个工单评论都被视为单个文档。
  • 每个工单评论附件都被视为单个文档。
  • 每篇文章都被视为单个文档。
  • 每个文章附件都被视为单个文档。
  • 每个文章评论都被视为单个文档。
  • 每个社区主题都被视为单个文档。
  • 每个社区帖子都被视为单个文档。
  • 每个社区帖子评论都被视为单个文档。

配置最佳实践

以下列表描述了设置和配置 Amazon Q Business 数据源连接器的最佳实践

  • 索引中的每个文档都必须是唯一的。确保在您计划连接到 Amazon Q Business 检索器的任何数据源中或跨任何数据源不存在重复的文档。
  • 更改身份验证类型或凭证时,请更新 IAM 角色以访问正确的 AWS Secrets Manager 密钥 ID。
  • 为了您自身的安全性,请确保定期更新您的凭证和密钥。仅授予所需权限,并且不要在不同的数据源之间重复使用它们。
  • 用于数据检索器的 IAM 角色不能用于数据源。如果您不确定角色的用途,请创建一个新的 IAM 角色以防止错误。
  • 在应用程序中使用 AWS KMS 密钥时,请确保应用程序环境的 IAM 角色具有必要的权限来使用密钥描述、加密和解密数据。
  • Amazon Q Business 通过使用 Secrets Manager 验证用于访问本地或服务器数据源的端点信息来增强安全性,从而防止“混淆代理”问题,在该问题中,没有直接访问权限的用户可能会通过代理间接获得访问权限。端点更改会在 Secrets Manager 中创建一个新的密钥以反映更新的信息。
  • 大多数数据源使用正则表达式模式,这些模式是称为过滤器的包含或排除模式。

了解用户存储

Amazon Q Business 具有用户存储功能,允许用户仅查看从他们有权访问的应用程序内文档生成的聊天回复。这意味着用户只能查看与其权限和他们被授权查看的数据相关的回复。

用户存储如何工作?

以下步骤显示了 Amazon Q Business 用户存储的工作原理

  • 在 Amazon Q Business 中,任何数据源中的每个文档都具有访问控制列表 (ACL) 信息作为元数据固有地附加到其中。
  • ACL 包含有关哪些用户和组有权访问文档的信息。
  • 然后连接器可以抓取并使用您数据源中的 ACL 信息。
  • 并重新同步您的数据源以捕获 ACL 更改并确保正确的用户访问权限。
  • Amazon Q Business 从每个数据源抓取用户和组信息并在内部对其进行映射。
  • 然后用户和组信息存储在用户存储中以匹配文档访问详细信息。
  • 如果您在用户存储中删除一个组,然后稍后使用相同的名称但不同的组成员重新创建它,则包含此组的文档 ACL 可能会受到影响。
  • 如果新用户具有相同的电子邮件地址,请从用户存储中删除旧用户。Amazon Q Business 将验证用户属性,如果存在差异,则拒绝访问。

使用 Amazon VPC

Amazon Q Business 可以连接到您的虚拟私有云 (VPC) 以索引内容。它可以做到这一点,因为您可以告诉 Amazon Q Business 它访问您的 VPC 所需的安全信息。这样,Amazon Q Business 就可以安全地与您虚拟私有云中的数据源通信。

数据源连接器故障排除

现在我们将解决 Amazon Q Business 数据源连接器的一些问题。

  • 我的文档未被索引:Amazon Q Business 具有一个用于索引数据的两步过程。错误可能发生在数据源级别或文档级别。数据源错误在控制台中报告,而文档级错误在 Amazon CloudWatch Logs 中报告。这有助于您识别和解决阻止文档被索引的任何问题。
  • 我的同步作业失败:Amazon Q Business 同步作业可能会因索引或数据源中的配置错误而失败。这些错误通常与 Amazon Q Business 访问其所需资源的 IAM 权限不足有关。数据源详细信息页面“同步运行历史记录”部分中的错误消息提供了有关缺少权限的详细信息。以下是您可能收到的一些错误消息
    • 无法为作业创建日志组。请确保提供的 IAM 角色具有足够的权限。
    • 尝试抓取元数据文件时无法访问 Amazon S3 文件前缀(存储桶名称)。请确保提供的 IAM 角色 (ARN) 具有足够的权限。
    • 无法假定提供的 IAM 角色 (ARN)。请确保 Amazon Q Business 是允许假定该角色的可信实体。
  • 我的同步作业未完成:要解决未完成的同步作业,请首先查看您的 CloudWatch 日志。
    • 从“详细信息”列中,选择“在 CloudWatch 中查看详细信息”。
    • 查看错误消息以了解导致文档失败的原因。
  • 我的同步作业成功,但没有索引的文档:可能的原因包括以下内容
    • 检查 CloudWatch DocumentsSubmittedForIndexingFailed 指标以查看是否有任何文档无法同步。检查您的 CloudWatch 日志以获取详细信息。
    • 对于 Amazon S3 数据源,您可能为 Amazon Q Business 提供了错误的存储桶名称或前缀。确保 Amazon Q Business 使用的 S3 存储桶是包含要索引的文档的存储桶。
    • 在重新索引在较早作业中无法索引的文档时,除非您更改了文档或其关联的元数据文件,否则 Amazon Q Business 不会对其进行索引。
  • 在同步数据源时遇到文件格式问题
    如果您在将文件添加到数据源或同步数据源时遇到文件格式问题,请确保您的文档类型受 Amazon Q Business 支持。
  • 在使用 SSL 证书文件时收到“AccessDenied”错误消息
    如果您在将 SSL 证书与数据源一起使用时收到“访问被拒绝”错误,请检查 IAM 角色是否具有访问证书文件的必要权限。如果证书使用 AWS KMS 密钥加密,请确保您的 IAM 角色还具有使用 AWS KMS 密钥解密证书的权限。
广告