数据提取的各种技术是什么?
数据正迅速成为数字经济的生命线,随着越来越多的组织转向在线运营,数据的价值正在迅速提高。为了发挥作用,数据必须被收集并转换为可以分析的格式。
数据收集是通过分析和商业智能应用程序利用数据实现企业增长的第一步。
什么是数据提取?
数据提取是指分析和爬取数据源(例如数据库)的过程,以特定模式恢复关键信息。数据会进一步处理,包括元数据和其他数据集成;这是数据工作流程中的另一步骤。
非结构化数据源和各种数据格式占大多数数据提取。表、索引和分析都可以用于存储非结构化数据。
数据仓库中的数据可以来自各种来源,数据仓库必须使用三种不同的方法来使用它。这些过程称为提取、转换和加载 (ETL)。
数据提取包括从无组织的数据源中检索信息。然后将提取的数据导入关系数据库的暂存区。通过应用程序编程接口查询源系统以获取数据,并应用提取逻辑。由于此过程,数据现在已准备好经历 ETL 过程的转换阶段。
为什么我们需要数据库提取?
数据库提取通过识别实现业务目标最相关的信息来推动整个 ETL 过程。例如,客户信息可以从非结构化、半结构化或结构化数据源中提取。
假设贵公司的利润由于客户流失而下降。每个月,您都会保留一份记录,其中显示所有现有客户及其流失状态的列表。要研究流失率漂移,您需要提取和聚合具有流失状态的数据。此数据可以帮助您确定是否可以留住客户并制定必要的措施(例如改善客户服务)以降低营业额。
有哪些类型的数据提取?
从最广泛的意义上讲,组织提取两种类型的数据:
非结构化数据
非结构化数据不会以标准化或结构化的格式保存在数据库中。人类和机器生成的非结构化数据非常丰富。音频、电子邮件、地理空间、传感器和监控数据都是常见的例子,它们通常来自物联网 (IoT)。在提取非结构化数据之前,企业必须首先执行数据准备和清理操作,例如删除重复结果、删除多余符号以及确定如何处理缺失值。
结构化数据
结构化数据以标准化的方式存储和管理在事务系统中。SQL 数据库表中的行表示结构化数据。企业在处理结构化数据时通常会从源系统提取信息。
企业可以提取各种组织和非结构化数据以满足其业务目标。但是,检索的数据类型通常属于以下三类之一:
**运营信息** - 许多组织收集与日常操作和程序相关的数据,以更好地了解结果并提高运营效率。
**客户信息** - 企业经常收集客户姓名、联系方式、购买历史记录和其他数据,用于营销和广告目的。
**财务信息** - 企业可以通过提取销售额、购买费用和竞争价格来跟踪业绩并执行战略规划。
数据提取技术
从逻辑和物理的角度来看,预计要提取的数据量以及 ETL 过程中的阶段(初始加载或数据维护)也可能影响提取方式。从本质上讲,您必须确定如何从概念上和物理上提取数据。
逻辑提取方法
逻辑提取可以分为两种类型:
完全提取
数据完全从源系统中提取。无需跟踪数据源更改,因为此提取反映了上次成功提取后源系统上保存的所有信息。
源数据将按其当前状态交付,无需在源站点上提供其他逻辑信息(例如时间戳)。特定表的导出文件或扫描整个源表的远程 SQL 查询是两种完全提取的示例。
增量提取
在给定时间,只会提取自过去特定事件以来发生更改的数据。此事件可能是提取过程的结束,也可能是更复杂的业务事件,例如财政期间预订的最后一天。为了检测此增量更改,必须有一种方法来识别自此确切时间事件以来所有已更改的信息。
此信息可以由源数据本身提供,例如指示上次更改时间戳的应用程序列,或者由更改表提供,其中单独的机制跟踪修改以及原始事务。在大多数情况下,使用后一种选项需要向源系统添加提取逻辑。
作为提取过程的一部分,许多数据仓库不应用任何更改捕获算法。相反,源系统中的完整表将提取到数据仓库或暂存区,并将这些表与先前的源系统提取进行比较以检测已更改的数据。虽然此策略可能对源系统的影响很小,但它会给数据仓库过程带来压力,尤其是在数据量很大的情况下。
物理提取方法
根据所选的逻辑提取方法以及源站点的功能和限制,可以通过两种方式物理提取数据。可以从源系统在线提取数据,也可以从数据库脱机提取数据。这种脱机结构可能已经存在,也可能由提取例程创建。
物理提取可以通过以下方式完成:
在线提取
信息直接从源系统获取。提取过程可以直接链接到源系统以访问源表,或连接到中间系统以预定义格式存储数据(例如,快照日志或更改表)。值得注意的是,中间系统不必与源系统在物理上分离。
在使用在线提取时,最好评估分布式事务是否使用源对象或准备好的源对象。
脱机提取
数据有意地暂存到源系统外部,而不是直接从中提取。数据是由提取方法创建的,或者已经具有结构(重做日志、存档日志或可传输表空间)。
应考虑以下结构:
平面文件是具有预定义通用格式的文件。为了进一步处理,需要有关源项目的更多信息。
用于转储文件的 Oracle 特定格式包含项目的相关信息。
重做和存档日志
单独的补充转储文件包含相关信息。
可移动表空间