数据挖掘序列数据的类型有哪些?


序列是有序事件列表。序列可以根据其定义的事件特征分为三类,如下所示:

时间序列数据中的相似性搜索

时间序列数据集包含在重复计算时间内获取的整数序列值。这些值通常在相同的时间间隔内测量(例如每分钟、每小时或每天)。

时间序列数据库在多个应用程序中都很有名,包括股票市场分析、经济和销售预测、预算分析、效用研究、库存研究、收入预测、工作负载预测以及流程和质量服务。它们有利于研究自然现象、数学和工程实验以及药物治疗。

时间序列数据中的回归和趋势分析

时间序列数据的回归分析在数据和信号分析的应用中得到了实质性的设计。趋势分析使用以下四个主要要素或运动构建一个集成模型来定义时间序列数据:

趋势或长期运动 - 这些表示时间序列图随时间变化的总体方向,例如,使用加权移动平均线和最小二乘法找到趋势曲线,包括虚线曲线。

循环运动 - 这些是围绕趋势线或曲线的长期振动。

季节性变化 - 这些是时间序列在连续年份的等效季节(包括假日购物季节)中遵循的非常相似的模式。为了进行有效的趋势分析,需要根据自相关计算的季节性指数对数据进行“季节性调整”。

随机运动 - 这些定义了由于偶然事件(包括劳资纠纷或组织内宣布的人事变动)造成的零星变化。

符号序列中的顺序模式挖掘

符号序列包含元素或事件的有序组,记录时是否具有时间概念。有几个应用程序包括符号序列数据,包括用户购物序列、网页点击流、程序实现序列、生物序列以及科学和工程以及自然和社会发展中的事件序列。

由于生物序列赋予复杂的语义含义并提出几个具有挑战性的研究问题,因此大多数研究都针对生物信息学的应用。

生物序列比对

生物序列定义核苷酸或氨基酸的序列。生物序列分析比较、比对、索引和研究生物序列,因此在生物信息学和现代生物学中发挥着至关重要的作用。

序列比对依赖于所有生物都与进化相关的事实。这表明在进化上彼此更接近的物种的核苷酸(DNA、RNA)和蛋白质序列必须表现出更高的相似性。比对是将序列排列以获得最大同一性水平的过程,这也定义了序列之间相似性的程度。

更新于: 2022年2月18日

2K+ 浏览量

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.