找到 163 篇文章 关于数据科学

时间序列算法在数据科学中的作用

Jay Singh
更新于 2023年2月27日 12:44:11

208 次浏览

为了识别和预测随时间收集的数据中的趋势,时间序列分析是一种强大的技术。时间序列中的每个数据点都代表一个特定的时间点,并且随着时间的推移而收集。股票价格、天气信息和网站流量是一些时间序列数据的示例。在经济学、金融和天气预报等多个学科中,时间序列数据经常被使用。使用统计方法来理解和预测数据随时间的变化的过程称为时间序列分析。因为它使我们能够发现模式、趋势和相关性… 阅读更多

编写高效的 R 代码

Bhuwanesh Nainwal
更新于 2023年1月17日 16:05:04

234 次浏览

编写高效的代码非常重要,因为它可以加快开发时间,并使我们的程序易于理解、调试和维护。我们将讨论各种技术,例如基准测试、矢量化和并行编程,以使我们的 R 代码更快。如果您渴望成为一名数据科学家,则必须学习这些技术。因此,让我们开始吧 - 基准测试最简单的优化方法之一是使用最新的 R 版本来工作。新版本无法修改我们现有的代码,但它总是带有强大的库函数,可以提高执行时间。… 阅读更多

使用 stringr 进行 R 字符串操作

Bhuwanesh Nainwal
更新于 2023年1月17日 15:56:26

817 次浏览

stringr 包是一个流行的 R 包,它提供用于在 R 中操作和处理字符串的函数和工具。此包为处理字符串提供了一个一致且方便的接口,并且它提供了用于搜索、匹配、替换和拆分字符串等任务的广泛功能。在本文中,我们将讨论使用“stringr”包在 R 中进行字符串操作。“stringr”包为我们提供了“stringr”中的以下函数族 - 字符操作函数:此类函数允许我们处理字符串的字符。用于处理空格的函数族。… 阅读更多

R 中的可扩展数据处理

Bhuwanesh Nainwal
更新于 2023年1月17日 15:47:05

312 次浏览

大多数时候,R 程序员会遇到大量数据,这会导致问题,因为默认情况下变量存储在内存中。R 语言在处理超过计算机 RAM 10% 的海量数据时效果不佳。但是,如果我们想在数据科学领域取得优异成绩,则数据处理应该是可扩展的。因此,我们将讨论如何在数据足够大于计算机的 RAM 时轻松地应用某些操作和使用可扩展的数据处理。讨论还将重点关注处理“核心外”对象。什么是可扩展的… 阅读更多

R 中的面向对象编程

Bhuwanesh Nainwal
更新于 2023年1月17日 15:44:12

2K+ 次浏览

面向对象编程侧重于数据和对象,而不是过程。面向对象模型帮助我们对现实生活中的对象进行建模。为了在数据科学领域取得优异成绩,掌握面向对象编程的概念非常重要。每个程序都有特殊类型的类。在本教程中,讨论将重点关注 R 中的 S3 和 S4 类、泛型函数、类之间的继承和多态性。在本教程中,我们将讨论 R 中的面向对象编程概念。R 中的面向对象编程面向对象编程是一种编程模型,它围绕类和对象而不是函数展开。在 R 中,我们… 阅读更多

Tidyverse 简介

Bhuwanesh Nainwal
更新于 2023年1月17日 15:38:22

590 次浏览

称为 tidyverse 的 R 包集合旨在有效地协作和处理数据。Tidyverse 包是开源的,并由数据科学社区不断改进。数据科学家必须对 tidyverse 伞下包含的每个包有一个基本的了解。我们将深入介绍所有八个包——purr、ggplot2、dplyr、tidyr、stringr、tibble、readr 和 forcats。Tidyverse 包Tidyverse 将 R 中的几个包组合在一起。它包含以下包 - 包名称用途purrr用于函数式编程ggplot2用于创建图形dplyr… 阅读更多

使用 lubridate 在 R 中处理日期和时间

Bhuwanesh Nainwal
更新于 2023年1月17日 15:26:28

639 次浏览

日期和时间乍一看似乎很简单,因为我们在日常生活中都会处理它们。但是,当我们在 R 中处理日期和时间对象时,会涉及很多复杂性。本文重点介绍使用 R 中的 lubridate 包处理日期和时间。您可以使用 CRAN 终端中的以下命令在本地安装此包 - install.packages("lubridate") R 中的日期/时间对象类型有三种类型的日期/时间对象,如下所示 - Date() 对象 - 打印日期。Time() 对象 - 打印… 阅读更多

R 中的并行编程

Bhuwanesh Nainwal
更新于 2023年1月17日 15:20:04

4K+ 次浏览

并行编程是一种软件开发实践,它涉及将计算或任务分解成可以并发或并行执行的较小部分。并行编程可以通过利用计算机或集群中的多个处理器或内核来帮助提高 R 代码的性能和效率。并行编程的主要概念是,如果使用单个处理器可以在 S 秒内执行一项操作,那么当涉及 N 个处理器时,它应该能够在 S / N 秒内执行。R 中并行编程的必要性大多数时候,… 阅读更多

使用 xts 和 zoo 操作 R 中的时间序列数据

Bhuwanesh Nainwal
更新于 2023年1月17日 15:15:11

1K+ 次浏览

xts 和 zoo 是两个 R 包,它们提供用于操作时间序列数据的工具和函数。这两个包都提供了用于读取、写入和操作以各种格式(例如 CSV、Excel 和其他数据源)存储的时间序列数据的函数。我们将首先介绍 xts 和 zoo 类、基本操作、合并和修改时间序列,最后我们将讨论按时间应用和聚合。XTS 和 Zoo 类语法在 R 中,xts 扩展了 zoo 类。xts 对象类似于由时间对象索引的观测值矩阵。… 阅读更多

使用 data.table 连接 R 中的数据

Bhuwanesh Nainwal
更新于 2023年1月17日 15:06:04

2K+ 次浏览

在本文中,我们将讨论使用 data.table 包在 R 中连接数据。通过“连接数据”一词,我们的意思是说在两个或多个表之间执行不同类型的连接操作,例如 INNER JOIN、LEFT OUTER JOIN、RIGHT OUTER JOIN 和 FULL OUTER JOIN。在表之间执行连接操作的主要目的是根据某些属性(或列)条件访问多个表中的数据。R 为我们提供了 data.table 包,借助它我们可以非常有效地处理表格数据(具有行和列)。此包作为替代方案推出… 阅读更多

广告