- R 教程
- R - 首页
- R - 概述
- R - 环境设置
- R - 基本语法
- R - 数据类型
- R - 变量
- R - 运算符
- R - 决策
- R - 循环
- R - 函数
- R - 字符串
- R - 向量
- R - 列表
- R - 矩阵
- R - 数组
- R - 因子
- R - 数据框
- R - 包
- R - 数据重塑
R - 数据库
关系数据库系统中的数据以规范化的格式存储。因此,为了进行统计计算,我们需要非常高级和复杂的 SQL 查询。但是 R 可以轻松连接到许多关系数据库,例如 MySql、Oracle、Sql server 等,并将其中的记录作为数据框提取。一旦数据在 R 环境中可用,它就成为一个普通的 R 数据集,可以使用所有强大的包和函数对其进行操作或分析。
在本教程中,我们将使用 MySql 作为连接到 R 的参考数据库。
RMySQL 包
R 有一个名为“RMySQL”的内置包,它提供与 MySql 数据库的原生连接。您可以使用以下命令在 R 环境中安装此包。
install.packages("RMySQL")
将 R 连接到 MySql
安装包后,我们在 R 中创建一个连接对象以连接到数据库。它以用户名、密码、数据库名称和主机名作为输入。
# Create a connection Object to MySQL database. # We will connect to the sampel database named "sakila" that comes with MySql installation. mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila', host = 'localhost') # List the tables available in this database. dbListTables(mysqlconnection)
执行上述代码时,会产生以下结果:
[1] "actor" "actor_info" [3] "address" "category" [5] "city" "country" [7] "customer" "customer_list" [9] "film" "film_actor" [11] "film_category" "film_list" [13] "film_text" "inventory" [15] "language" "nicer_but_slower_film_list" [17] "payment" "rental" [19] "sales_by_film_category" "sales_by_store" [21] "staff" "staff_list" [23] "store"
查询表
我们可以使用函数dbSendQuery()查询 MySql 中的数据库表。查询在 MySql 中执行,结果集使用 R 的fetch()函数返回。最后将其存储为 R 中的数据框。
# Query the "actor" tables to get all the rows. result = dbSendQuery(mysqlconnection, "select * from actor") # Store the result in a R data frame object. n = 5 is used to fetch first 5 rows. data.frame = fetch(result, n = 5) print(data.fame)
执行上述代码时,会产生以下结果:
actor_id first_name last_name last_update 1 1 PENELOPE GUINESS 2006-02-15 04:34:33 2 2 NICK WAHLBERG 2006-02-15 04:34:33 3 3 ED CHASE 2006-02-15 04:34:33 4 4 JENNIFER DAVIS 2006-02-15 04:34:33 5 5 JOHNNY LOLLOBRIGIDA 2006-02-15 04:34:33
带过滤子句的查询
我们可以传递任何有效的 select 查询来获取结果。
result = dbSendQuery(mysqlconnection, "select * from actor where last_name = 'TORN'") # Fetch all the records(with n = -1) and store it as a data frame. data.frame = fetch(result, n = -1) print(data)
执行上述代码时,会产生以下结果:
actor_id first_name last_name last_update 1 18 DAN TORN 2006-02-15 04:34:33 2 94 KENNETH TORN 2006-02-15 04:34:33 3 102 WALTER TORN 2006-02-15 04:34:33
更新表中的行
我们可以通过将 update 查询传递给 dbSendQuery() 函数来更新 MySql 表中的行。
dbSendQuery(mysqlconnection, "update mtcars set disp = 168.5 where hp = 110")
执行上述代码后,我们可以看到 MySql 环境中已更新的表。
将数据插入表中
dbSendQuery(mysqlconnection, "insert into mtcars(row_names, mpg, cyl, disp, hp, drat, wt, qsec, vs, am, gear, carb) values('New Mazda RX4 Wag', 21, 6, 168.5, 110, 3.9, 2.875, 17.02, 0, 1, 4, 4)" )
执行上述代码后,我们可以看到 MySql 环境中已插入表中的行。
在 MySql 中创建表
我们可以使用函数dbWriteTable()在 MySql 中创建表。如果表已存在,则会覆盖该表,并以数据框作为输入。
# Create the connection object to the database where we want to create the table. mysqlconnection = dbConnect(MySQL(), user = 'root', password = '', dbname = 'sakila', host = 'localhost') # Use the R data frame "mtcars" to create the table in MySql. # All the rows of mtcars are taken inot MySql. dbWriteTable(mysqlconnection, "mtcars", mtcars[, ], overwrite = TRUE)
执行上述代码后,我们可以看到 MySql 环境中已创建的表。
删除 MySql 中的表
我们可以通过将 drop table 语句传递给 dbSendQuery()(与我们用于从表中查询数据的方式相同)来删除 MySql 数据库中的表。
dbSendQuery(mysqlconnection, 'drop table if exists mtcars')
执行上述代码后,我们可以看到 MySql 环境中已删除的表。