Hive - 分区

Hive 将表组织成分区。这是一种根据分区列的值（例如日期、城市和部门）将表划分为相关部分的方法。使用分区，可以轻松查询数据的一部分。

表或分区细分为桶，为数据提供额外的结构，可用于更高效的查询。桶化基于表中某些列的哈希函数值。

例如，名为Tab1的表包含员工数据，例如 id、姓名、部门和 yoj（即加入年份）。假设您需要检索所有 2012 年加入的员工的详细信息。查询会搜索整个表以查找所需信息。但是，如果您按年份对员工数据进行分区并将其存储在单独的文件中，则可以缩短查询处理时间。以下示例显示如何分区文件及其数据

以下文件包含 employeedata 表。

/tab1/employeedata/file1

id, name, dept, yoj
1, gopal, TP, 2012
2, kiran, HR, 2012
3, kaleel,SC, 2013
4, Prasanth, SC, 2013

以上数据使用年份划分为两个文件。

/tab1/employeedata/2012/file2

1, gopal, TP, 2012
2, kiran, HR, 2012

/tab1/employeedata/2013/file3

3, kaleel,SC, 2013
4, Prasanth, SC, 2013

添加分区

我们可以通过更改表来向表添加分区。让我们假设我们有一个名为employee的表，其字段如 Id、Name、Salary、Designation、Dept 和 yoj。

语法

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec
[LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...;

partition_spec:
: (p_column = p_col_value, p_column = p_col_value, ...)

以下查询用于向 employee 表添加分区。

hive> ALTER TABLE employee
> ADD PARTITION (year=’2012’)
> location '/2012/part2012';

重命名分区

此命令的语法如下。

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

以下查询用于重命名分区

hive> ALTER TABLE employee PARTITION (year=’1203’)
   > RENAME TO PARTITION (Yoj=’1203’);

删除分区

以下语法用于删除分区

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;

以下查询用于删除分区

hive> ALTER TABLE employee DROP [IF EXISTS]
   > PARTITION (year=’1203’);

打印页面