Apache Tajo - SQL 语句



在上一章中,您了解了如何在 Tajo 中创建表。本章解释了 Tajo 中的 SQL 语句。

创建表语句

在开始创建表之前,请在 Tajo 安装目录路径下创建一个名为“students.csv”的文本文件,如下所示:

students.csv

Id 姓名 地址 年龄 分数
1 Adam 23 New Street 21 90
2 Amit 12 Old Street 13 95
3 Bob 10 Cross Street 12 80
4 David 15 Express Avenue 12 85
5 Esha 20 Garden Street 13 50
6 Ganga 25 North Street 12 55
7 Jack 2 Park Street 12 60
8 Leena 24 South Street 12 70
9 Mary 5 West Street 12 75
10 Peter 16 Park Avenue 12 95

创建完文件后,转到终端并依次启动 Tajo 服务器和 Shell。

创建数据库

使用以下命令创建一个新数据库:

查询

default> create database sampledb; 
OK

连接到现在已创建的“sampledb”数据库。

default> \c sampledb 
You are now connected to database "sampledb" as user “user1”.

然后,在“sampledb”中创建一个表,如下所示:

查询

sampledb>  create external table mytable(id int,name text,address text,age int,mark int) 
   using text with('text.delimiter' = ',') location ‘file:/Users/workspace/Tajo/students.csv’;

结果

以上查询将生成以下结果。

OK

这里创建了外部表。现在,您只需输入文件位置即可。如果您需要从 hdfs 分配表,则使用 hdfs 代替 file。

接下来,“students.csv”文件包含逗号分隔的值。“text.delimiter”字段赋值为‘,’。

您现在已在“sampledb”中成功创建了“mytable”。

显示表

要显示 Tajo 中的表,请使用以下查询。

查询

sampledb> \d  
mytable  
sampledb> \d mytable

结果

以上查询将生成以下结果。

table name: sampledb.mytable 
table uri: file:/Users/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown 
volume: 261 B
Options: 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\\N' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4 

列出表

要获取表中的所有记录,请键入以下查询:

查询

sampledb> select * from mytable;

结果

以上查询将生成以下结果。

List Table

插入表语句

Tajo 使用以下语法在表中插入记录。

语法

create table table1 (col1 int8, col2 text, col3 text);   
--schema should be same for target table schema  
Insert overwrite into table1 select * from table2;  
                     (or)  
Insert overwrite into LOCATION '/dir/subdir' select * from table; 

Tajo 的插入语句类似于 SQL 的**INSERT INTO SELECT**语句。

查询

让我们创建一个表来覆盖现有表的表数据。

sampledb> create table test(sno int,name text,addr text,age int,mark int);  
OK 
sampledb> \d

结果

以上查询将生成以下结果。

mytable 
test

插入记录

要在“test”表中插入记录,请键入以下查询。

查询

sampledb> insert overwrite into test select * from mytable; 

结果

以上查询将生成以下结果。

Progress: 100%, response time: 0.518 sec

这里,“mytable”记录覆盖了“test”表。如果您不想创建“test”表,则可以直接分配物理路径位置,如插入查询的替代选项中所述。

获取记录

使用以下查询列出“test”表中的所有记录:

查询

sampledb> select * from test;

结果

以上查询将生成以下结果。

Fetch Records

此语句用于添加、删除或修改现有表的列。

要重命名表,请使用以下语法:

Alter table table1 RENAME TO table2;

查询

sampledb> alter table test rename to students;

结果

以上查询将生成以下结果。

OK

要检查已更改的表名,请使用以下查询。

sampledb> \d  
mytable 
students

现在表“test”已更改为“students”表。

添加列

要在“students”表中插入新列,请键入以下语法:

Alter table <table_name> ADD COLUMN <column_name> <data_type>

查询

sampledb> alter table students add column grade text; 

结果

以上查询将生成以下结果。

OK

设置属性

此属性用于更改表的属性。

查询

sampledb> ALTER TABLE students SET PROPERTY 'compression.type' = 'RECORD',
   'compression.codec' = 'org.apache.hadoop.io.compress.Snappy Codec' ; 
OK

这里,分配了压缩类型和编解码器属性。

要更改文本分隔符属性,请使用以下方法:

查询

ALTER TABLE students  SET PROPERTY ‘text.delimiter'=',';  
OK 

结果

以上查询将生成以下结果。

sampledb> \d students  
table name: sampledb.students 
table uri: file:/tmp/tajo-user1/warehouse/sampledb/students 
store type: TEXT 
number of rows: 10 
volume: 228 B 
Options: 
'compression.type' = 'RECORD' 
'timezone' = 'Asia/Kolkata' 
'text.null' = '\\N' 
'compression.codec' = 'org.apache.hadoop.io.compress.SnappyCodec' 
'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
addr TEXT 
age INT4 
mark INT4 
grade TEXT

以上结果显示,使用“SET”属性更改了表的属性。

选择语句

SELECT 语句用于从数据库中选择数据。

Select 语句的语法如下:

SELECT [distinct [all]] * | <expression> [[AS] <alias>] [, ...] 
   [FROM <table reference> [[AS] <table alias name>] [, ...]] 
   [WHERE <condition>] 
   [GROUP BY <expression> [, ...]] 
   [HAVING <condition>] 
   [ORDER BY <expression> [ASC|DESC] [NULLS (FIRST|LAST)] [, …]]

Where 子句

Where 子句用于从表中过滤记录。

查询

sampledb> select * from mytable where id > 5;

结果

以上查询将生成以下结果。

Where Clause

该查询返回 id 大于 5 的学生的记录。

查询

sampledb> select * from mytable where name = ‘Peter’; 

结果

以上查询将生成以下结果。

Progress: 100%, response time: 0.117 sec 
 
  id,  name,  address,   age  
------------------------------- 
10,  Peter,  16 park avenue , 12 

结果仅过滤 Peter 的记录。

Distinct 子句

表列可能包含重复值。DISTINCT 关键字可用于仅返回不同的值。

语法

SELECT DISTINCT column1,column2 FROM table_name;

查询

sampledb> select distinct age from mytable; 

结果

以上查询将生成以下结果。

Progress: 100%, response time: 0.216 sec  
age 
------------------------------- 
13 
12 

该查询返回**mytable**中学生的不同年龄。

Group By 子句

GROUP BY 子句与 SELECT 语句一起使用,将相同的数据排列成组。

语法

SELECT column1, column2 FROM table_name WHERE [ conditions ] GROUP BY column1, column2;

查询

select age,sum(mark) as sumofmarks from mytable group by age;

结果

以上查询将生成以下结果。

age,  sumofmarks 
------------------------------- 
13,  145 
12,  610

这里,“mytable”列有两种年龄类型——12 和 13。现在,查询按年龄对记录进行分组,并生成对应学生年龄的分数总和。

Having 子句

HAVING 子句使您能够指定条件,以过滤最终结果中显示的组结果。WHERE 子句对选定的列施加条件,而 HAVING 子句对 GROUP BY 子句创建的组施加条件。

语法

SELECT column1, column2 FROM table1 GROUP BY column HAVING [ conditions ]

查询

sampledb> select age from mytable group by age  having  sum(mark) > 200; 

结果

以上查询将生成以下结果。

age 
------------------------------- 
12 

该查询按年龄对记录进行分组,并在条件结果 sum(mark) > 200 时返回年龄。

Order By 子句

ORDER BY 子句用于根据一列或多列对数据进行升序或降序排序。默认情况下,Tajo 数据库以升序对查询结果进行排序。

语法

SELECT column-list FROM table_name  
[WHERE condition]  
[ORDER BY column1, column2, .. columnN] [ASC | DESC]; 

查询

sampledb> select * from mytable where mark > 60 order by name desc; 

结果

以上查询将生成以下结果。

Order by Clause

该查询按分数大于 60 的学生的姓名降序返回。

创建索引语句

CREATE INDEX 语句用于在表中创建索引。索引用于快速检索数据。当前版本仅支持存储在 HDFS 上的纯文本格式的索引。

语法

CREATE INDEX [ name ] ON table_name ( { column_name | ( expression ) }

查询

create index student_index on mytable(id);

结果

以上查询将生成以下结果。

id 
——————————————— 

要查看分配给列的索引,请键入以下查询。

default> \d mytable  
table name: default.mytable 
table uri: file:/Users/deiva/workspace/Tajo/students.csv 
store type: TEXT 
number of rows: unknown  
volume: 307 B 
Options: 
   'timezone' = 'Asia/Kolkata' 
   'text.null' = '\\N' 
   'text.delimiter' = ','  
schema: 
id INT4 
name TEXT 
address TEXT 
age INT4 
mark INT4   
Indexes:  
"student_index" TWO_LEVEL_BIN_TREE (id ASC NULLS LAST ) 

这里,Tajo 默认使用 TWO_LEVEL_BIN_TREE 方法。

删除表语句

Drop Table 语句用于从数据库中删除表。

语法

drop table table name;

查询

sampledb> drop table mytable;

要检查表是否已从表中删除,请键入以下查询。

sampledb> \d mytable;

结果

以上查询将生成以下结果。

ERROR: relation 'mytable' does not exist 

您还可以使用“\d”命令检查查询,以列出可用的 Tajo 表。

广告