0)数据准备
原始数据
dept:
10 ACCOUNTING 1700
20 RESEARCH 1800
30 SALES 1900
40 OPERATIONS 1700
emp:
7369 SMITH CLERK 7902 1980-12-17 800.00 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
7566 JONES MANAGER 7839 1981-4-2 2975.00 20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
7839 KING PRESIDENT 8888 1981-11-17 5000.00 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
7900 JAMES CLERK 7698 1981-12-3 950.00 30
7902 FORD ANALYST 7566 1981-12-3 3000.00 20
7934 MILLER CLERK 7782 1982-1-23 1300.00 10
(1)创建部门表
create table if not exists dept(
deptno int,
dname string,
loc int
)
row format delimited fields terminated by '\t';
(2)创建员工表
create table if not exists emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by '\t';
(3)导入数据
load data local inpath '/home/zzdq/dept.txt' into table dept;
load data local inpath '/home/zzdq/emp.txt' into table emp;
1)全表查询
hive (default)> select * from emp;
hive (default)> select empno,ename,job,mgr,hiredate,sal,comm,deptno from emp ;
2)选择特定列查询
hive (default)> select empno, ename from emp;
注意:
(1)SQL 语言大小写不敏感。
(2)SQL 可以写在一行或者多行
(3)关键字不能被缩写也不能分行
(4)各子句一般要分行写。
(5)使用缩进提高语句的可读性。
1)重命名一个列
2)便于计算
3)紧跟列名,也可以在列名和别名之间加入关键字‘AS’
4)案例实操
查询名称和部门
hive (default)> select ename as name,deptno as dept from emp;
案例实操:查询出所有员工的薪水后加1 显示。
hive (default)> select mgr+100 from emp;
1)求总行数(count),这个有MR生成
hive (default)> select count(*) cnt from emp;
2)求工资的最大值(max),这个有MR生成
hive (default)> select max(mgr) from emp;
3)求工资的最小值(min)这个有MR生成
hive (default)> select min(mgr) from emp;
4)求工资的总和(sum)这个有MR生成
hive (default)> select sum(mgr) from emp;
5)求工资的平均值(avg)这个有MR生成
hive (default)> select avg(mgr) avg_sql from emp;
典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。
hive (default)> select * from emp limit 5;
hive (default)> select * from emp limit 2;
1)使用 WHERE 子句,将不满足条件的行过滤掉
2)WHERE 子句紧随 FROM 子句
3)案例实操
查询出薪水大于1000 的所有员工
hive (default)> select * from emp where sal >1000;
注意:where 子句中不能使用字段别名。
1)下面表中描述了谓词操作符,这些操作符同样可以用于 JOIN…ON 和 HAVING 语句中。
操作符 | 支持的数据类型 | 描述 |
---|---|---|
A=B | 基本数据类型 | 如果A等于B则返回TRUE,反之返回FALSE |
A<=>B | 基本数据类型 | 如果A和B都为NULL,则返回TRUE,如果一边为NULL,返回False |
A<>B, A!=B | 基本数据类型 | A或者B为NULL则返回NULL;如果A不等于B,则返回TRUE,反之返回FALSE |
A<B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A小于B,则返回TRUE,反之返回FALSE |
A<=B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A小于等于B,则返回TRUE,反之返回FALSE |
A>B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A大于B,则返回TRUE,反之返回FALSE |
A>=B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A大于等于B,则返回TRUE,反之返回FALSE |
A [NOT] BETWEEN B AND C | 基本数据类型 | 如果A,B或者C任一为NULL,则结果为NULL。 如果A的值大于等于B而且小于或等于C,则结果为TRUE,反之为FALSE。 如果使用NOT关键字则可达到相反的效果。 |
A IS NULL | 所有数据类型 | 如果A等于NULL,则返回TRUE,反之返回FALSE |
A IS NOT NULL | 所有数据类型 | 如果A不等于NULL,则返回TRUE,反之返回FALSE |
IN(数值1,数值2) | 所有数据类型 | 使用IN运算显示列表中的值 |
A [NOT] LIKE B | string类型 | B是一个SQL下的简单正则表达式,也叫通配符模式, 如果A与其匹配的话,则返回TRUE;反之返回FALSE。 B的表达式说明如下: 'x%’表示A必须以字母'x’开头, ‘%x’表示A必须以字母’x'结尾,而‘%x%'表示A包含有字母’x’, 可以位于开头,结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。 |
A RLIKE B, A REGEXP B | string类型 | B 是基于 java 的正则表达式,如果 A 与其匹配, 则返回 TRUE;反之返回 FALSE。 匹配使用的是 JDK 中的正则表达式接口实现的, 因为正则也依据其中的规则。 例如,正则表达式必须和整个字符串 A 相匹配, 而不是只需与其字符串匹配。 |
2)案例实操
(1)查询出薪水等于5000 的所有员工
hive (default)> select * from emp where mgr = 7902;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7369 SMITH CLERK 7902 1980-12-17 800.0 20.0 ?NULL
Time taken: 0.285 seconds, Fetched: 1 row(s)
(2)查询工资在500 到1000 的员工信息
hive (default)> select * from emp where mgr between 7500 and 7700;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7788 SCOTT ANALYST 7566 1987-4-19 3000.0 20.0 ?NULL
7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
7900 JAMES CLERK 7698 1981-12-3 950.0 30.0 ?NULL
7902 FORD ANALYST 7566 1981-12-3 3000.0 20.0 ?NULL
Time taken: 0.576 seconds, Fetched: 7 row(s)
(3)查询 comm 为空的所有员工信息
hive (default)> select * from emp where comm is null;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7839 KING PRESIDENT ?NULL 5000.00 10.0 ?NULL ?NULL
Time taken: 0.229 seconds, Fetched: 1 row(s)
(4)查询工资是1500 或5000 的员工信息
hive (default)> select * from emp where sal in (1500,2600);
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.176 seconds, Fetched: 1 row(s)
1)使用 LIKE 运算选择类似的值
2)选择条件可以包含字符或数字: %代表零个或多个字符(任意个字符)。 _ 代表一个字符。
3)RLIKE子句 RLIKE 子句是 Hive 中这个功能的一个扩展,其可以通过 Java 的正则表达式这个更强大的语言来指定匹配条件。
4)案例实操
(1)查找名字以 A 开头的员工信息 hive (default)> select * from emp where ename LIKE 'A%';
(2)查找名字中第二个字母为 A 的员工信息 hive (default)> select * from emp where ename LIKE '_A%';
(3)查找名字中带有 A 的员工信息 hive (default)> select * from emp where ename RLIKE '[A]';
1)案例实操
(1)查询薪水大于1000,部门是30
hive (default)> select * from emp where sal>1000 and deptno=30;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.696 seconds, Fetched: 4 row(s)
(2)查询薪水大于1000,或者部门是30
hive (default)> select * from emp where sal>1000 or deptno=30;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
7566 JONES MANAGER 7839 1981-4-2 2975.0 20.0 ?NULL
7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.0 30.0 ?NULL
7782 CLARK MANAGER 7839 1981-6-9 2450.0 10.0 ?NULL
7788 SCOTT ANALYST 7566 1987-4-19 3000.0 20.0 ?NULL
7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
7876 ADAMS CLERK 7788 1987-5-23 1100.0 20.0 ?NULL
7902 FORD ANALYST 7566 1981-12-3 3000.0 20.0 ?NULL
7934 MILLER CLERK 7782 1982-1-23 1300.0 10.0 ?NULL
Time taken: 0.22 seconds, Fetched: 11 row(s)
(3)查询除了20 部门和30 部门以外的员工信息
hive (default)> select * from emp where not deptno=20 or not deptno=30;
OK
emp.empno emp.ename emp.job emp.mgr emp.hiredate emp.sal emp.comm emp.deptno
7499 ALLEN SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521 WARD SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654 MARTIN SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7844 TURNER SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.193 seconds, Fetched: 4 row(s)
?