阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

SQL-Hive中的Select From解析

75次阅读
没有评论

共计 2255 个字符,预计需要花费 6 分钟才能阅读完成。

导读 今天我们来讲讲 Hive 中最常用的 select from 语句知识要点。Hive 系列文章主要讲数据分析中最基础的 SQL 技能。

今天我们来讲讲 Hive 中最常用的 select from 语句知识要点。
SQL-Hive 中的 Select From 解析
Hive 系列文章预计 10-20 篇,主要讲数据分析中最基础的 SQL 技能。

01- 查询表中的内容

查询指定的某一列或某几列,命令如下:

SELECT 列名 1, 列名 2,…… FROM 表名;

查询表中的所有字段时,可以使用 * 代表所有字段。星号 (*) 是选取所有列的快捷方式。命令如下:

SELECT * FROM 表名;

如果我们想查询表 t_od_use_cnt 中的所有的 user_id 和 use_cnt,具体命令如下:

SELECT user_id 
      ,use_cnt 
FROM app.t_od_use_cnt;

备注:app 是数据库名,如果当前查询表与当前使用数据库一致,可以省略不写

02-Hive 严格模式

在 Hive 中这样写虽然语法正确(不加分区),但在实际工作中这样写很可能会报错。

因为 Hive 中的表一般数据量极大,为了防止用户误操作进行全表扫描,可以设置为查询分区表时必须加入分区限制。比如这里我们的分区字段是 date_8 这个日期字段,工作中的表会要求我们必须限定查询哪几天的分区数据。这里我们可以输入设置参数进行模拟,命令如下:

hive (app)> set hive.mapred.mode; 
hive.mapred.mode=nonstrict 
hive (app)> set hive.mapred.mode=strict; 
hive (app)> set hive.mapred.mode; 
hive.mapred.mode=strict

然后我们重新执行上面的查询语句,报错如下:

hive (app)> SELECT user_id 
          >       ,use_cnt 
          > FROM app.t_od_use_cnt; 
FAILED: SemanticException [Error 10041]: No partition predicate found for Alias "t_od_use_cnt" Table "t_od_use_cnt" 
hive (app)>

如下使用 where 语句限定分区即可解决这个问题:

SELECT user_id 
      ,use_cnt 
FROM app.t_od_use_cnt 
WHERE date_8 = '20210420';
03-limit 限制查询返回行数

上面的查询语句会返回查询到的所有数据,但有时候我们只是要确认一下表中的数据内容,或者要指定行数据,比如只要 100 行,这时只需要在查询语句后加上 (limit 数字) 即可。

查询表 t_od_use_cnt 中前 5 行数据,命令如下:

SELECT user_id 
      ,use_cnt 
FROM app.t_od_use_cnt 
WHERE date_8 = 20190101 Limit 5;

运行结果如下:

hive (app)> SELECT user_id 
          >       ,use_cnt 
          > FROM app.t_od_use_cnt 
          > WHERE date_8 = 20210420 Limit 5; 
OK 
user_id  use_cnt 
10000  6 
10001  49 
10002  23 
10003  1 
10004  29 
Time taken: 0.829 seconds, Fetched: 5 row(s) 
hive (app)>
04- 列四则运算

在查询时可以对数值类型的字段进行加减乘除和取余等四则运算

下面我们将表 t_od_use_cnt 中 use_cnt 列和 is_active 列相乘得到一个新列,其他用法依次类推。

hive (app)> SELECT user_id 
          >       ,use_cnt 
          >       ,is_active 
          >       ,use_cnt * is_active 
          > FROM app.t_od_use_cnt 
          > WHERE date_8 = 20210420 Limit 5; 
OK 
user_id  use_cnt  is_active  _c3 
10000  6  1  6 
10001  49  1  49 
10002  23  1  23 
10003  1  0  0 
10004  29  1  29 
Time taken: 0.124 seconds, Fetched: 5 row(s) 
hive (app)>
05- 列别名

可以看到上面的例子中我们通过两个列相乘人为制造出一个新列,系统默认将其列名起为_c3。通常有必要给这些新产生的列起一个别名。已有列的列名如果含义不清晰也可以通过起别名的方式进行更改。不过别名只在本条 SQL 语句中生效,不影响原表中的字段名。

这里顺便介绍一下字段命名规则:

1. 不能和已有字段重复

2. 只能包括小写字母(a-z)、数字(0-9)、下划线(_)

3. 以字母开头

4. 单词之间用下划线_分割

这里我们将别名起为 active_use_cnt,在列后面加 AS active_use_cnt 即可。另 AS 可以省略,只用空格分隔别名也可以生效

hive (app)> SELECT user_id 
          >       ,use_cnt 
          >       ,is_active 
          >       ,use_cnt * is_active AS active_use_cnt 
          > FROM app.t_od_use_cnt 
          > WHERE date_8 = 20210420 Limit 5; 
OK 
user_id  use_cnt  is_active  active_use_cnt 
10000  6  1  6 
10001  49  1  49 
10002  23  1  23 
10003  1  0  0 
10004  29  1  29 
Time taken: 0.239 seconds, Fetched: 5 row(s) 
hive (app)>

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计2255字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中