博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hive基本操作与应用
阅读量:5166 次
发布时间:2019-06-13

本文共 722 字,大约阅读时间需要 2 分钟。

通过hadoop上的hive完成WordCount

启动hadoop

1
start
-
all
.sh

Hdfs上创建文件夹

1
2
hdfs dfs 
-
mkdir songinput
hdfs dfs 
-
ls 
/
user
/
hadoop

上传文件至hdfs:

下载歌词songs.txt保存在~/hadoop里,查询目录

1
2
cd ~
/
hadoop
ls

  

上传至hdfs

1
2
hdfs dfs 
-
put .
/
songs.txt songinput
hdfs dfs 
-
ls 
/
user
/
hadoop
/
songinput

 

启动Hive

1
hive

创建原始文档表

1
create table docs(line string);<br>show tables;

  

导入文件内容到表docs并查看

1
load data inpath 
'/user/hadoop/songinput/songs.txt' 
overwrite into table docs;<br>select 
* 
from
docs;

用HQL进行词频统计,结果放在表word_count里

1
create table word_count as select word,count(
1
from 
(select explode(split(line,
' '
)) as word 
from 
docs) word group by word;

查看统计结果

1
select 
* 
from 
word_count;

转载于:https://www.cnblogs.com/H231/p/9053162.html

你可能感兴趣的文章
字符串的查找删除
查看>>
NOI2018垫底记
查看>>
快速切题 poj 1002 487-3279 按规则处理 模拟 难度:0
查看>>
Codeforces Round #277 (Div. 2)
查看>>
【更新】智能手机批量添加联系人
查看>>
NYOJ-128前缀式计算
查看>>
Hive(7)-基本查询语句
查看>>
注意java的对象引用
查看>>
C++ 面向对象 类成员函数this指针
查看>>
NSPredicate的使用,超级强大
查看>>
自动分割mp3等音频视频文件的脚本
查看>>
判断字符串是否为空的注意事项
查看>>
布兰诗歌
查看>>
js编码
查看>>
Pycharm Error loading package list:Status: 403错误解决方法
查看>>
steps/train_sat.sh
查看>>
转:Linux设备树(Device Tree)机制
查看>>
iOS 组件化
查看>>
(转)Tomcat 8 安装和配置、优化
查看>>
(转)Linxu磁盘体系知识介绍及磁盘介绍
查看>>