共计 1976 个字符,预计需要花费 5 分钟才能阅读完成。
由于我 Spark 采用的是 Cloudera 公司的 CDH,并且安装的时候是在线自动安装和部署的集群。最近在学习 SparkSQL,看到 SparkSQL on HIVE。下面主要是介绍一下如何通过 SparkSQL 在读取 HIVE 的数据。
(说明:如果不是采用 CDH 在线自动安装和部署的话,可能需要对源码进行编译,使它能够兼容 HIVE。
编译的方式也很简单,只需要在 Spark_SRC_home(源码的 home 目录下)执行如下命令:
./make-distribution.sh –tgz -PHadoop-2.2 -Pyarn -DskipTests -Dhadoop.version=2.6.0-cdh5.4.4 -Phive
编译好了之后,会在 lib 目录下多几个 jar 包。)
下面我主要介绍一下我使用的情况:
1、为了让 Spark 能够连接到 Hive 的原有数据仓库,我们需要将 Hive 中的 hive-site.xml 文件拷贝到 Spark 的 conf 目录下,这样就可以通过这个配置文件找到 Hive 的元数据以及数据存放。
在这里由于我的 Spark 是自动安装和部署的,因此需要知道 CDH 将 hive-site.xml 放在哪里。经过摸索。该文件默认所在的路径是:/etc/hive/conf 下。
同理,spark 的 conf 也是在 /etc/spark/conf。
此时,如上所述,将对应的 hive-site.xml 拷贝到 spark/conf 目录下即可
如果 Hive 的元数据存放在 Mysql 中,我们还需要准备好 Mysql 相关驱动,比如:mysql-connector-java-5.1.22-bin.jar。
2、编写测试代码
val conf=new SparkConf().setAppName(“Spark-Hive”).setMaster(“local”)
val sc=new SparkContext(conf)
//create hivecontext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
sqlContext.sql(“CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ “) // 这里需要注意数据的间隔符
sqlContext.sql(“LOAD DATA INPATH ‘/user/liujiyu/spark/kv1.txt’ INTO TABLE src “);
sqlContext.sql(” SELECT * FROM jn1″).collect().foreach(println)
sc.stop()
3、下面列举一下出现的问题:
(1)如果没有将 hive-site.xml 拷贝到 spark/conf 目录下,会出现:
分析:从错误提示上面就知道,spark 无法知道 hive 的元数据的位置,所以就无法实例化对应的 client。
解决的办法就是必须将 hive-site.xml 拷贝到 spark/conf 目录下
(2)测试代码中没有加 sc.stop 会出现如下错误:
ERROR scheduler.LiveListenerBus: Listener EventLoggingListener threw an exception
java.lang.reflect.InvocationTargetException
在代码最后一行添加 sc.stop() 解决了该问题。
Hive 编程指南 PDF 中文高清版 http://www.linuxidc.com/Linux/2015-01/111837.htm
基于 Hadoop 集群的 Hive 安装 http://www.linuxidc.com/Linux/2013-07/87952.htm
Hive 内表和外表的区别 http://www.linuxidc.com/Linux/2013-07/87313.htm
Hadoop + Hive + Map +reduce 集群安装部署 http://www.linuxidc.com/Linux/2013-07/86959.htm
Hive 本地独立模式安装 http://www.linuxidc.com/Linux/2013-06/86104.htm
Hive 学习之 WordCount 单词统计 http://www.linuxidc.com/Linux/2013-04/82874.htm
Hive 运行架构及配置部署 http://www.linuxidc.com/Linux/2014-08/105508.htm
Hive 的详细介绍 :请点这里
Hive 的下载地址 :请点这里
本文永久更新链接地址 :http://www.linuxidc.com/Linux/2016-05/131569.htm