07-06 04:43 阅读 82

SparkSQL远程访问CDH集群Hive数据表

创建Maven项目添加如下依赖：

<dependency>
     <groupId>org.apache.sparkgroupId>
     <artifactId>spark-sql_2.11artifactId>
    <version>2.4.0version>
dependency>  
<dependency>
     <groupId>org.apache.sparkgroupId>
     <artifactId>spark-hive_2.11artifactId>
    <version>2.4.0version>
dependency>

使用SparkSQL访问远程CDH集群Hive数据表主要用以下几种方式：

第一种：通过Hive表直接访问

第一步需要配置本地Hadoop环境变量。

然后就可以通过如下代码直接访问Hive数据表了(此时需要将集群的配置文件拷贝到resources文件下面：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)：

SparkConf conf = new SparkConf();
conf.set("hive.metastore.uris","thrift://xxxxxxxx:9083");
SparkSession session = SparkSession.builder()
                                .appName("")
                                .master("local[3]")
                                .config(conf)
                                .enableHiveSupport()
                                .getOrCreate();
session.sql("").show();

第二种：通过读取文件的方式访问(此时需要将集群的配置文件拷贝到resources文件下面：core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml)

SparkConf conf = new SparkConf();
conf.set("hive.metastore.uris","thrift://xxxxxxxx:9083");
SparkSession session = SparkSession.builder()
                                .appName("")
                                .master("local[3]")
                                .config(conf)
                                .enableHiveSupport()
                                .getOrCreate();
session.read().text("hdfs://nameservice1/......")
session.sql("").show();

原文：https://www.cnblogs.com/kxg916361108/p/15101643.html

推荐资源

Python全新顶级课程 Python网络爬虫+Python游戏开发项目+代码工具资料 35节新手直播必备课：从养号到引流到变现，学会搭建一个合格的直播间外面收688的游戏捞金项目，无技术含量，小白自己测试即可 2022年最新抖音seo优化技术，新手3天学活抖音seo关键词排名锤石传媒张智诚7天陪你做服装账号，0基础手把手教学【视频课程】抖音tiktok治愈文案号引流课程,视频制作+发布+起号+总结最新JAVA大型互联网架构师项目实战视频教程融合超多一线架构技术 Java面试进阶训练营第2季(分布式篇) 中华石杉视频教程全集单个网站月变现100万的SEO秘密：如何百分百做出赚钱站点 2019传智黑马前端（8月新版）