spark2.x由浅入深深到底系列六之RDDjavaapi详解四

学习spark任何的知识点之前,先对spark要有一个正确的理解,可以参考:正确理解spark

创新互联建站是一家专业提供山东企业网站建设,专注与网站制作、网站设计、H5网站设计、小程序制作等业务。10年已为山东众多企业、政府机构等服务。创新互联专业网站制作公司优惠进行中。

本文对join相关的api做了一个解释

SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);

JavaPairRDD javaPairRDD =
        sc.parallelizePairs(Arrays.asList(new Tuple2<>(1, 2),
                new Tuple2<>(3, 4), new Tuple2<>(3, 6), new Tuple2<>(5, 6)));
JavaPairRDD otherJavaPairRDD =
        sc.parallelizePairs(Arrays.asList(new Tuple2<>(3, 9),
                new Tuple2<>(4, 5)));
//结果: [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))]
System.out.println(javaPairRDD.cogroup(otherJavaPairRDD).collect());

//结果: [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))]
// groupWith和cogroup效果是一模一样的
System.out.println(javaPairRDD.groupWith(otherJavaPairRDD).collect());

//结果: [(3,(4,9)), (3,(6,9))]
//基于cogroup实现的,就是取cogroup结果中相同key在两个RDD都有value的数据
System.out.println(javaPairRDD.join(otherJavaPairRDD).collect());

//结果: [(1,(2,Optional.empty)), (3,(4,Optional[9])), (3,(6,Optional[9])), (5,(6,Optional.empty))]
//基于cogroup实现的,结果需要出现的key以左边的RDD为准
System.out.println(javaPairRDD.leftOuterJoin(otherJavaPairRDD).collect());

//结果: [(4,(Optional.empty,5)), (3,(Optional[4],9)), (3,(Optional[6],9))]
//基于cogroup实现的,结果需要出现的key以右边的RDD为准
System.out.println(javaPairRDD.rightOuterJoin(otherJavaPairRDD).collect());

//结果: [(4,(Optional.empty,Optional[5])), (1,(Optional[2],Optional.empty)), (3,(Optional[4],Optional[9])), (3,(Optional[6],Optional[9])), (5,(Optional[6],Optional.empty))]
//基于cogroup实现的,结果需要出现的key是两个RDD中所有的key
System.out.println(javaPairRDD.fullOuterJoin(otherJavaPairRDD).collect());

从上可以看出,最基本的操作是cogroup这个操作,下面是cougroup的原理图:

spark2.x由浅入深深到底系列六之RDD java api详解四

如果想对cogroup原理更彻底的理解,可以参考:spark core RDD api原理详解


新闻标题:spark2.x由浅入深深到底系列六之RDDjavaapi详解四
文章分享:http://hxwzsj.com/article/jipgep.html

其他资讯

Copyright © 2025 青羊区翔捷宏鑫字牌设计制作工作室(个体工商户) All Rights Reserved 蜀ICP备2025123194号-14
友情链接: 外贸网站设计方案 响应式网站设计 成都网站制作 成都网站设计公司 网站设计公司 成都企业网站建设 重庆外贸网站建设 品牌网站建设 成都网站建设流程 企业网站制作 成都网站建设 广安网站设计 成都网站设计 成都网站建设 企业网站建设 定制网站建设 成都网站建设公司 网站建设 成都网站设计 营销型网站建设 移动网站建设 成都响应式网站建设