java-spark中各种常用算子的写法示例

作者：horseman 时间：2023-04-28 23:21:01　

Spark的算子的分类

从大方向来说，Spark 算子大致可以分为以下两类:

1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。

Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。

2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。

Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。

从小方向来说，Spark 算子大致可以分为以下三类:

1）Value数据类型的Transformation算子，这种变换并不触发提交作业，针对处理的数据项是Value型的数据。

2）Key-Value数据类型的Transfromation算子，这种变换并不触发提交作业，针对处理的数据项是Key-Value型的数据对。

3）Action算子，这类算子会触发SparkContext提交Job作业。

引言

通常写spark的程序用scala比较方便，毕竟spark的源码就是用scala写的。然而，目前java开发者特别多，尤其进行数据对接、上线服务的时候，这时候，就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候，不能更常用了

在使用map之前首先要定义一个转换的函数格式如下：

Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型
@Override
public LabeledPoint call(String row) throws Exception {//重写call方法
String[] rowArr = row.split(",");
int rowSize = rowArr.length;

double[] doubleArr = new double[rowSize-1];

//除了第一位的lable外其余的部分解析成double 然后放到数组中
for (int i = 1; i < rowSize; i++) {
String each = rowArr[i];
doubleArr[i] = Double.parseDouble(each);
}

//用刚才得到的数据转成向量
Vector feature = Vectors.dense(doubleArr);
double label = Double.parseDouble(rowArr[0]);
//构造用于分类训练的数据格式 LabelPoint
LabeledPoint point = new LabeledPoint(label, feature);
return point;
}
};

需要特别注意的是：

1、call方法的输入应该是转换之前的数据行的类型返回值应是处理之后的数据行类型

2、如果转换方法中调用了自定义的类，注意该类名必须实现序列化比如

public class TreeEnsemble implements Serializable {
}

3、转换函数中如果调用了某些类的对象，比如该方法需要调用外部的一个参数，或者数值处理模型（标准化，归一化等），则该对象需要声明是final

然后就是在合适的时候调用该转换函数了

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);

这种方式是需要将普通的rdd转成javaRDD才能使用的，转成javaRDD的这一步操作不耗时，不用担心

二、filter

在避免数据出现空值、0等场景中也非常常用，可以满足sql中where的功能

这里首先也是要定义一个函数，该函数给定数据行返回布尔值实际效果是将返回为true的数据保留

Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型用于判断数据是否保留
@Override
public Boolean call(String row) throws Exception {//重写call方法
boolean flag = row!=null;
return flag;
}
};

通常该函数实际使用中需要修改的仅仅是row的类型也就是数据行的输入类型，和上面的转换函数不同，此call方法的返回值应是固定为Boolean

然后是调用方式

JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);

三、mapToPair

该方法和map方法有一些类似，也是对数据进行一些转换。不过此函数输入一行输出的是一个元组，最常用的方法是用来做交叉验证或者统计错误率召回率计算AUC等等

同样，需要先定义一个转换函数

Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型后面的两个Object不要改动
@Override
public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法通常只改动输入参数输出不要改动
double predicton = thismodel.predict(row.features());
double label = row.label();
return new Tuple2(predicton, label);
}
});

关于调用的类、类的对象，要求和之前的一致，类需要实现序列化，类的对象需要声明成final类型

相应的调用如下：

JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);

然后对该predictionsAndLabels的使用，计算准确率、召回率、精准率、AUC，接下来的博客中会有，敬请期待

来源：https://www.cnblogs.com/starwater/p/9195764.html

标签：spark,算子,java

投稿

java-spark中各种常用算子的写法示例

猜你喜欢

.NET企业级项目中遇到的国际化问题和解决方法

SpringBoot跨域Access-Control-Allow-Origin实现解析

Java实现排球比赛计分系统

详解Spring Boot中使用AOP统一处理Web请求日志

springboot配置文件绑定实现解析

8种常见的Java不规范代码

Java数据结构之栈与队列实例详解

C#几种截取字符串的方法小结

Java JVM程序指令码实例解析

Java Netty实现心跳机制过程解析

Android高仿IOS 滚轮选择控件

C#实现winform自动关闭MessageBox对话框的方法

C#中Clone一个对象的值到另一个对象案例

Android入门之实现手工发送一个BroadCast

基于C#制作一个休息提醒闹钟的详细步骤

Maven如何打入依赖中指定的部分jar包

Java中保留两位小数的四种方法实现实例

SpringBoot项目的logback日志配置(包括打印mybatis的sql语句)

Android利用ViewPager实现带小圆球的图片滑动

Android四种常见布局方式示例教程