【尚硅谷Java版】Flink中DataStreamAPI篇之创建部署环境
原创【尚硅谷Java版】Flink中DataStream API创建执行环境。
1.基础知识
Flink有非常灵活的分层API设计, 核心层
就是DataStream/DataSet API新版本已经实现了流与批的集成,DataSet API废弃、统一使用 DataStream API
工艺流数据和批次数据。
DataStream本身是Flink用于表示数据集合的类,Flink代码实际上是基于这种类型的数据进行处理的。A.Flink程序,实际上 对DataStream各种转换
具体来说,代码基本上由以下部分组成:(1)获取执行环境 execution enviroment (2)读取数据源 source (3)定义基于数据的转换操作 transformations (4)定义计算结果的输出位置 sink (5)触发程序执行 execute。
第一部分中的执行环境的获取和第五部分中的触发器执行可以被视为对执行环境的操作,因此我们可以将其简化为以下四个部分:
- 执行环境 enrironment
- 数据源 source
- 转换操作 transformation
- 输出 sink
2.创建执行环境
flink程序的第一步是创建一个执行环境,即。flink程序的基础。
在代码中创建执行环境就是调用这个类的静态方法,它有以下三种形式:
-
getExecutionEnvironment()取决于它当前的运行方式,
由您决定返回什么样的操作环境。
,不需要做额外的判断,简单高效StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
-
createLocalEnvironment(),返回
本地执行环境
,您可以在调用时传入一个参数,指定默认的并行度,如果未传入,则默认的并行性是本地的。CPU核心数StreamExecutionEnvironment localEnv = StreamExecutionEnvironment.createLocalEnvironment ();
-
createRemoteEnvironment(),此方法返回
群集执行环境
,需要在调用时指定。JobManager并指定的主机名和端口号jar包StreamExecutionEnvironment remoteEnv = StreamExecutionEnvironment.createRemoteEnvironment( "host", JobManager主机名 1234, JobManager工艺端口号 "path/to/jarFile.jar" 提交到JobManager的Jar包 );
通过以上三种方式获得程序执行环境后,我们可以对执行环境进行灵活的设置,例如全局设置的并行性、禁用运算符链等。
版权声明
所有资源都来源于爬虫采集,如有侵权请联系我们,我们将立即删除