【尚硅谷Java版】Flink直接上手之批处置

原创

小哥 3年前 (2022-11-16) 阅读数 114 #大杂烩

【尚硅谷Java版】Flink 快速上手之批处理

一、开发环境
二、搭建项目
三、项目编写

一、开发环境

1、Java 8
2、IDEA 2021.03
3、Maven 3.6.1
4、Flink 1.13.0
5、Git

二、搭建项目

创建一个Maven项目

选择本地Maven仓库

添加依赖


        8
        8
        1.13.0
        1.8
        2.12
        1.7.30
    

    
        
        
            org.apache.flink
            flink-java
            ${flink.version}
        
        
            org.apache.flink
            flink-streaming-java_${scala.binary.version}
            ${flink.version}
        
        
            org.apache.flink
            flink-clients_${scala.binary.version}
            ${flink.version}
        

        
        
        
            org.slf4j
            slf4j-api
            1.7.30
        
        
        
            org.apache.logging.log4j
            log4j-to-slf4j
            2.14.0

日志文件配置，创建 log4j.properties 文件，并且添加如下内容

log4j.rootLogger=error,stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.lo4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%-4r [%t] % - 5p %c %x - %m%n

三、项目编写

创建input包，并且创建 words.txt 文件并在其中添加下面内容

hello world
hello flink
hello java

创建 BatchWordCount 类，添加如下内容

package com.atguigu.wc;

import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.operators.FlatMapOperator;
import org.apache.flink.api.java.operators.UnsortedGrouping;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

/**
 * @author 
 * @date 2022/6/20 10:11
 */
public class BatchWordCount {
    public static void main(String[] args) throws Exception {
        //1、创建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        //2、从文件中读取数据
        DataSource stringDataSource = env.readTextFile("input/words.txt");
        //3、将每行数据进行分词，转换成二元组类型
        FlatMapOperator>  wordAndOneTuple = stringDataSource.flatMap((String line, Collector> out) ->
                        //将一行文本进行分词
                {
                    String[] words = line.split(" ");
                    //将每个单词转换成二元组输出
                    for (String word : words) {
                        out.collect(Tuple2.of(word, 1L));
                    }
                }
        ).returns(Types.TUPLE(Types.STRING, Types.LONG));
        //4、按照word进行分组
        UnsortedGrouping> wordAndOneGroup = wordAndOneTuple.groupBy(0);
        //5、分组内进行聚合统计
        AggregateOperator> sum = wordAndOneGroup.sum(1);
        //6、打印结果输出
        sum.print();
    }
}

运行结果，将 words.txt 文件中单词的个数进行的汇总输出,结果如下图所示

Flink 快速上手之使用 DataSet API 实现批处理就全部完成了。

版权声明

所有资源都来源于爬虫采集,如有侵权请联系我们,我们将立即删除

上一篇：Java中的内容类型【个人回忆总结版】下一篇：Anaconda镜像下载-亲测具体版

解决SolidWorks2019许可证错误-85440

解决SolidWorks 2019许可证错误(-8, 544, 0) 简介本资源文件旨在帮助用户解决SolidWo...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决sklearn.datasets.fetch_20newsgroups下载速度慢的问题

解决sklearn.datasets.fetch_20newsgroups下载速度慢的问题简介在使用Python...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决sklearn.datasets.fetch_20newsgroups下载报错问题分享

解决sklearn.datasets.fetch_20newsgroups下载报错问题在使用Python的机器学习库...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决Scratch3.0scratch-hex文件下载失败问题

解决Scratch 3.0 scratch-hex文件下载失败问题描述本资源文件提供了一个解决方案，用于解决在n...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决RHEL7无法使用YUM源的问题

解决RHEL7无法使用YUM源的问题当您在红帽企业版Linux 7（RHEL7）上遇到无法使用YUM源的问题时，通常...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决Qt应用中遇到的libpngwarningiCCPknownincorrectsRGBprofile问题

解决Qt应用中遇到的libpng warning: iCCP: known incorrect sRGB profile...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决QT启动时找不到python36.dll问题

解决QT启动时“找不到python36.dll”问题介绍本仓库提供了一个资源文件，旨在解决在使用QT启动时遇到的...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决Qt5在麒麟Linux下不能输入中文问题

解决Qt5在麒麟Linux下不能输入中文问题资源描述本资源文件旨在解决在麒麟Linux操作系统下，Qt5应用程序...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决QT5.12.6使用32位MinGW编译器无法使用SSL协议问题

解决QT5.12.6使用32位MinGW编译器无法使用SSL协议问题简介在开发基于QT 5.12.6的应用程序时...

原创 6个月前 (02-11) 25阅读 #大杂烩
解决PyTorchCUDA编译问题指南

解决PyTorch CUDA编译问题指南资源文件介绍文件标题解决AssertionError: Torch...

原创 6个月前 (02-11) 25阅读 #大杂烩