前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[Flink Checkpoint机制]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
Flink
Flink的JobGraph和ExecutionPlan:解锁实时数据处理的秘密 嘿,朋友们!今天我要带你们一起探索一个神奇的世界——Apache Flink中的JobGraph和ExecutionPlan。这两个概念可是Flink实时数据处理架构里的大明星,有了它们,咱们就能打造出又快又稳的数据流应用啦!在这篇文章中,我们将深入探讨它们的作用,以及如何通过实际的例子来更好地理解和运用它们。 1. JobGraph 构建数据流的蓝图 首先,让我们从JobGraph开始。想一想吧,在Flink里写数据流程序的时候,其实你就是在画一幅任务的蓝图,这幅蓝图就叫JobGraph。JobGraph就像是一个虚拟的工作流程图,里面装着所有干活的小工具(我们叫它们“算子”)和数据的来源(也就是“数据源”),还有这些小工具和来源之间是怎么串在一起的。 为什么JobGraph如此重要? - 抽象与简化:它将复杂的业务逻辑抽象成一系列简单的算子和数据流,使得开发者能够专注于核心业务逻辑,而无需关心底层的执行细节。 - 灵活性:由于它是基于算子的模型,因此可以根据需要轻松地添加、删除或修改算子,以适应不同的业务需求。 示例代码: java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream source = env.addSource(new SocketTextStreamFunction("localhost", 9999)); DataStream transformed = source.map(new MapFunction() { @Override public String map(String value) throws Exception { return value.toUpperCase(); } }); transformed.print(); env.execute("Simple Flink Job"); 这段代码展示了如何创建一个简单的Flink任务,该任务从一个Socket接收字符串数据,将其转换为大写,并打印结果。这里的source和transformed就是构成JobGraph的一部分。 2. ExecutionPlan 通往高效执行的道路 接下来,我们来看看ExecutionPlan。当你的JobGraph准备好之后,Flink会根据它生成一个ExecutionPlan。这个计划详细说明了怎么在集群上同时跑数据流,包括怎么安排任务、分配资源之类的。 为什么ExecutionPlan至关重要? - 性能优化:ExecutionPlan考虑到了各种因素(如网络延迟、机器负载等)来优化任务的执行效率,确保数据流能够快速准确地流动。 - 容错机制:通过合理的任务划分和错误恢复策略,ExecutionPlan可以保证即使在某些节点失败的情况下,整个系统也能稳定运行。 示例代码: 虽然ExecutionPlan本身并不直接提供给用户进行编程操作,但你可以通过配置参数来影响它的生成。例如: java env.setParallelism(4); // 设置并行度为4 这条语句会影响ExecutionPlan中任务的并行执行方式。更高的并行度通常能让吞吐量变得更好,但同时也可能会让网络通信变得更复杂,增加不少额外的工作量。 3. 探索背后的秘密 JobGraph与ExecutionPlan的互动 现在,让我们思考一下JobGraph和ExecutionPlan之间的关系。可以说,JobGraph是ExecutionPlan的基础,没有一个清晰的JobGraph,就无法生成有效的ExecutionPlan。ExecutionPlan就是JobGraph的具体操作指南,它告诉你怎么把这些抽象的想法变成实实在在的计算任务。 思考与探讨: - 在设计你的Flink应用程序时,是否考虑过JobGraph的结构对最终性能的影响? - 你有没有尝试过调整ExecutionPlan的某些参数来提升应用程序的效率? 4. 实践中的挑战与解决方案 最后,我想分享一些我在使用Flink过程中遇到的实际问题及解决方案。 问题1:数据倾斜导致性能瓶颈 - 原因分析:数据分布不均匀可能导致某些算子处理的数据量远大于其他算子,从而形成性能瓶颈。 - 解决办法:可以通过重新设计JobGraph,比如引入更多的分区策略或调整算子的并行度来缓解这个问题。 问题2:内存溢出 - 原因分析:长时间运行的任务可能会消耗大量内存,尤其是在处理大数据集时。 - 解决办法:合理设置Flink的内存管理策略,比如增加JVM堆内存或利用Flink的内存管理API来控制内存使用。 --- 好了,朋友们,这就是我对Flink中的JobGraph和ExecutionPlan的理解和分享。希望这篇文章能让你深深体会到它们的价值,然后在你的项目里大展身手,随意挥洒!如果你有任何疑问或者想要进一步讨论的话题,欢迎随时留言交流! 记住,学习技术就像一场旅行,重要的是享受过程,不断探索未知的领域。希望我们在数据流的世界里都能成为勇敢的探险家!
2024-11-05 16:08:03
111
雪落无痕
MySQL
...如何结合Spark或Flink等现代大数据处理框架与Sqoop进行协同工作,以提升数据迁移效率并确保数据一致性。此外,业界也在探索通过引入并发控制策略、改进分区算法等方式来进一步优化Sqoop的工作负载管理。 值得注意的是,虽然Sqoop在关系型数据库与Hadoop之间架起了一座桥梁,但在数据迁移过程中,安全性与合规性问题同样不容忽视。因此,关于Sqoop的数据加密传输、权限管理和审计日志等相关功能的使用与配置教程,成为了许多企业和组织关注的焦点。 总之,在大数据时代背景下,Apache Sqoop的重要性不言而喻,而随着技术进步和行业需求的变化,Sqoop将继续发展和完善,为企业在复杂IT架构下实现高效、安全的数据流动提供有力支持。
2023-04-12 16:50:07
247
素颜如水_t
Hadoop
...(包括Apache Flink、Spark和Google Dataflow等)上运行,从而极大地提高了跨平台的数据处理效率。在文章中,Apache Beam被用于整合Hadoop,通过其SDK编写代码来处理HDFS中的数据,实现了数据处理逻辑的一致性和可移植性。
2023-06-17 13:12:22
581
繁华落尽-t
Kafka
...框架如Apache Flink或KSQL进行实时分析,以快速识别市场趋势、异常交易或潜在的风险点。这种实时分析能力对于金融机构提升运营效率、加强风险管理具有重要意义。 面临的挑战 1. 数据隐私与合规性:金融行业对数据隐私和合规性有着极高的要求。在使用Kafka处理敏感数据时,必须确保数据传输的安全性,遵守相关法律法规,如GDPR、CCPA等。 2. 高可用性与容错性:金融系统要求极高可用性,任何数据丢失或服务中断都可能导致重大经济损失。因此,Kafka集群需要具备高度的可扩展性、容灾能力和故障恢复机制。 3. 性能优化与成本控制:金融交易数据量庞大,对处理速度和存储容量有极高要求。如何在保证性能的同时,合理控制成本,成为金融机构面临的挑战。 解决方案与展望 1. 加密与认证:采用SSL/TLS协议加密数据传输,使用OAuth2等认证机制保护敏感数据,确保数据在Kafka集群内外的安全流通。 2. 容灾与备份:建立多数据中心的Kafka集群,通过副本复制和ZooKeeper协调,实现数据的高可用性和快速恢复。同时,定期备份数据,确保在灾难发生时能够迅速恢复服务。 3. 性能优化与成本管理:通过优化Kafka配置、使用高效的索引机制、引入缓存策略等方式提高数据处理速度。同时,采用云服务提供的弹性计算资源,根据业务需求动态调整集群规模,实现成本效益最大化。 随着金融行业数字化转型的加速,Kafka将继续发挥其不可或缺的作用。未来,随着技术的不断进步,Kafka在金融领域的应用将更加深入,同时也将面临新的挑战,如边缘计算、人工智能融合等,这些都将推动Kafka技术的发展和创新。
2024-08-11 16:07:45
52
醉卧沙场
Kylin
...术,如Apache Flink或Kafka,可以实现实时数据接入和处理,与Kylin和MySQL的联接优化相辅相成。通过将实时数据与历史数据结合分析,企业可以实现更快速、更准确的决策支持。 安全与合规性考量 在数据处理和分析过程中,安全和合规性是不容忽视的因素。随着GDPR、CCPA等全球数据保护法规的实施,企业必须确保数据的隐私保护和合规操作。在Kylin与MySQL联接优化的过程中,应充分考虑数据传输的安全性、访问控制的严密性以及数据生命周期管理的合规性。 结论 在云原生时代,通过结合云原生数据库技术、Kubernetes容器编排、实时数据处理和严格的安全合规措施,企业可以进一步优化Kylin与MySQL的联接,提升数据处理效率,满足日益增长的数据分析需求。这一过程不仅涉及到技术层面的创新,还需兼顾业务需求、资源管理和法律法规的要求,形成一套完整的解决方案,以推动企业的数字化转型和可持续发展。 --- 本文旨在探讨在云原生环境下,如何通过综合运用现代数据库技术、云平台管理和实时数据处理策略,进一步优化Kylin与MySQL的联接,以适应大数据时代的挑战。通过深度挖掘云技术的潜力,企业不仅能够提升数据处理效率,还能够在保障数据安全与合规性的前提下,实现业务的敏捷响应和创新。
2024-09-20 16:04:27
104
百转千回
Hadoop
...ka和Apache Flink,实现数据的实时分析和决策支持。 示例代码实现 下面我们将通过一个简单的示例,展示如何使用HBase与MongoDB进行数据交互。这里假设我们已经安装了HBase和MongoDB,并且它们在本地运行。 步骤一:连接HBase java import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.Connection; import org.apache.hadoop.hbase.client.ConnectionFactory; public class HBaseConnection { public static void main(String[] args) { String hbaseUrl = "localhost:9090"; try { Connection connection = ConnectionFactory.createConnection(HBaseConfiguration.create(), hbaseUrl); System.out.println("Connected to HBase"); } catch (Exception e) { System.err.println("Error connecting to HBase: " + e.getMessage()); } } } 步骤二:连接MongoDB java import com.mongodb.MongoClient; import com.mongodb.client.MongoDatabase; public class MongoDBConnection { public static void main(String[] args) { String mongoDbUrl = "mongodb://localhost:27017"; try { MongoClient client = new MongoClient(mongoDbUrl); MongoDatabase database = client.getDatabase("myDatabase"); System.out.println("Connected to MongoDB"); } catch (Exception e) { System.err.println("Error connecting to MongoDB: " + e.getMessage()); } } } 步骤三:数据交换 为了简单起见,我们假设我们有一个简单的HBase表和一个MongoDB集合,我们将从HBase读取数据并将其写入MongoDB。 java import org.apache.hadoop.hbase.TableName; import org.apache.hadoop.hbase.client.Connection; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.client.Table; import org.apache.hadoop.hbase.util.Bytes; import com.mongodb.client.MongoCollection; import com.mongodb.client.model.Filters; import com.mongodb.client.model.UpdateOptions; import com.mongodb.client.model.UpdateOneModel; public class DataExchange { public static void main(String[] args) { // 连接HBase String hbaseUrl = "localhost:9090"; try { Connection hbaseConnection = ConnectionFactory.createConnection(HBaseConfiguration.create(), hbaseUrl); Table hbaseTable = hbaseConnection.getTable(TableName.valueOf("users")); // 连接MongoDB String mongoDbUrl = "mongodb://localhost:27017"; MongoClient mongoClient = new MongoClient(mongoDbUrl); MongoDatabase db = mongoClient.getDatabase("myDatabase"); MongoCollection collection = db.getCollection("users"); // 从HBase读取数据 Put put = new Put(Bytes.toBytes("123")); hbaseTable.put(put); // 将HBase数据写入MongoDB Document doc = new Document("_id", "123").append("name", "John Doe"); UpdateOneModel updateModel = new UpdateOneModel<>(Filters.eq("_id", "123"), new Document("$set", doc), new UpdateOptions().upsert(true)); collection.updateOne(updateModel); System.out.println("Data exchange completed."); } catch (Exception e) { System.err.println("Error during data exchange: " + e.getMessage()); } } } 请注意,上述代码仅为示例,实际应用中可能需要根据具体环境和需求进行调整。 结论 Hadoop的HBase与NoSQL数据库的集成不仅拓展了数据处理的边界,还极大地提升了数据分析的效率和灵活性。通过灵活的数据交换策略,企业能够充分利用现有数据资源,构建更加智能和响应式的业务系统。无论是数据融合、实时分析还是复杂查询,HBase的集成能力都为企业提供了强大的数据处理工具包。嘿,你知道吗?科技这玩意儿真是越来越神奇了!随着每一步发展,咱们就像在探险一样,发现越来越多的新玩法,新点子。就像是在拼图游戏里,一块块新的碎片让我们能更好地理解这个大数据时代,让它变得更加丰富多彩。我们不仅能看到过去,还能预测未来,这感觉简直酷毙了!所以,别忘了,每一次技术的进步,都是我们在向前跑,探索未知世界的一个大步。
2024-08-10 15:45:14
35
柳暗花明又一村
Flink
...界里,Apache Flink以其实时处理的强大能力赢得了众多开发者的心。不过,当我们尝试把Flink这个小家伙搬到Kubernetes这个大家庭时,可能会碰到一些小插曲。比如说,可能会出现Flink在Kubernetes的Pod里闹脾气,死活不肯启动的情况。这篇文章将和你一起深入挖掘这个问题的源头,手把手地提供一些实用的解决妙招,让你在Flink的征途上走得更稳更快,一路畅行无阻。 二、Flink on Kubernetes背景 1.1 Kubernetes简介 Kubernetes(简称K8s)是Google开源的一个容器编排平台,它简化了应用的部署、扩展和管理。Flink on Kubernetes利用Kubernetes的资源调度功能,可以让我们更好地管理和部署Flink集群。 1.2 Flink on Kubernetes架构 Flink on Kubernetes通过Flink Operator来自动部署和管理Flink Job和TaskManager。每个TaskManager都会在自己的“小天地”——单独的一个Pod里辛勤工作,而JobManager则扮演着整个集群的“大管家”,负责掌控全局。 三、Flink on KubernetesPod启动失败原因 2.1 配置错误 配置文件(如flink-conf.yaml)中的关键参数可能不正确,比如JobManager地址、网络配置、资源请求等。例如,如果你的JobManager地址设置错误,可能导致Pod无法连接到集群: yaml jobmanager.rpc.address: flink-jobmanager-service:6123 2.2 资源不足 如果Pod请求的资源(如CPU、内存)小于实际需要,或者Kubernetes集群资源不足,也会导致Pod无法启动。 yaml resources: requests: cpu: "2" memory: "4Gi" limits: cpu: "2" memory: "4Gi" 2.3 网络问题 如果Flink集群内部网络配置不正确,或者外部访问受限,也可能引发Pod无法启动。 2.4 容器镜像问题 使用的Flink镜像版本过旧或者损坏,也可能导致启动失败。确保你使用的镜像是最新的,并且可以从官方仓库获取。 四、解决策略与实例 3.1 检查和修复配置 逐行检查配置文件,确保所有参数都正确无误。例如,检查JobManager的网络端口是否被其他服务占用: bash kubectl get pods -n flink | grep jobmanager 3.2 调整资源需求 根据你的应用需求调整Pod的资源请求和限制,确保有足够的资源运行: yaml resources: requests: cpu: "4" memory: "8Gi" limits: cpu: "4" memory: "8Gi" 3.3 确保网络畅通 检查Kubernetes的网络策略,或者为Flink的Pod开启正确的网络模式,如hostNetwork: yaml spec: containers: - name: taskmanager networkMode: host 3.4 更新镜像 如果镜像有问题,可以尝试更新到最新版,或者从官方Docker Hub拉取: bash docker pull flink:latest 五、总结与后续实践 Flink on KubernetesPod无法启动的问题往往需要我们从多个角度去排查和解决。记住,耐心和细致是解决问题的关键。在遇到问题时,不要急于求成,一步步分析,找出问题的根源。同时呢,不断学习和掌握最新的顶尖操作方法,就能让你的Flink部署跑得更稳更快,效果杠杠的。 希望这篇文章能帮助你解决Flink on Kubernetes的启动问题,祝你在大数据处理的道路上越走越远!
2024-02-27 11:00:14
539
诗和远方-t
Flink
...如何在Apache Flink中定义一个数据源——Source。Flink,这个强大的流处理工具,可厉害了!它让我们能够随心所欲地定义各种数据源。比如说,文件系统里存的那些数据、数据库里躺着的各种记录,甚至是从网络上飞来飞去的信息,全都可以被咱们轻松纳入囊中,没有啥太大的限制! 二、什么是Source? 在Flink中,Source是一个用于产生数据并将其转换为适合流处理的形式的组件。它是一个特殊的Operator,其输入是0或多个其他Operators的输出,而其输出则是进一步处理的数据流。 三、如何在Flink中定义一个数据源? 定义一个Source非常简单,只需要遵循以下几个步骤: 第一步:选择你的数据源 首先,你需要确定你要从哪里获取数据。这完全可能是个文件夹、数据库什么的,也可能是网络呀,或者实时传感器这类玩意儿,反正只要是能提供数据的来源,都行! 第二步:创建Source类 接下来,你需要创建一个Source类来表示你的数据源。这个类需要继承自org.apache.flink.api.common.functions.SourceFunction接口,并实现run方法。 例如,如果你的数据源是从一个文件系统中读取的文本文件,你可以创建一个这样的Source类: java public class MySource implements SourceFunction { private boolean isRunning = true; @Override public void run(SourceContext ctx) throws Exception { File file = new File("/path/to/my/file.txt"); try (BufferedReader reader = new BufferedReader(new FileReader(file))) { String line; while ((line = reader.readLine()) != null && isRunning) { ctx.collect(line); } } } @Override public void cancel() { isRunning = false; } } 在这个例子中,我们的Source类MySource会从指定路径的文件中读取每一行并发送给下游的Operators进行处理。 第三步:注册Source到StreamGraph 最后,你需要将你的Source注册到一个StreamGraph中。你可以通过调用StreamExecutionEnvironment.addSource方法来完成这个操作。 例如: java StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); DataStream dataStream = env.addSource(new MySource()); 四、总结 以上就是我们在Flink中定义一个数据源的基本步骤。当然啦,实际情况可能还会复杂不少,比如说你可能得同时对付多个数据来源,或者先给数据做个“美容”(预处理)啥的。不过,只要你把基础的概念和技术都玩得溜溜的,这些挑战对你来说就都不是事儿,你可以灵活应对,轻松解决。 五、结语 我希望这篇文章能帮助你更好地理解和使用Flink中的Source。如果你有任何问题或者想要分享你的经验,欢迎留言讨论。让我们一起学习和进步! 六、附录 参考资料 1. Apache Flink官方文档 https://ci.apache.org/projects/flink/flink-docs-latest/ 2. Java 8 API文档 https://docs.oracle.com/javase/8/docs/api/ 3. Stream Processing with Flink: A Hands-on Guide by Kostas Tsichlas and Thomas Hotham (Packt Publishing, 2017).
2023-01-01 13:52:18
405
月影清风-t
Flink
Flink中的ResourceManager未启动问题详解:一次深入排查之旅 在大数据处理的世界里,Apache Flink作为一款强大的流处理和批处理框架,因其高效、灵活的特点广受开发者们的喜爱。然而,在实际操作和使用这套系统的过程中,我们免不了会碰到各种意想不到的小插曲,其中一个常见的状况就是这“ResourceManager竟然没启动”。这次,咱们要深入地“解剖”这个故障现象,就像侦探破案那样一步步揭开它的神秘面纱。我还会配上一些实实在在的代码例子,手把手地带你们摸清这个问题是怎么来的,以及怎么把它给妥妥地解决掉,让大家都能明明白白、清清楚楚地掌握整个过程。 1. ResourceManager的角色与重要性 首先,让我们简单了解一下Flink架构中的ResourceManager(RM)。在Flink这个大家庭里,ResourceManager就像个大管家,专门负责统筹和管理整个集群的资源。每当JobManager需要执行作业时,这位大管家就会出手相助,给它分配合适的TaskManager资源,确保作业能够顺利进行。如果ResourceManager还没启动的话,那就意味着你的整个Flink集群就像个没睡醒的巨人,无法正常地给各个任务分配资源、协调运行,这影响有多大,不用我多说,你肯定明白啦。 bash 在Flink集群模式下,启动ResourceManager的命令示例 ./bin/start-cluster.sh 2. ResourceManager未启动的表现及原因分析 2.1 表现症状 当你尝试提交一个Flink作业到集群时,如果收到类似"Could not retrieve the cluster configuration from the resource manager"的错误信息,那么很可能就是ResourceManager尚未启动或未能正确运行。 2.2 常见原因探讨 - 配置问题:检查flink-conf.yaml配置文件是否正确设置了ResourceManager相关的参数,如jobmanager.rpc.address和rest.address等。这些设置直接影响了客户端如何连接到ResourceManager。 yaml flink-conf.yaml示例 jobmanager.rpc.address: localhost rest.address: 0.0.0.0 - 服务未启动:确保已经执行了启动ResourceManager的命令,且没有因为环境变量、端口冲突等原因导致服务启动失败。 - 网络问题:检查Flink集群各组件间的网络连通性,尤其是ResourceManager与JobManager之间的通信是否畅通。 - 资源不足:ResourceManager可能由于系统资源不足(例如内存不足)而无法启动,需要关注日志中是否存在相关异常信息。 3. 解决思路与实践 3.1 检查并修正配置 针对配置问题,我们需要对照官方文档仔细核对配置项,确保所有涉及ResourceManager的配置都正确无误。可以通过修改flink-conf.yaml后重新启动集群来验证。 3.2 查看日志定位问题 查看ResourceManager的日志文件,通常位于log/flink-rm-$hostname.log,从中可以获取到更多关于ResourceManager启动失败的具体原因。 3.3 确保服务正常启动 对于服务未启动的情况,手动执行启动命令并观察输出,确认ResourceManager是否成功启动。如果遇到启动失败的情况,那就得像解谜一样,根据日志给的线索来进行操作。比如,可能需要你换个端口试试,或者解决那些让人头疼的依赖冲突问题,就像玩拼图游戏时找到并填补缺失的那一块一样。 bash 查看ResourceManager是否已启动 jps 应看到有FlinkResourceManager进程存在 3.4 排查网络与资源状况 检查主机间网络通信,使用ping或telnet工具测试必要的端口连通性。同时呢,记得瞅瞅咱们系统的资源占用情况咋样哈,如果发现不太够使了,就得考虑给ResourceManager分派更多的资源啦。 4. 结语 在探索和解决Flink中ResourceManager未启动的问题过程中,我们需要具备扎实的理论基础、敏锐的问题洞察力以及细致入微的调试技巧。每一次解决问题的经历都是对技术深度和广度的一次提升。记住啊,甭管遇到啥技术难题,最重要的是得有耐心,保持冷静,像咱们正常人一样去思考、去交流。这才是我们最终能够破解问题,找到解决方案的“秘籍”所在!希望这篇内容能实实在在帮到你,让你对Flink中的ResourceManager未启动问题有个透彻的了解,轻松解决它,让咱的大数据处理之路走得更顺溜些。
2023-12-23 22:17:56
758
百转千回
转载文章
...tub//好处:1、checkpoint 2、工厂final SparkConf conf = new SparkConf().setAppName("SparkStreamingOnKafkaDirect").setMaster("hdfs://Master:7077/");final String checkpointDirectory = "hdfs://Master:9000/library/SparkStreaming/CheckPoint_Data";JavaStreamingContextFactory factory = new JavaStreamingContextFactory() {public JavaStreamingContext create() {// TODO Auto-generated method stubreturn createContext(checkpointDirectory, conf);} };/ 可以从失败中恢复Driver,不过还需要指定Driver这个进程运行在Cluster,并且在提交应用程序的时候制定--supervise;/JavaStreamingContext javassc = JavaStreamingContext.getOrCreate(checkpointDirectory, factory);/ 第三步:创建Spark Streaming输入数据来源input Stream: 1、数据输入来源可以基于File、HDFS、Flume、Kafka、Socket等 2、在这里我们指定数据来源于网络Socket端口,Spark Streaming连接上该端口并在运行的时候一直监听该端口的数据 (当然该端口服务首先必须存在),并且在后续会根据业务需要不断有数据产生(当然对于Spark Streaming 应用程序的运行而言,有无数据其处理流程都是一样的) 3、如果经常在每间隔5秒钟没有数据的话不断启动空的Job其实会造成调度资源的浪费,因为并没有数据需要发生计算;所以 实际的企业级生成环境的代码在具体提交Job前会判断是否有数据,如果没有的话就不再提交Job;///创建Kafka元数据来让Spark Streaming这个Kafka Consumer利用Map<String, String> kafkaParameters = new HashMap<String, String>();kafkaParameters.put("metadata.broker.list", "Master:9092,Worker1:9092,Worker2:9092");Set<String> topics = new HashSet<String>();topics.add("SparkStreamingDirected");JavaPairInputDStream<String, String> adClickedStreaming = KafkaUtils.createDirectStream(javassc, String.class, String.class, StringDecoder.class, StringDecoder.class,kafkaParameters, topics);/因为要对黑名单进行过滤,而数据是在RDD中的,所以必然使用transform这个函数; 但是在这里我们必须使用transformToPair,原因是读取进来的Kafka的数据是Pair<String,String>类型, 另一个原因是过滤后的数据要进行进一步处理,所以必须是读进的Kafka数据的原始类型 在此再次说明,每个Batch Duration中实际上讲输入的数据就是被一个且仅被一个RDD封装的,你可以有多个 InputDStream,但其实在产生job的时候,这些不同的InputDStream在Batch Duration中就相当于Spark基于HDFS 数据操作的不同文件来源而已罢了。/JavaPairDStream<String, String> filteredadClickedStreaming = adClickedStreaming.transformToPair(new Function<JavaPairRDD<String,String>, JavaPairRDD<String,String>>() {public JavaPairRDD<String, String> call(JavaPairRDD<String, String> rdd) throws Exception {/ 在线黑名单过滤思路步骤: 1、从数据库中获取黑名单转换成RDD,即新的RDD实例封装黑名单数据; 2、然后把代表黑名单的RDD的实例和Batch Duration产生的RDD进行Join操作, 准确的说是进行leftOuterJoin操作,也就是说使用Batch Duration产生的RDD和代表黑名单的RDD实例进行 leftOuterJoin操作,如果两者都有内容的话,就会是true,否则的话就是false 我们要留下的是leftOuterJoin结果为false; /final List<String> blackListNames = new ArrayList<String>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doQuery("SELECT FROM blacklisttable", null, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {while(result.next()){blackListNames.add(result.getString(1));} }});List<Tuple2<String, Boolean>> blackListTuple = new ArrayList<Tuple2<String,Boolean>>();for(String name : blackListNames) {blackListTuple.add(new Tuple2<String, Boolean>(name, true));}List<Tuple2<String, Boolean>> blacklistFromListDB = blackListTuple; //数据来自于查询的黑名单表并且映射成为<String, Boolean>JavaSparkContext jsc = new JavaSparkContext(rdd.context());/ 黑名单的表中只有userID,但是如果要进行join操作的话就必须是Key-Value,所以在这里我们需要 基于数据表中的数据产生Key-Value类型的数据集合/JavaPairRDD<String, Boolean> blackListRDD = jsc.parallelizePairs(blacklistFromListDB);/ 进行操作的时候肯定是基于userID进行join,所以必须把传入的rdd进行mapToPair操作转化成为符合格式的RDD/JavaPairRDD<String, Tuple2<String, String>> rdd2Pair = rdd.mapToPair(new PairFunction<Tuple2<String,String>, String, Tuple2<String, String>>() {public Tuple2<String, Tuple2<String, String>> call(Tuple2<String, String> t) throws Exception {// TODO Auto-generated method stubString userID = t._2.split("\t")[2];return new Tuple2<String, Tuple2<String,String>>(userID, t);} });JavaPairRDD<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> joined = rdd2Pair.leftOuterJoin(blackListRDD);JavaPairRDD<String, String> result = joined.filter(new Function<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, Boolean>() {public Boolean call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> tuple)throws Exception {// TODO Auto-generated method stubOptional<Boolean> optional = tuple._2._2;if(optional.isPresent() && optional.get()){return false;} else {return true;} }}).mapToPair(new PairFunction<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, String, String>() {public Tuple2<String, String> call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> t)throws Exception {// TODO Auto-generated method stubreturn t._2._1;} });return result;} });//广告点击的基本数据格式:timestamp、ip、userID、adID、province、cityJavaPairDStream<String, Long> pairs = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t) throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} });/ 第4.3步:在单词实例计数为1基础上,统计每个单词在文件中出现的总次数/JavaPairDStream<String, Long> adClickedUsers= pairs.reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long i1, Long i2) throws Exception{return i1 + i2;} });/判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤 简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。/JavaPairDStream<String, Long> filterClickedBatch = adClickedUsers.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {if (1 < v1._2){//更新一些黑名单的数据库表return false;} else { return true;} }});//filterClickedBatch.print();//写入数据库filterClickedBatch.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records,使用insertBatch 或 updateBatch//插入的用户数据信息:userID,adID,clickedCount,time//这里面有一个问题,可能出现两条记录的key是一样的,此时需要更新累加操作List<UserAdClicked> userAdClickedList = new ArrayList<UserAdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");UserAdClicked userClicked = new UserAdClicked();userClicked.setTimestamp(splited[0]);userClicked.setIp(splited[1]);userClicked.setUserID(splited[2]);userClicked.setAdID(splited[3]);userClicked.setProvince(splited[4]);userClicked.setCity(splited[5]);userAdClickedList.add(userClicked);}final List<UserAdClicked> inserting = new ArrayList<UserAdClicked>();final List<UserAdClicked> updating = new ArrayList<UserAdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final UserAdClicked clicked : userAdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclicked WHERE"+ " timestamp =? AND userID = ? AND adID = ?",new Object[]{clicked.getTimestamp(), clicked.getUserID(),clicked.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(UserAdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getIp(),insertRecord.getUserID(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclicked VALUES(?, ?, ?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(UserAdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getTimestamp(),updateRecord.getIp(),updateRecord.getUserID(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity(),updateRecord.getClickedCount() + 1});}jdbcWrapper.doBatch("UPDATE adclicked SET clickedCount = ? WHERE"+ " timestamp =? AND ip = ? AND userID = ? AND adID = ? "+ "AND province = ? AND city = ?", updateParametersList);} });return null;} });//再次过滤,从数据库中读取数据过滤黑名单JavaPairDStream<String, Long> blackListBasedOnHistory = filterClickedBatch.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {//广告点击的基本数据格式:timestamp,ip,userID,adID,province,cityString[] splited = v1._1.split("\t"); //提取key值String date =splited[0];String userID =splited[2];String adID =splited[3];//查询一下数据库同一个用户同一个广告id点击量超过50次列入黑名单//接下来 根据date、userID、adID条件去查询用户点击广告的数据表,获得总的点击次数//这个时候基于点击次数判断是否属于黑名单点击int clickedCountTotalToday = 81 ;if (clickedCountTotalToday > 50) {return true;}else {return false ;} }});//map操作,找出用户的idJavaDStream<String> blackListuserIDBasedInBatchOnhistroy =blackListBasedOnHistory.map(new Function<Tuple2<String,Long>, String>() {public String call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubreturn v1._1.split("\t")[2];} });//有一个问题,数据可能重复,在一个partition里面重复,这个好办;//但多个partition不能保证一个用户重复,需要对黑名单的整个rdd进行去重操作。//rdd去重了,partition也就去重了,一石二鸟,一箭双雕// 找出了黑名单,下一步就写入黑名单数据库表中JavaDStream<String> blackListUniqueuserBasedInBatchOnhistroy = blackListuserIDBasedInBatchOnhistroy.transform(new Function<JavaRDD<String>, JavaRDD<String>>() {public JavaRDD<String> call(JavaRDD<String> rdd) throws Exception {// TODO Auto-generated method stubreturn rdd.distinct();} });// 下一步写入到数据表中blackListUniqueuserBasedInBatchOnhistroy.foreachRDD(new Function<JavaRDD<String>, Void>() {public Void call(JavaRDD<String> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<String>>() {public void call(Iterator<String> t) throws Exception {// TODO Auto-generated method stub//插入的用户信息可以只包含:useID//此时直接插入黑名单数据表即可。//写入数据库List<Object[]> blackList = new ArrayList<Object[]>();while(t.hasNext()) {blackList.add(new Object[]{t.next()});}JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doBatch("INSERT INTO blacklisttable values (?)", blackList);} });return null;} });/广告点击累计动态更新,每个updateStateByKey都会在Batch Duration的时间间隔的基础上进行广告点击次数的更新, 更新之后我们一般都会持久化到外部存储设备上,在这里我们存储到MySQL数据库中/JavaPairDStream<String, Long> updateStateByKeyDSteam = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} }).updateStateByKey(new Function2<List<Long>, Optional<Long>, Optional<Long>>() {public Optional<Long> call(List<Long> v1, Optional<Long> v2)throws Exception {// v1:当前的Key在当前的Batch Duration中出现的次数的集合,例如{1,1,1,。。。,1}// v2:当前的Key在以前的Batch Duration中积累下来的结果;Long clickedTotalHistory = 0L; if(v2.isPresent()){clickedTotalHistory = v2.get();}for(Long one : v1) {clickedTotalHistory += one;}return Optional.of(clickedTotalHistory);} });updateStateByKeyDSteam.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records,使用insertBatch 或 updateBatch//插入的用户数据信息:timestamp、adID、province、city//这里面有一个问题,可能出现两条记录的key是一样的,此时需要更新累加操作List<AdClicked> AdClickedList = new ArrayList<AdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");AdClicked adClicked = new AdClicked();adClicked.setTimestamp(splited[0]);adClicked.setAdID(splited[1]);adClicked.setProvince(splited[2]);adClicked.setCity(splited[3]);adClicked.setClickedCount(record._2);AdClickedList.add(adClicked);}final List<AdClicked> inserting = new ArrayList<AdClicked>();final List<AdClicked> updating = new ArrayList<AdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdClicked clicked : AdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedcount WHERE"+ " timestamp = ? AND adID = ? AND province = ? AND city = ?",new Object[]{clicked.getTimestamp(), clicked.getAdID(),clicked.getProvince(), clicked.getCity()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedcount VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.getTimestamp(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity()});}jdbcWrapper.doBatch("UPDATE adclickedcount SET clickedCount = ? WHERE"+ " timestamp =? AND adID = ? AND province = ? AND city = ?", updateParametersList);} });return null;} });/ 对广告点击进行TopN计算,计算出每天每个省份Top5排名的广告 因为我们直接对RDD进行操作,所以使用了transfomr算子;/updateStateByKeyDSteam.transform(new Function<JavaPairRDD<String,Long>, JavaRDD<Row>>() {public JavaRDD<Row> call(JavaPairRDD<String, Long> rdd) throws Exception {JavaRDD<Row> rowRDD = rdd.mapToPair(new PairFunction<Tuple2<String,Long>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, Long> t)throws Exception {// TODO Auto-generated method stubString[] splited=t._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];String clickedRecord = timestamp + "_" + adID + "_" + province;return new Tuple2<String, Long>(clickedRecord, t._2);} }).reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }).map(new Function<Tuple2<String,Long>, Row>() {public Row call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubString[] splited=v1._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];return RowFactory.create(timestamp, adID, province, v1._2);} });StructType structType = DataTypes.createStructType(Arrays.asList(DataTypes.createStructField("timestamp", DataTypes.StringType, true),DataTypes.createStructField("adID", DataTypes.StringType, true),DataTypes.createStructField("province", DataTypes.StringType, true),DataTypes.createStructField("clickedCount", DataTypes.LongType, true)));HiveContext hiveContext = new HiveContext(rdd.context());DataFrame df = hiveContext.createDataFrame(rowRDD, structType);df.registerTempTable("topNTableSource");DataFrame result = hiveContext.sql("SELECT timestamp, adID, province, clickedCount, FROM"+ " (SELECT timestamp, adID, province,clickedCount, "+ "ROW_NUMBER() OVER(PARTITION BY province ORDER BY clickeCount DESC) rank "+ "FROM topNTableSource) subquery "+ "WHERE rank <= 5");return result.toJavaRDD();} }).foreachRDD(new Function<JavaRDD<Row>, Void>() {public Void call(JavaRDD<Row> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Row>>() {public void call(Iterator<Row> t) throws Exception {// TODO Auto-generated method stubList<AdProvinceTopN> adProvinceTopN = new ArrayList<AdProvinceTopN>();while(t.hasNext()) {Row row = t.next();AdProvinceTopN item = new AdProvinceTopN();item.setTimestamp(row.getString(0));item.setAdID(row.getString(1));item.setProvince(row.getString(2));item.setClickedCount(row.getLong(3));adProvinceTopN.add(item);}// final List<AdProvinceTopN> inserting = new ArrayList<AdProvinceTopN>();// final List<AdProvinceTopN> updating = new ArrayList<AdProvinceTopN>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();Set<String> set = new HashSet<String>();for(AdProvinceTopN item: adProvinceTopN){set.add(item.getTimestamp() + "_" + item.getProvince());}//表的字段timestamp、adID、province、clickedCountArrayList<Object[]> deleteParametersList = new ArrayList<Object[]>();for(String deleteRecord : set) {String[] splited = deleteRecord.split("_");deleteParametersList.add(new Object[]{splited[0],splited[1]});}jdbcWrapper.doBatch("DELETE FROM adprovincetopn WHERE timestamp = ? AND province = ?", deleteParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdProvinceTopN insertRecord : adProvinceTopN) {insertParametersList.add(new Object[] {insertRecord.getClickedCount(),insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince()});}jdbcWrapper.doBatch("INSERT INTO adprovincetopn VALUES (?, ?, ?, ?)", insertParametersList);} });return null;} });/ 计算过去半个小时内广告点击的趋势 广告点击的基本数据格式:timestamp、ip、userID、adID、province、city/filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String splited[] = t._2.split("\t");String adID = splited[3];String time = splited[0]; //Todo:后续需要重构代码实现时间戳和分钟的转换提取。此处需要提取出该广告的点击分钟单位return new Tuple2<String, Long>(time + "_" + adID, 1L);} }).reduceByKeyAndWindow(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }, new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 - v2;} }, Durations.minutes(30), Durations.milliseconds(5)).foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition)throws Exception {List<AdTrendStat> adTrend = new ArrayList<AdTrendStat>();// TODO Auto-generated method stubwhile(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("_");String time = splited[0];String adID = splited[1];Long clickedCount = record._2;/ 在插入数据到数据库的时候具体需要哪些字段?time、adID、clickedCount; 而我们通过J2EE技术进行趋势绘图的时候肯定是需要年、月、日、时、分这个维度的,所以我们在这里需要 年月日、小时、分钟这些时间维度;/AdTrendStat adTrendStat = new AdTrendStat();adTrendStat.setAdID(adID);adTrendStat.setClickedCount(clickedCount);adTrendStat.set_date(time); //Todo:获取年月日adTrendStat.set_hour(time); //Todo:获取小时adTrendStat.set_minute(time);//Todo:获取分钟adTrend.add(adTrendStat);}final List<AdTrendStat> inserting = new ArrayList<AdTrendStat>();final List<AdTrendStat> updating = new ArrayList<AdTrendStat>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdTrendStat trend : adTrend) {final AdTrendCountHistory adTrendhistory = new AdTrendCountHistory();jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedtrend WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?",new Object[]{trend.get_date(), trend.get_hour(), trend.get_minute(),trend.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);adTrendhistory.setClickedCountHistoryLong(count);updating.add(trend);} else { inserting.add(trend);} }});}//表的字段date、hour、minute、adID、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdTrendStat insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.get_date(),insertRecord.get_hour(),insertRecord.get_minute(),insertRecord.getAdID(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedtrend VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段date、hour、minute、adID、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdTrendStat updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.get_date(),updateRecord.get_hour(),updateRecord.get_minute(),updateRecord.getAdID()});}jdbcWrapper.doBatch("UPDATE adclickedtrend SET clickedCount = ? WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?", updateParametersList);} });return null;} });;/ Spark Streaming 执行引擎也就是Driver开始运行,Driver启动的时候是位于一条新的线程中的,当然其内部有消息循环体,用于 接收应用程序本身或者Executor中的消息,/javassc.start();javassc.awaitTermination();javassc.close();}private static JavaStreamingContext createContext(String checkpointDirectory, SparkConf conf) {// If you do not see this printed, that means the StreamingContext has been loaded// from the new checkpointSystem.out.println("Creating new context");// Create the context with a 5 second batch sizeJavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.seconds(10));ssc.checkpoint(checkpointDirectory);return ssc;} }class JDBCWrapper {private static JDBCWrapper jdbcInstance = null;private static LinkedBlockingQueue<Connection> dbConnectionPool = new LinkedBlockingQueue<Connection>();static {try {Class.forName("com.mysql.jdbc.Driver");} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();} }public static JDBCWrapper getJDBCInstance() {if(jdbcInstance == null) {synchronized (JDBCWrapper.class) {if(jdbcInstance == null) {jdbcInstance = new JDBCWrapper();} }}return jdbcInstance; }private JDBCWrapper() {for(int i = 0; i < 10; i++){try {Connection conn = DriverManager.getConnection("jdbc:mysql://Master:3306/sparkstreaming","root", "root");dbConnectionPool.put(conn);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } }public synchronized Connection getConnection() {while(0 == dbConnectionPool.size()){try {Thread.sleep(20);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }return dbConnectionPool.poll();}public int[] doBatch(String sqlText, List<Object[]> paramsList){Connection conn = getConnection();PreparedStatement preparedStatement = null;int[] result = null;try {conn.setAutoCommit(false);preparedStatement = conn.prepareStatement(sqlText);for(Object[] parameters: paramsList) {for(int i = 0; i < parameters.length; i++){preparedStatement.setObject(i + 1, parameters[i]);} preparedStatement.addBatch();}result = preparedStatement.executeBatch();conn.commit();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }}return result; }public void doQuery(String sqlText, Object[] paramsList, ExecuteCallBack callback){Connection conn = getConnection();PreparedStatement preparedStatement = null;ResultSet result = null;try {preparedStatement = conn.prepareStatement(sqlText);for(int i = 0; i < paramsList.length; i++){preparedStatement.setObject(i + 1, paramsList[i]);} result = preparedStatement.executeQuery();try {callback.resultCallBack(result);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }}interface ExecuteCallBack {void resultCallBack(ResultSet result) throws Exception;}class UserAdClicked {private String timestamp;private String ip;private String userID;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getIp() {return ip;}public void setIp(String ip) {this.ip = ip;}public String getUserID() {return userID;}public void setUserID(String userID) {this.userID = userID;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdClicked {private String timestamp;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdProvinceTopN {private String timestamp;private String adID;private String province;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendStat {private String _date;private String _hour;private String _minute;private String adID;private Long clickedCount;public String get_date() {return _date;}public void set_date(String _date) {this._date = _date;}public String get_hour() {return _hour;}public void set_hour(String _hour) {this._hour = _hour;}public String get_minute() {return _minute;}public void set_minute(String _minute) {this._minute = _minute;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendCountHistory{private Long clickedCountHistoryLong;public Long getClickedCountHistoryLong() {return clickedCountHistoryLong;}public void setClickedCountHistoryLong(Long clickedCountHistoryLong) {this.clickedCountHistoryLong = clickedCountHistoryLong;} } 本篇文章为转载内容。原文链接:https://blog.csdn.net/tom_8899_li/article/details/71194434。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-02-14 19:16:35
297
转载
建站模板下载
...友参与,同时设有奖励机制,吸引更多新用户。通过此模板,用户可以直观查看邀请进度与奖励详情,并能方便地邀请更多好友,实现社交传播与用户增长的双重效果。 点我下载 文件大小:607.44 KB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-06-20 11:36:11
76
本站
建站模板下载
...能,并集成验证码安全机制,确保系统安全性。同时,它以单页模板形式展现,兼顾了操作便利性与界面一致性,适用于各类后台管理系统的登陆界面需求。 点我下载 文件大小:518.85 KB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-04-01 09:52:49
40
本站
建站模板下载
...,且已集成SEO优化机制,助力企业在搜索引擎中获得更高排名,是打造汽车行业专业级线上形象的理想之选。 点我下载 文件大小:1.67 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-08-07 16:23:32
54
本站
建站模板下载
...为空调设备、恒温恒湿机制造企业设计的高品质Web界面解决方案。模板采用自适应布局,完美兼容各类屏幕尺寸,确保用户在手机、平板及桌面端都能获得流畅浏览体验。它集成了丰富的展示功能和交互元素,适用于推广与销售恒温恒湿环境控制设备及加湿器等产品,提供专业的产品详情、案例介绍及在线询价等模块,助力企业提升品牌形象与网络营销效果。用户可便捷下载并快速搭建具备专业水准的环境设备类网站前端页面。 点我下载 文件大小:12.03 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-07-23 19:34:21
116
本站
JQuery插件下载
...的布局结构与动画转换机制确保了无论是在桌面还是移动设备上,都能实现自适应且富有冲击力的视觉表现,是构建响应式图像画廊、作品集展示或商品陈列网站的理想工具。 点我下载 文件大小:1.19 MB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-12-29 17:23:14
105
本站
JQuery插件下载
...建出幻灯片效果。这种机制赋予开发者充分的灵活性,可以根据项目需求完全自定义CSS样式,轻松调整动画过渡、布局以及交互行为,无需依赖任何第三方库如jQuery,即可打造独具特色的幻灯片组件。总的来说,Wallop插件凭借其小巧体积、移动适应性和高度可定制性,成为开发移动端友好型网站时一个理想的幻灯片解决方案。 点我下载 文件大小:574.06 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-07-31 14:00:19
81
本站
JQuery插件下载
...页端实现复杂表情输入机制的过程,让网站和应用能够紧跟社交潮流,提升用户的互动参与度和情感表达能力。 点我下载 文件大小:3.22 MB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-01-06 13:47:51
67
本站
JQuery插件下载
...的动画过渡和智能定位机制,极大地优化了网页导航栏的表现形式,成为众多开发者构建现代化、用户友好型网站的得力工具之一。 点我下载 文件大小:267.76 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-03-27 13:14:17
134
本站
JQuery插件下载
...于其创新的缩略图联动机制,用户可通过点击下方的小尺寸缩略图来快速切换主图内容,直观便捷地在多张图片间自由跳转。此外,插件还支持缩略图预览模式,用户可以一览所有图片概览,然后选择感兴趣的图片放大展示,极大地提升了用户体验与交互效率。总之,这款“纯js带缩略图的图片图集幻灯片特效”插件,凭借其实现简洁、功能全面、兼容性强等特点,为网站及应用程序中的图片展示赋予了更多可能,是网页设计师和开发者构建专业级图像画廊的理想工具。 点我下载 文件大小:1.10 MB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-02-15 12:31:22
69
本站
JQuery插件下载
...件还集成了基本的验证机制,确保用户输入的标签符合预期规范,有效避免无效或重复数据的录入。其响应式设计使得该插件能够在不同尺寸的屏幕和设备上完美展现,无论是桌面端还是移动端,都能提供一致且流畅的操作体验。总之,这个插件凭借其实用、智能化的特点以及对现代Web开发需求的良好适应性,成为开发者优化网站表单元素,实现用户友好型标签管理系统的理想工具。 点我下载 文件大小:49.08 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-02-20 10:35:27
83
本站
JQuery插件下载
...效果。通过智能的回退机制,当遇到不支持CSS3的浏览器时,如IE6,jQueryRotate.js会利用Canvas或VML技术来渲染旋转的图片,保证了在各种旧版浏览器中的良好显示。用户无需担心不同浏览器之间的兼容性问题,只需几行简单的代码,就能轻松实现图片以任意角度的动态旋转,增强了网站的视觉吸引力和用户体验。这款插件的优势在于其轻量级设计,易于集成到项目中,同时代码结构清晰,使得维护和定制变得相当方便。无论是用于网站的头像旋转、产品展示还是其他需要图片旋转的应用场景,jQueryRotate.js都是一个可靠的选择。总的来说,它是一款实用且现代与古老浏览器兼顾的图片旋转解决方案。 点我下载 文件大小:65.02 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-04-11 15:08:53
287
本站
JQuery插件下载
...台算法验证。这种验证机制有效防止了恶意的自动化脚本攻击,提高了网站的安全性和用户账号的安全保护级别。此外,该插件具有良好的兼容性和易用性,开发者可以根据需求快速集成到项目中,实现平滑的跨平台适配效果,确保无论用户处于何种设备环境下,都能获得流畅且安全的验证体验。 点我下载 文件大小:86.92 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-12-27 08:30:10
42
本站
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
chmod u+x,g-w,o-r file
- 修改文件权限为:用户可执行、组无写入、其他无读取。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"