....json(rdd.map(_.value())) // 进一步处理数据... } // 开始处理流数据 ssc.start() ssc.awaitTermination() 4.2 利用DataFrame API简化数据处理 Spark的DataFrame API提供了一种结构化的方式来处理数据，使得我们可以更容易地编写复杂的查询。下面是一个使用DataFrame API处理数据的例子： scala // 假设我们已经有了一个DataFrame df import spark.implicits._ // 添加一个新的列 val enrichedDF = df.withColumn("timestamp", current_timestamp()) // 保存处理后的数据 enrichedDF.write.mode("append").json("hdfs://path/to/enriched_data") 4.3 弹性分布式数据集（RDD）的优势 Spark的核心概念之一就是RDD。RDD是一种不可变的、分区的数据集合，支持并行操作。这对于处理物联网设备产生的数据特别有用。下面是一个使用RDD的例子： scala // 创建一个简单的RDD val dataRDD = spark.sparkContext.parallelize(Seq(1, 2, 3, 4, 5)) // 对RDD进行映射操作 val mappedRDD = dataRDD.map(x => x 2) // 收集结果 val result = mappedRDD.collect() println(result.mkString(", ")) 4.4 容错机制 Spark的容错机制是其一大亮点。它通过RDD的血统信息（即RDD的操作历史）来重新计算丢失的数据。这就让Spark在处理像物联网设备这样的网络环境不稳定的情况时特别给力。 5. 结论通过上述讨论，我们可以看到Spark确实是一个强大的工具，可以帮助我们有效地处理物联网设备产生的海量数据。虽说在实际操作中可能会碰到些难题，但只要我们好好设计和优化一下，Spark绝对能搞定这个活儿。希望这篇文章对你有所帮助，也欢迎你在实践中继续探索和分享你的经验！

2025-01-06 16:12:37

灵动之光

转载文章

[转载]大数据IMF传奇行动绝密课程第104-114课：Spark Streaming电商广告点击综合案例

...ateByKey或者mapWithState进行不同地区广告点击排名的计算； Spark Streaming+Spark SQL+Spark Core等综合分析数据；使用Window类型的操作；高可用和性能调优等等；流量趋势，一般会结合DB等； Spark Core / /package com.tom.spark.SparkApps.sparkstreaming;import java.util.Date;import java.util.HashMap;import java.util.Map;import java.util.Properties;import java.util.Random;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;/ 数据生成代码，Kafka Producer产生数据/public class MockAdClickedStat {/ @param args/public static void main(String[] args) {final Random random = new Random();final String[] provinces = new String[]{"Guangdong", "Zhejiang", "Jiangsu", "Fujian"};final Map<String, String[]> cities = new HashMap<String, String[]>();cities.put("Guangdong", new String[]{"Guangzhou", "Shenzhen", "Dongguan"});cities.put("Zhejiang", new String[]{"Hangzhou", "Wenzhou", "Ningbo"});cities.put("Jiangsu", new String[]{"Nanjing", "Suzhou", "Wuxi"});cities.put("Fujian", new String[]{"Fuzhou", "Xiamen", "Sanming"});final String[] ips = new String[] {"192.168.112.240","192.168.112.239","192.168.112.245","192.168.112.246","192.168.112.247","192.168.112.248","192.168.112.249","192.168.112.250","192.168.112.251","192.168.112.252","192.168.112.253","192.168.112.254",};/ Kafka相关的基本配置信息/Properties kafkaConf = new Properties();kafkaConf.put("serializer.class", "kafka.serializer.StringEncoder");kafkaConf.put("metadeta.broker.list", "Master:9092,Worker1:9092,Worker2:9092");ProducerConfig producerConfig = new ProducerConfig(kafkaConf);final Producer<Integer, String> producer = new Producer<Integer, String>(producerConfig);new Thread(new Runnable() {public void run() {while(true) {//在线处理广告点击流的基本数据格式：timestamp、ip、userID、adID、province、cityLong timestamp = new Date().getTime();String ip = ips[random.nextInt(12)]; //可以采用网络上免费提供的ip库int userID = random.nextInt(10000);int adID = random.nextInt(100);String province = provinces[random.nextInt(4)];String city = cities.get(province)[random.nextInt(3)];String clickedAd = timestamp + "\t" + ip + "\t" + userID + "\t" + adID + "\t" + province + "\t" + city;producer.send(new KeyedMessage<Integer, String>("AdClicked", clickedAd));try {Thread.sleep(50);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }).start();} } package com.tom.spark.SparkApps.sparkstreaming;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.List;import java.util.Map;import java.util.Set;import java.util.concurrent.LinkedBlockingQueue;import kafka.serializer.StringDecoder;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.function.PairFunction;import org.apache.spark.api.java.function.VoidFunction;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.hive.HiveContext;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.StructType;import org.apache.spark.streaming.Durations;import org.apache.spark.streaming.api.java.JavaDStream;import org.apache.spark.streaming.api.java.JavaPairDStream;import org.apache.spark.streaming.api.java.JavaPairInputDStream;import org.apache.spark.streaming.api.java.JavaStreamingContext;import org.apache.spark.streaming.api.java.JavaStreamingContextFactory;import org.apache.spark.streaming.kafka.KafkaUtils;import com.google.common.base.Optional;import scala.Tuple2;/ 数据处理，Kafka消费者/public class AdClickedStreamingStats {/ @param args/public static void main(String[] args) {// TODO Auto-generated method stub//好处：1、checkpoint 2、工厂final SparkConf conf = new SparkConf().setAppName("SparkStreamingOnKafkaDirect").setMaster("hdfs://Master:7077/");final String checkpointDirectory = "hdfs://Master:9000/library/SparkStreaming/CheckPoint_Data";JavaStreamingContextFactory factory = new JavaStreamingContextFactory() {public JavaStreamingContext create() {// TODO Auto-generated method stubreturn createContext(checkpointDirectory, conf);} };/ 可以从失败中恢复Driver，不过还需要指定Driver这个进程运行在Cluster，并且在提交应用程序的时候制定--supervise;/JavaStreamingContext javassc = JavaStreamingContext.getOrCreate(checkpointDirectory, factory);/ 第三步：创建Spark Streaming输入数据来源input Stream: 1、数据输入来源可以基于File、HDFS、Flume、Kafka、Socket等 2、在这里我们指定数据来源于网络Socket端口，Spark Streaming连接上该端口并在运行的时候一直监听该端口的数据 (当然该端口服务首先必须存在），并且在后续会根据业务需要不断有数据产生（当然对于Spark Streaming 应用程序的运行而言，有无数据其处理流程都是一样的） 3、如果经常在每间隔5秒钟没有数据的话不断启动空的Job其实会造成调度资源的浪费，因为并没有数据需要发生计算；所以实际的企业级生成环境的代码在具体提交Job前会判断是否有数据，如果没有的话就不再提交Job；///创建Kafka元数据来让Spark Streaming这个Kafka Consumer利用Map<String, String> kafkaParameters = new HashMap<String, String>();kafkaParameters.put("metadata.broker.list", "Master:9092,Worker1:9092,Worker2:9092");Set<String> topics = new HashSet<String>();topics.add("SparkStreamingDirected");JavaPairInputDStream<String, String> adClickedStreaming = KafkaUtils.createDirectStream(javassc, String.class, String.class, StringDecoder.class, StringDecoder.class,kafkaParameters, topics);/因为要对黑名单进行过滤，而数据是在RDD中的，所以必然使用transform这个函数；但是在这里我们必须使用transformToPair，原因是读取进来的Kafka的数据是Pair<String,String>类型, 另一个原因是过滤后的数据要进行进一步处理，所以必须是读进的Kafka数据的原始类型在此再次说明，每个Batch Duration中实际上讲输入的数据就是被一个且仅被一个RDD封装的，你可以有多个 InputDStream，但其实在产生job的时候，这些不同的InputDStream在Batch Duration中就相当于Spark基于HDFS 数据操作的不同文件来源而已罢了。/JavaPairDStream<String, String> filteredadClickedStreaming = adClickedStreaming.transformToPair(new Function<JavaPairRDD<String,String>, JavaPairRDD<String,String>>() {public JavaPairRDD<String, String> call(JavaPairRDD<String, String> rdd) throws Exception {/ 在线黑名单过滤思路步骤： 1、从数据库中获取黑名单转换成RDD，即新的RDD实例封装黑名单数据； 2、然后把代表黑名单的RDD的实例和Batch Duration产生的RDD进行Join操作，准确的说是进行leftOuterJoin操作，也就是说使用Batch Duration产生的RDD和代表黑名单的RDD实例进行 leftOuterJoin操作，如果两者都有内容的话，就会是true，否则的话就是false 我们要留下的是leftOuterJoin结果为false； /final List<String> blackListNames = new ArrayList<String>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doQuery("SELECT FROM blacklisttable", null, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {while(result.next()){blackListNames.add(result.getString(1));} }});List<Tuple2<String, Boolean>> blackListTuple = new ArrayList<Tuple2<String,Boolean>>();for(String name : blackListNames) {blackListTuple.add(new Tuple2<String, Boolean>(name, true));}List<Tuple2<String, Boolean>> blacklistFromListDB = blackListTuple; //数据来自于查询的黑名单表并且映射成为<String, Boolean>JavaSparkContext jsc = new JavaSparkContext(rdd.context());/ 黑名单的表中只有userID，但是如果要进行join操作的话就必须是Key-Value，所以在这里我们需要基于数据表中的数据产生Key-Value类型的数据集合/JavaPairRDD<String, Boolean> blackListRDD = jsc.parallelizePairs(blacklistFromListDB);/ 进行操作的时候肯定是基于userID进行join，所以必须把传入的rdd进行mapToPair操作转化成为符合格式的RDD/JavaPairRDD<String, Tuple2<String, String>> rdd2Pair = rdd.mapToPair(new PairFunction<Tuple2<String,String>, String, Tuple2<String, String>>() {public Tuple2<String, Tuple2<String, String>> call(Tuple2<String, String> t) throws Exception {// TODO Auto-generated method stubString userID = t._2.split("\t")[2];return new Tuple2<String, Tuple2<String,String>>(userID, t);} });JavaPairRDD<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> joined = rdd2Pair.leftOuterJoin(blackListRDD);JavaPairRDD<String, String> result = joined.filter(new Function<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, Boolean>() {public Boolean call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> tuple)throws Exception {// TODO Auto-generated method stubOptional<Boolean> optional = tuple._2._2;if(optional.isPresent() && optional.get()){return false;} else {return true;} }}).mapToPair(new PairFunction<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, String, String>() {public Tuple2<String, String> call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> t)throws Exception {// TODO Auto-generated method stubreturn t._2._1;} });return result;} });//广告点击的基本数据格式：timestamp、ip、userID、adID、province、cityJavaPairDStream<String, Long> pairs = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t) throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} });/ 第4.3步：在单词实例计数为1基础上，统计每个单词在文件中出现的总次数/JavaPairDStream<String, Long> adClickedUsers= pairs.reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long i1, Long i2) throws Exception{return i1 + i2;} });/判断有效的点击，复杂化的采用机器学习训练模型进行在线过滤简单的根据ip判断1天不超过100次；也可以通过一个batch duration的点击次数判断是否非法广告点击，通过一个batch来判断是不完整的，还需要一天的数据也可以每一个小时来判断。/JavaPairDStream<String, Long> filterClickedBatch = adClickedUsers.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {if (1 < v1._2){//更新一些黑名单的数据库表return false;} else { return true;} }});//filterClickedBatch.print();//写入数据库filterClickedBatch.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records，使用insertBatch 或 updateBatch//插入的用户数据信息：userID,adID,clickedCount,time//这里面有一个问题，可能出现两条记录的key是一样的，此时需要更新累加操作List<UserAdClicked> userAdClickedList = new ArrayList<UserAdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");UserAdClicked userClicked = new UserAdClicked();userClicked.setTimestamp(splited[0]);userClicked.setIp(splited[1]);userClicked.setUserID(splited[2]);userClicked.setAdID(splited[3]);userClicked.setProvince(splited[4]);userClicked.setCity(splited[5]);userAdClickedList.add(userClicked);}final List<UserAdClicked> inserting = new ArrayList<UserAdClicked>();final List<UserAdClicked> updating = new ArrayList<UserAdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final UserAdClicked clicked : userAdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclicked WHERE"+ " timestamp =? AND userID = ? AND adID = ?",new Object[]{clicked.getTimestamp(), clicked.getUserID(),clicked.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(UserAdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getIp(),insertRecord.getUserID(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclicked VALUES(?, ?, ?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(UserAdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getTimestamp(),updateRecord.getIp(),updateRecord.getUserID(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity(),updateRecord.getClickedCount() + 1});}jdbcWrapper.doBatch("UPDATE adclicked SET clickedCount = ? WHERE"+ " timestamp =? AND ip = ? AND userID = ? AND adID = ? "+ "AND province = ? AND city = ?", updateParametersList);} });return null;} });//再次过滤，从数据库中读取数据过滤黑名单JavaPairDStream<String, Long> blackListBasedOnHistory = filterClickedBatch.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {//广告点击的基本数据格式：timestamp,ip,userID,adID,province,cityString[] splited = v1._1.split("\t"); //提取key值String date =splited[0];String userID =splited[2];String adID =splited[3];//查询一下数据库同一个用户同一个广告id点击量超过50次列入黑名单//接下来根据date、userID、adID条件去查询用户点击广告的数据表，获得总的点击次数//这个时候基于点击次数判断是否属于黑名单点击int clickedCountTotalToday = 81 ;if (clickedCountTotalToday > 50) {return true;}else {return false ;} }});//map操作，找出用户的idJavaDStream<String> blackListuserIDBasedInBatchOnhistroy =blackListBasedOnHistory.map(new Function<Tuple2<String,Long>, String>() {public String call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubreturn v1._1.split("\t")[2];} });//有一个问题，数据可能重复，在一个partition里面重复，这个好办；//但多个partition不能保证一个用户重复，需要对黑名单的整个rdd进行去重操作。//rdd去重了，partition也就去重了，一石二鸟，一箭双雕// 找出了黑名单，下一步就写入黑名单数据库表中JavaDStream<String> blackListUniqueuserBasedInBatchOnhistroy = blackListuserIDBasedInBatchOnhistroy.transform(new Function<JavaRDD<String>, JavaRDD<String>>() {public JavaRDD<String> call(JavaRDD<String> rdd) throws Exception {// TODO Auto-generated method stubreturn rdd.distinct();} });// 下一步写入到数据表中blackListUniqueuserBasedInBatchOnhistroy.foreachRDD(new Function<JavaRDD<String>, Void>() {public Void call(JavaRDD<String> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<String>>() {public void call(Iterator<String> t) throws Exception {// TODO Auto-generated method stub//插入的用户信息可以只包含：useID//此时直接插入黑名单数据表即可。//写入数据库List<Object[]> blackList = new ArrayList<Object[]>();while(t.hasNext()) {blackList.add(new Object[]{t.next()});}JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doBatch("INSERT INTO blacklisttable values (?)", blackList);} });return null;} });/广告点击累计动态更新,每个updateStateByKey都会在Batch Duration的时间间隔的基础上进行广告点击次数的更新，更新之后我们一般都会持久化到外部存储设备上，在这里我们存储到MySQL数据库中/JavaPairDStream<String, Long> updateStateByKeyDSteam = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} }).updateStateByKey(new Function2<List<Long>, Optional<Long>, Optional<Long>>() {public Optional<Long> call(List<Long> v1, Optional<Long> v2)throws Exception {// v1:当前的Key在当前的Batch Duration中出现的次数的集合，例如{1，1，1，。。。，1}// v2:当前的Key在以前的Batch Duration中积累下来的结果；Long clickedTotalHistory = 0L; if(v2.isPresent()){clickedTotalHistory = v2.get();}for(Long one : v1) {clickedTotalHistory += one;}return Optional.of(clickedTotalHistory);} });updateStateByKeyDSteam.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records，使用insertBatch 或 updateBatch//插入的用户数据信息：timestamp、adID、province、city//这里面有一个问题，可能出现两条记录的key是一样的，此时需要更新累加操作List<AdClicked> AdClickedList = new ArrayList<AdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");AdClicked adClicked = new AdClicked();adClicked.setTimestamp(splited[0]);adClicked.setAdID(splited[1]);adClicked.setProvince(splited[2]);adClicked.setCity(splited[3]);adClicked.setClickedCount(record._2);AdClickedList.add(adClicked);}final List<AdClicked> inserting = new ArrayList<AdClicked>();final List<AdClicked> updating = new ArrayList<AdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdClicked clicked : AdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedcount WHERE"+ " timestamp = ? AND adID = ? AND province = ? AND city = ?",new Object[]{clicked.getTimestamp(), clicked.getAdID(),clicked.getProvince(), clicked.getCity()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedcount VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.getTimestamp(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity()});}jdbcWrapper.doBatch("UPDATE adclickedcount SET clickedCount = ? WHERE"+ " timestamp =? AND adID = ? AND province = ? AND city = ?", updateParametersList);} });return null;} });/ 对广告点击进行TopN计算，计算出每天每个省份Top5排名的广告因为我们直接对RDD进行操作，所以使用了transfomr算子；/updateStateByKeyDSteam.transform(new Function<JavaPairRDD<String,Long>, JavaRDD<Row>>() {public JavaRDD<Row> call(JavaPairRDD<String, Long> rdd) throws Exception {JavaRDD<Row> rowRDD = rdd.mapToPair(new PairFunction<Tuple2<String,Long>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, Long> t)throws Exception {// TODO Auto-generated method stubString[] splited=t._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];String clickedRecord = timestamp + "_" + adID + "_" + province;return new Tuple2<String, Long>(clickedRecord, t._2);} }).reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }).map(new Function<Tuple2<String,Long>, Row>() {public Row call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubString[] splited=v1._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];return RowFactory.create(timestamp, adID, province, v1._2);} });StructType structType = DataTypes.createStructType(Arrays.asList(DataTypes.createStructField("timestamp", DataTypes.StringType, true),DataTypes.createStructField("adID", DataTypes.StringType, true),DataTypes.createStructField("province", DataTypes.StringType, true),DataTypes.createStructField("clickedCount", DataTypes.LongType, true)));HiveContext hiveContext = new HiveContext(rdd.context());DataFrame df = hiveContext.createDataFrame(rowRDD, structType);df.registerTempTable("topNTableSource");DataFrame result = hiveContext.sql("SELECT timestamp, adID, province, clickedCount, FROM"+ " (SELECT timestamp, adID, province,clickedCount, "+ "ROW_NUMBER() OVER(PARTITION BY province ORDER BY clickeCount DESC) rank "+ "FROM topNTableSource) subquery "+ "WHERE rank <= 5");return result.toJavaRDD();} }).foreachRDD(new Function<JavaRDD<Row>, Void>() {public Void call(JavaRDD<Row> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Row>>() {public void call(Iterator<Row> t) throws Exception {// TODO Auto-generated method stubList<AdProvinceTopN> adProvinceTopN = new ArrayList<AdProvinceTopN>();while(t.hasNext()) {Row row = t.next();AdProvinceTopN item = new AdProvinceTopN();item.setTimestamp(row.getString(0));item.setAdID(row.getString(1));item.setProvince(row.getString(2));item.setClickedCount(row.getLong(3));adProvinceTopN.add(item);}// final List<AdProvinceTopN> inserting = new ArrayList<AdProvinceTopN>();// final List<AdProvinceTopN> updating = new ArrayList<AdProvinceTopN>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();Set<String> set = new HashSet<String>();for(AdProvinceTopN item: adProvinceTopN){set.add(item.getTimestamp() + "_" + item.getProvince());}//表的字段timestamp、adID、province、clickedCountArrayList<Object[]> deleteParametersList = new ArrayList<Object[]>();for(String deleteRecord : set) {String[] splited = deleteRecord.split("_");deleteParametersList.add(new Object[]{splited[0],splited[1]});}jdbcWrapper.doBatch("DELETE FROM adprovincetopn WHERE timestamp = ? AND province = ?", deleteParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdProvinceTopN insertRecord : adProvinceTopN) {insertParametersList.add(new Object[] {insertRecord.getClickedCount(),insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince()});}jdbcWrapper.doBatch("INSERT INTO adprovincetopn VALUES (?, ?, ?, ?)", insertParametersList);} });return null;} });/ 计算过去半个小时内广告点击的趋势广告点击的基本数据格式：timestamp、ip、userID、adID、province、city/filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String splited[] = t._2.split("\t");String adID = splited[3];String time = splited[0]; //Todo:后续需要重构代码实现时间戳和分钟的转换提取。此处需要提取出该广告的点击分钟单位return new Tuple2<String, Long>(time + "_" + adID, 1L);} }).reduceByKeyAndWindow(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }, new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 - v2;} }, Durations.minutes(30), Durations.milliseconds(5)).foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition)throws Exception {List<AdTrendStat> adTrend = new ArrayList<AdTrendStat>();// TODO Auto-generated method stubwhile(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("_");String time = splited[0];String adID = splited[1];Long clickedCount = record._2;/ 在插入数据到数据库的时候具体需要哪些字段？time、adID、clickedCount; 而我们通过J2EE技术进行趋势绘图的时候肯定是需要年、月、日、时、分这个维度的，所以我们在这里需要年月日、小时、分钟这些时间维度；/AdTrendStat adTrendStat = new AdTrendStat();adTrendStat.setAdID(adID);adTrendStat.setClickedCount(clickedCount);adTrendStat.set_date(time); //Todo:获取年月日adTrendStat.set_hour(time); //Todo:获取小时adTrendStat.set_minute(time);//Todo:获取分钟adTrend.add(adTrendStat);}final List<AdTrendStat> inserting = new ArrayList<AdTrendStat>();final List<AdTrendStat> updating = new ArrayList<AdTrendStat>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdTrendStat trend : adTrend) {final AdTrendCountHistory adTrendhistory = new AdTrendCountHistory();jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedtrend WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?",new Object[]{trend.get_date(), trend.get_hour(), trend.get_minute(),trend.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);adTrendhistory.setClickedCountHistoryLong(count);updating.add(trend);} else { inserting.add(trend);} }});}//表的字段date、hour、minute、adID、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdTrendStat insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.get_date(),insertRecord.get_hour(),insertRecord.get_minute(),insertRecord.getAdID(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedtrend VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段date、hour、minute、adID、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdTrendStat updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.get_date(),updateRecord.get_hour(),updateRecord.get_minute(),updateRecord.getAdID()});}jdbcWrapper.doBatch("UPDATE adclickedtrend SET clickedCount = ? WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?", updateParametersList);} });return null;} });;/ Spark Streaming 执行引擎也就是Driver开始运行，Driver启动的时候是位于一条新的线程中的，当然其内部有消息循环体，用于接收应用程序本身或者Executor中的消息，/javassc.start();javassc.awaitTermination();javassc.close();}private static JavaStreamingContext createContext(String checkpointDirectory, SparkConf conf) {// If you do not see this printed, that means the StreamingContext has been loaded// from the new checkpointSystem.out.println("Creating new context");// Create the context with a 5 second batch sizeJavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.seconds(10));ssc.checkpoint(checkpointDirectory);return ssc;} }class JDBCWrapper {private static JDBCWrapper jdbcInstance = null;private static LinkedBlockingQueue<Connection> dbConnectionPool = new LinkedBlockingQueue<Connection>();static {try {Class.forName("com.mysql.jdbc.Driver");} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();} }public static JDBCWrapper getJDBCInstance() {if(jdbcInstance == null) {synchronized (JDBCWrapper.class) {if(jdbcInstance == null) {jdbcInstance = new JDBCWrapper();} }}return jdbcInstance; }private JDBCWrapper() {for(int i = 0; i < 10; i++){try {Connection conn = DriverManager.getConnection("jdbc:mysql://Master:3306/sparkstreaming","root", "root");dbConnectionPool.put(conn);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } }public synchronized Connection getConnection() {while(0 == dbConnectionPool.size()){try {Thread.sleep(20);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }return dbConnectionPool.poll();}public int[] doBatch(String sqlText, List<Object[]> paramsList){Connection conn = getConnection();PreparedStatement preparedStatement = null;int[] result = null;try {conn.setAutoCommit(false);preparedStatement = conn.prepareStatement(sqlText);for(Object[] parameters: paramsList) {for(int i = 0; i < parameters.length; i++){preparedStatement.setObject(i + 1, parameters[i]);} preparedStatement.addBatch();}result = preparedStatement.executeBatch();conn.commit();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }}return result; }public void doQuery(String sqlText, Object[] paramsList, ExecuteCallBack callback){Connection conn = getConnection();PreparedStatement preparedStatement = null;ResultSet result = null;try {preparedStatement = conn.prepareStatement(sqlText);for(int i = 0; i < paramsList.length; i++){preparedStatement.setObject(i + 1, paramsList[i]);} result = preparedStatement.executeQuery();try {callback.resultCallBack(result);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }}interface ExecuteCallBack {void resultCallBack(ResultSet result) throws Exception;}class UserAdClicked {private String timestamp;private String ip;private String userID;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getIp() {return ip;}public void setIp(String ip) {this.ip = ip;}public String getUserID() {return userID;}public void setUserID(String userID) {this.userID = userID;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdClicked {private String timestamp;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdProvinceTopN {private String timestamp;private String adID;private String province;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendStat {private String _date;private String _hour;private String _minute;private String adID;private Long clickedCount;public String get_date() {return _date;}public void set_date(String _date) {this._date = _date;}public String get_hour() {return _hour;}public void set_hour(String _hour) {this._hour = _hour;}public String get_minute() {return _minute;}public void set_minute(String _minute) {this._minute = _minute;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendCountHistory{private Long clickedCountHistoryLong;public Long getClickedCountHistoryLong() {return clickedCountHistoryLong;}public void setClickedCountHistoryLong(Long clickedCountHistoryLong) {this.clickedCountHistoryLong = clickedCountHistoryLong;} } 本篇文章为转载内容。原文链接：https://blog.csdn.net/tom_8899_li/article/details/71194434。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-14 19:16:35

297

转载

ReactJS

精细化剖析：React Router v5 to v6 Hooks迁移实战与组件重构教程

...( {routes.map((route) => ( ))} ); } function Home() { // 使用useHistory const navigate = useNavigate(); return navigate('/about')}>Go to About; } - Hooks的灵活性：不再需要withRouter，这使得组件更易于理解和测试。序号4：迁移策略 - 重构组件: 逐步将Route替换为Routes，并使用useRoutes来管理路由。 - 移除withRouter: 从依赖props.history的组件中移除，改用useHistory或useNavigate获取导航功能。 - 更新导航API: 从到useNavigate进行导航操作，如navigate('/about')。 - 历史状态管理变化: useHistory现在返回一个对象，而不是直接的history实例，你需要熟悉如何使用这些新的API。序号5：实战演练 - 迁移示例：当你准备升级时，可以先在一个小型项目中实践。比如，你可以创建一个简单的应用，对比v5和v6的配置： diff v5: - import { BrowserRouter as Router, Route, Link } from 'react-router-dom'; - - ... - v6: - import { BrowserRouter, useRoutes, Link } from 'react-router-dom'; - - ... - - ... - - - 检查所有的导航调用是否正确使用了useNavigate。序号6：总结与展望 React Router v6的升级虽然带来了结构上的变化，但整体上使代码更简洁、可维护性更强。调整来适应这个小转变可能会有点小挣扎，但宝贝，长远看这绝对能让你的应用跟上React大神们的步伐，变得更溜！嘿，你知道吗，升级就像个慢慢变聪明的小孩，每一步都是成长的痕迹。别急，咱们一点点来，每一步都用心做，相信我，好东西总在不知不觉中降临！结尾：在React Router的演进道路上，拥抱变化总是关键。希望这篇指南能帮助你在迁移v5到v6的过程中顺利前行，享受到新版本带来的便利。祝你在前端开发的征途上越来越顺风顺水！

2024-06-04 11:28:49

人生如戏

转载文章

[转载]barcode4j生成条形码及打印条码开发介绍—页面参数解释

...t;servlet-mapping> <servlet-name>BarcodeServlet</servlet-name> <url-pattern>/barcode</url-pattern> </servlet-mapping> 6.在页面使用<img>标签显示条形码图片<img src="<%=request.getContextPath() %>/barcode?msg=12345678"/> 注：参数说明(BarcodeServlet源代码中可以查看参数)： msg：条形码文字； fmt：图片格式，默认svg，可以设置fmt = jpeg/png;type = code128/code39; hrp:条形码文字位置：hrp = top,默认为bottom hrsize：条形码文字大小以mm为单位 <img src="<%=request.getContextPath() %>/barcode?msg=12345678&fmt=jpeg&hrp=top"/> 本篇文章为转载内容。原文链接：https://blog.csdn.net/kinmet2010/article/details/6921438。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-31 23:00:52

转载

Javascript

如何在ES6模板字面量中嵌入复杂表达式和函数调用

... ( {users.map(user => ( {user.name} {user.active ? Active : Inactive} ))} ); } export default UserList; 在这个例子中，我们通过模板字面量动态生成了每个用户的详细信息，包括头像、用户名和状态信息。这种做法不仅使代码更加简洁，也提高了可维护性。此外，随着TypeScript的普及，模板字面量类型也成为了一种强大的工具。通过定义特定格式的字符串类型，我们可以确保字符串的格式符合预期，从而减少运行时错误。例如： typescript type Greeting = Hello, ${string}!; const greeting: Greeting = 'Hello, Alice!'; console.log(greeting); // 正确 const wrongGreeting: Greeting = 'Goodbye, Alice!'; // 编译错误这段代码定义了一个名为Greeting的类型，它表示一个以Hello, 开头并以!结尾的字符串。通过这种方式，我们可以确保所有使用该类型的变量都符合特定的格式，从而提高代码的健壮性。总之，模板字面量作为一种强大的语言特性，在现代Web开发中扮演着越来越重要的角色。无论是在React或Vue.js这样的框架中，还是在TypeScript这样的类型系统中，模板字面量都能帮助开发者写出更简洁、更安全的代码。

2024-12-10 15:48:06

秋水共长天一色

Flink

Flink中实现动态表JOIN操作：实时数据流处理与TumblingEventTimeWindows应用实践

... 定义JOIN条件 MapFunction userToOrderKeyMapper = new MapFunction() { @Override public OrderKey map(User value) throws Exception { return new OrderKey(value.getId(), value.getCountry()); } }; DataStream orderKeys = users.map(userToOrderKeyMapper); // 使用JOIN操作 DataStream> joined = orders.join(orderKeys) .where(new KeySelector() { @Override public OrderKey getKey(OrderKey value) throws Exception { return value; } }) .equalTo(new KeySelector() { @Override public User getKey(User value) throws Exception { return value; } }) .window(TumblingEventTimeWindows.of(Time.minutes(5))) .apply(new ProcessWindowFunction, Tuple2, TimeWindow>() { @Override public void process(TimeWindow window, Context context, Iterable> values, Collector> out) throws Exception { int count = 0; for (Tuple2 value : values) { if (value.f1.getUserId() == value.f0.getId()) { count++; } } if (count > 1) { out.collect(new Tuple2<>(value.f0, value.f1)); } } }); 在这个示例中，我们首先创建了两个动态表users和orders。然后，我们捣鼓出了一个叫userToOrderKeyMapper的神奇小函数，它的任务就是把用户对象摇身一变，变成订单键对象。接着，我们使用这个映射函数将users表转换为orderKeys表。接下来，我们使用JOIN操作将orders表和orderKeys表进行JOIN。在JOIN操作这个环节，我们搞了个挺实用的小玩意儿叫键选择器where，它就像是个挖掘工，专门从那个orders表格里头找出来每个订单的关键信息。我们也定义了一个键选择器equalTo，它从users表中提取出用户对象。

2023-02-08 23:59:51

369

秋水共长天一色-t

Flink

Flink实时流处理中跨算子状态的管理与共享：基于OperatorState、KeyedStream及Checkpoint机制

...yedStream.map(value -> { getRuntimeContext().getState(stateDesc).update(value.toString()); return value; }).print(); // 执行任务 env.execute("Cross Operator State Example"); } } 在这个例子中，我们首先创建了一个Source数据流，然后使用keyBy操作将其转换为KeyedStream。然后，我们给每个键都打造了一个专属的OperatorState，就像给每个人分配了一个特别的任务清单。在Map函数这个大舞台上，我们会实时更新和维护这些状态，确保它们始终反映最新的进展情况。最后，我们打印出更新后的状态。五、总结总的来说，Flink通过OperatorState和KeyedStream这两个概念，实现了跨算子状态的共享和管理。这为我们提供了一种强大而且灵活的方式来处理大规模数据。

2023-06-09 14:00:02

408

人生如戏-t

Hadoop

Hadoop大数据处理中数据一致性验证失败的根源与应对策略：网络延迟、数据损坏及系统故障的解决方案

...p分布式文件系统，而MapReduce则是它的左膀右臂，这两样东西构成了Hadoop的核心技术部分。HDFS负责存储大量的文件，而MapReduce则负责对这些文件进行分析和处理。三、为什么会出现数据一致性验证失败的问题？数据一致性验证失败通常是由于以下原因造成的： 1. 网络延迟在大规模的数据处理过程中，网络延迟可能会导致数据一致性验证失败。 2. 数据损坏如果数据在传输或者存储的过程中被破坏，那么数据一致性验证也会失败。 3. 系统故障系统的硬件故障或者是软件故障也可能导致数据一致性验证失败。四、如何解决数据一致性验证失败的问题？ 1. 优化网络环境在网络延迟较大的情况下，可以尝试优化网络环境，减少网络延迟。 2. 使用数据备份对于重要的数据，我们可以定期进行数据备份，防止数据损坏。 3. 异地容灾通过异地容灾的方式，即使系统出现故障，也可以保证数据的一致性。五、代码示例以下是使用Hadoop进行数据处理的一个简单示例： java public class WordCount { public static void main(String[] args) throws IOException { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(Map.class); job.setCombinerClass(Combine.class); job.setReducerClass(Reduce.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } 六、结论总的来说，数据一致性验证失败是一个常见的问题，但是我们可以通过优化网络环境、使用数据备份以及异地容灾等方式来解决这个问题。同时呢，咱们也得好好琢磨一下Hadoop究竟是怎么工作的，这样才能够更溜地用它来对付那些海量数据啊。

2023-01-12 15:56:12

519

烟雨江南-t

Groovy

Groovy中遭遇`groovylangGroovyBugError`：识别、版本更新与官方资源利用解决运行时异常指南

...2, 3] def map = [:] list.each { map[it] = it } // 正常情况应能完成映射操作 map.each { println(it) } // 在某个版本的Groovy中，曾出现过对空Map进行迭代时抛出异常的问题在某个Groovy版本中，对空Map执行.each操作可能会引发异常，而这个问题实际上源于Groovy内部的处理逻辑bug，而非用户代码本身的问题。示例2 groovy @TupleConstructor class MyClass { int field1 String field2 } def obj = new MyClass(1, 'test') // 使用构造函数初始化对象 def copy = MyClass.from(obj) // 利用元编程特性复制对象 // 在某个Groovy版本中，使用@TupleConstructor注解的对象复制功能曾存在bug 这里展示了另一个可能导致groovylangGroovyBugError的例子，即使用特定版本的Groovy时，利用元编程特性尝试复制带有@TupleConstructor注解的对象可能会触发内部错误。 4. 应对策略及解决办法面对groovylangGroovyBugError，我们的首要任务不是质疑自己的编程技能，而是要冷静分析问题。首先，老铁，你得确认你现在用的Groovy版本是不是最新的哈。为啥呢？因为呀，很多之前让人头疼的bug，已经在后面的版本里被开发者们给力地修复了。所以，升级到最新版，就等于跟那些bug说拜拜啦！其次，及时查阅Groovy官方文档、社区论坛以及GitHub上的issue列表，看看是否有其他人报告过类似问题。如果找到了相关的bug报告，你可以跟进其修复进度或寻求临时解决方案。最后，若确认确实是Groovy的bug，那么不要犹豫，尽快提交一个新的issue给Groovy团队，附上详细的复现步骤和错误堆栈信息，以便他们更快地定位和修复问题。 5. 结论尽管groovylangGroovyBugError这类问题让人头疼，但它也是软件发展过程中不可避免的一部分。作为开发者，咱们得保持一颗包容且乐于接受新事物的心，遇到问题时要积极乐观、勇往直前去解决。同时呢，咱还可以搭上开源社区这趟顺风车，和大伙儿一起使劲儿，共同推动Groovy以及其他编程语言的发展和完善，让它们变得越来越好用，越来越强大！毕竟，正是这些挑战让我们不断成长，也让技术世界变得更加丰富多彩。

2023-01-11 10:23:05

521

醉卧沙场

转载文章

[转载]3.1.1 Agri-Net

... };10 int map[105][105],n;11 int in[105],inn=0,notin[105];//in是已经被用过的点，notin是还没用的点12 int get()13 {14 int x,ans=INF;15 int ay;16 for(x=0;x<inn;x++)//在已经用的点里找一个距离最小的边来用17 {18 int y;19 for(y=0;y<n;y++)20 if(notin[y]!=-1&&map[in[x]][y]<ans&&in[x]!=y)//notin！=-1表示还没被用21 {22 ans=map[in[x]][y];23 ay=y;24 }25 }26 in[inn++]=ay;27 notin[ay]=-1;28 return ans;29 }30 31 int main()32 {33 int x,y,ans=0;34 scanf("%d",&n);35 for(x=0;x<n;x++)36 {37 for(y=0;y<n;y++)38 scanf("%d",&map[x][y]);39 notin[x]=x;40 }41 in[inn++]=0;42 notin[0]=-1;43 while(inn!=n)44 ans+=get();45 printf("%d\n",ans);46 return 0;47 } 转载于:https://www.cnblogs.com/usp10/archive/2012/05/26/2519690.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_30239339/article/details/96526588。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-05 21:13:32

转载

Golang

Golang并发编程实战：理解Goroutine、Channel与资源管理，规避竞态条件与锁问题

...的并发原语sync.Map以及对并发错误处理机制的改进，使得开发者能够更安全、高效地在大规模并发环境中编写代码。此外，针对Goroutine的资源管理与调度优化方面，有研究人员提出了新的调度算法，旨在降低上下文切换开销，提高系统整体性能。这一研究成果已经在部分高并发场景下得到初步验证，并有望在未来版本的Go语言中得到应用。对于Channel的使用，社区内一篇深度解读文章《深入剖析Go Channel设计原理与实践》详细探讨了Channel的工作原理，提供了大量实战案例，帮助开发者理解和规避因不当使用Channel引发的数据竞争和其他并发问题。同时，随着云原生和微服务架构的广泛应用，Golang因其卓越的并发性能被越来越多地用于构建高性能后端服务。在实际项目开发中，结合Kubernetes等容器编排工具进行部署时，如何充分利用Golang的并发特性以实现服务的水平扩展和高可用，也是值得广大开发者关注和研究的热点话题。综上所述，持续跟进Golang并发编程的研究进展和技术动态，结合理论知识与实践经验，将助力开发者应对日益复杂的并发挑战，实现更高层次的技术突破。

2023-05-22 19:43:47

650

诗和远方

Spark

Spark Executor内存溢出（OOM）问题：从内存模型到shuffle操作引发原因及优化策略

...Rdd = rdd.mapPartitions(_.map(line => (line.hashCode % 10, line))) .repartition(10) .groupByKey() 在这个例子中，我们在对大文件进行shuffle操作后，由于分区过多或者数据倾斜，可能会导致某个Executor的Storage Memory不足，从而引发OOM。例2 - 用户自定义函数内创建大量临时对象 scala val rdd = sc.parallelize(1 to 1000000) val result = rdd.map { i => // 创建大量临时对象 val temp = List.fill(100000)(i.toString 100) // ... 进行其他计算 i 2 } 这段代码中，我们在map算子内部创建了大量的临时对象，如果这样的操作频繁且数据量巨大，Execution Memory很快就会耗尽，从而触发OOM。 4. 解决与优化策略针对上述情况，我们可以从以下几个方面入手，避免或缓解Executor内存溢出的问题： - 合理配置内存分配：根据任务特性调整spark.executor.memory、spark.shuffle.memoryFraction等相关参数，确保各内存区域大小适中。 bash spark-submit --executor-memory 8g --conf "spark.shuffle.memoryFraction=0.3" - 减少shuffle数据量：尽量避免不必要的shuffle，或者通过repartition或coalesce合理调整分区数量，减轻单个Executor的压力。 - 优化数据结构和算法：尽量减少在用户代码中创建的大对象数量，如例2所示，可以考虑更高效的数据结构或算法来替代。 - 监控与调优：借助Spark UI等工具实时监控Executor内存使用情况，根据实际情况动态调整资源配置。 5. 结语理解并掌握Spark Executor内存管理机制，以及面对OOM问题时的应对策略，是每个Spark开发者必备的能力。只有这样，我们才能真正地把这台强大的大数据处理引擎玩得溜起来，让它在我们的业务实战中火力全开，释放出最大的价值。记住了啊，每次跟OOM这个家伙过招，其实都是我们在Spark世界里探索和进步的一次大冒险，更是我们锻炼自己、提升数据处理本领的一次实战演练。

2023-07-26 16:22:30

115

灵动之光

Flink

实时数据处理：JobGraph与ExecutionPlan应对数据倾斜及性能优化

... = source.map(new MapFunction() { @Override public String map(String value) throws Exception { return value.toUpperCase(); } }); transformed.print(); env.execute("Simple Flink Job"); 这段代码展示了如何创建一个简单的Flink任务，该任务从一个Socket接收字符串数据，将其转换为大写，并打印结果。这里的source和transformed就是构成JobGraph的一部分。 2. ExecutionPlan 通往高效执行的道路接下来，我们来看看ExecutionPlan。当你的JobGraph准备好之后，Flink会根据它生成一个ExecutionPlan。这个计划详细说明了怎么在集群上同时跑数据流，包括怎么安排任务、分配资源之类的。为什么ExecutionPlan至关重要？ - 性能优化：ExecutionPlan考虑到了各种因素（如网络延迟、机器负载等）来优化任务的执行效率，确保数据流能够快速准确地流动。 - 容错机制：通过合理的任务划分和错误恢复策略，ExecutionPlan可以保证即使在某些节点失败的情况下，整个系统也能稳定运行。示例代码：虽然ExecutionPlan本身并不直接提供给用户进行编程操作，但你可以通过配置参数来影响它的生成。例如： java env.setParallelism(4); // 设置并行度为4 这条语句会影响ExecutionPlan中任务的并行执行方式。更高的并行度通常能让吞吐量变得更好，但同时也可能会让网络通信变得更复杂，增加不少额外的工作量。 3. 探索背后的秘密 JobGraph与ExecutionPlan的互动现在，让我们思考一下JobGraph和ExecutionPlan之间的关系。可以说，JobGraph是ExecutionPlan的基础，没有一个清晰的JobGraph，就无法生成有效的ExecutionPlan。ExecutionPlan就是JobGraph的具体操作指南，它告诉你怎么把这些抽象的想法变成实实在在的计算任务。思考与探讨： - 在设计你的Flink应用程序时，是否考虑过JobGraph的结构对最终性能的影响？ - 你有没有尝试过调整ExecutionPlan的某些参数来提升应用程序的效率？ 4. 实践中的挑战与解决方案最后，我想分享一些我在使用Flink过程中遇到的实际问题及解决方案。问题1：数据倾斜导致性能瓶颈 - 原因分析：数据分布不均匀可能导致某些算子处理的数据量远大于其他算子，从而形成性能瓶颈。 - 解决办法：可以通过重新设计JobGraph，比如引入更多的分区策略或调整算子的并行度来缓解这个问题。问题2：内存溢出 - 原因分析：长时间运行的任务可能会消耗大量内存，尤其是在处理大数据集时。 - 解决办法：合理设置Flink的内存管理策略，比如增加JVM堆内存或利用Flink的内存管理API来控制内存使用。 --- 好了，朋友们，这就是我对Flink中的JobGraph和ExecutionPlan的理解和分享。希望这篇文章能让你深深体会到它们的价值，然后在你的项目里大展身手，随意挥洒！如果你有任何疑问或者想要进一步讨论的话题，欢迎随时留言交流！记住，学习技术就像一场旅行，重要的是享受过程，不断探索未知的领域。希望我们在数据流的世界里都能成为勇敢的探险家！

2024-11-05 16:08:03

111

雪落无痕

建站模板下载

商务市场营销网页模板下载

...模板集成了丰富的营销方法、策略及策划元素，能全面展现企业的市场营销实力与业务范围。不仅满足基本的市场需求展示，还涵盖了多种营销手段的应用场景，适用于营销咨询公司的网站搭建。其特色在于响应式设计，能在不同设备上自适应浏览，提供卓越的用户体验。下载此模板，轻松构建出符合现代审美的专业营销公司网站。点我下载文件大小：1.15 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-09-12 09:42:12

124

本站

建站模板下载

品牌网络商务营销响应式网站模板下载

...于快速搭建并实施营销方法与策略。点我下载文件大小：6.29 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-11-22 16:03:07

105

本站

JQuery插件下载

简单实用的jQuery表单输入框浮动标签动画特效插件

...，并调用相应的API方法，即可快速实现这一功能，让复杂的表单布局变得生动而易用。点我下载文件大小：38.29 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-04-11 09:17:57

117

本站

JQuery插件下载

纯js页面平滑滚动插件

...硬感。用户在调用相关方法时，无需依赖jQuery等大型库，只需引入SmoothScroll.js文件，即可在网页中启用平滑滚动功能。无论是点击锚点链接自动滚动到目标位置，还是响应鼠标滚轮事件进行动态平滑滚动，都能轻松实现，从而极大地提升了网站的交互性和用户的舒适度。这款插件具有良好的兼容性和易用性，是现代网页开发优化滚动行为的理想选择之一。点我下载文件大小：15.23 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-07-08 10:30:22

346

本站

JQuery插件下载

jquery圆形图片3d翻转效果-flipshow.js

...s提供的便捷API和方法，即可快速构建出具有高度定制化的、类似旋转罗盘般切换的圆形图片组件，大大提升了用户体验和项目设计的独特性。点我下载文件大小：242.06 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2024-05-03 17:52:19

183

本站

JQuery插件下载

jQuery响应式网站APP操作用户向导插件

...的各项主要功能及使用方法，让用户在初次接触时就能快速上手，有效降低学习成本，提高用户黏性和满意度。无论是在桌面端还是移动端，此插件都能确保向导内容自动适配不同设备屏幕，提供一致的良好视觉与交互体验。总之，“jQuery响应式网站APP操作用户向导插件”是您构建友好用户界面、优化产品介绍流程的理想选择，助力您的项目在用户体验层面脱颖而出。点我下载文件大小：77.76 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2024-03-30 10:15:58

318

本站

JQuery插件下载

基于jQuery UI的模拟windows窗口插件

...展。只需简单调用相关方法和选项，即可在Web页面上轻松创建出功能齐全、外观仿真的桌面窗口界面。点我下载文件大小：195.99 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2024-01-06 23:30:14

本站

JQuery插件下载

jQuery强大的模态对话框|消息框|Lightbox插件

...简单调用jAlert方法并配置相应选项，即可轻松实现诸如警告提示、确认操作、内容展示等多种功能，并可根据需求定制动画样式，使网站或应用的界面表现力更上一层楼。点我下载文件大小：537.71 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-06-29 10:09:27

本站

JQuery插件下载

jQuery图片添加渐变遮罩层插件

...成后调用相应的初始化方法即可。无论是需要营造氛围、突出重点，还是进行视觉过渡处理，这款插件都能提供优雅且易于实现的解决方案，大大简化了以往手工编写复杂CSS样式的工作流程，提升了开发效率和用户体验。点我下载文件大小：296.85 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-10-13 15:04:33

105

本站

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

chattr +i file - 设置文件为不可修改（immutable）状态。