前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[动态JOIN条件设定实践]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过ajax或Socket往后台发送日志数据,在这里我们是要做基于SparkStreaming做实时在线统计。那么数据就需要放进消息系统(Kafka)中,我们的Spark Streaming应用程序就会去Kafka中Pull数据过来进行计算和消费,并把计算后的数据放入到持久化系统中(MySQL) 广告点击系统实时分析的意义:因为可以在线实时的看见广告的投放效果,就为广告的更大规模的投入和调整打下了坚实的基础,从而为公司带来最大化的经济回报。 核心需求: 1、实时黑名单动态过滤出有效的用户广告点击行为:因为黑名单用户可能随时出现,所以需要动态更新; 2、在线计算广告点击流量; 3、Top3热门广告; 4、每个广告流量趋势; 5、广告点击用户的区域分布分析 6、最近一分钟的广告点击量; 7、整个广告点击Spark Streaming处理程序724小时运行; 数据格式: 时间、用户、广告、城市等 技术细节: 在线计算用户点击的次数分析,屏蔽IP等; 使用updateStateByKey或者mapWithState进行不同地区广告点击排名的计算; Spark Streaming+Spark SQL+Spark Core等综合分析数据; 使用Window类型的操作; 高可用和性能调优等等; 流量趋势,一般会结合DB等; Spark Core / /package com.tom.spark.SparkApps.sparkstreaming;import java.util.Date;import java.util.HashMap;import java.util.Map;import java.util.Properties;import java.util.Random;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;/ 数据生成代码,Kafka Producer产生数据/public class MockAdClickedStat {/ @param args/public static void main(String[] args) {final Random random = new Random();final String[] provinces = new String[]{"Guangdong", "Zhejiang", "Jiangsu", "Fujian"};final Map<String, String[]> cities = new HashMap<String, String[]>();cities.put("Guangdong", new String[]{"Guangzhou", "Shenzhen", "Dongguan"});cities.put("Zhejiang", new String[]{"Hangzhou", "Wenzhou", "Ningbo"});cities.put("Jiangsu", new String[]{"Nanjing", "Suzhou", "Wuxi"});cities.put("Fujian", new String[]{"Fuzhou", "Xiamen", "Sanming"});final String[] ips = new String[] {"192.168.112.240","192.168.112.239","192.168.112.245","192.168.112.246","192.168.112.247","192.168.112.248","192.168.112.249","192.168.112.250","192.168.112.251","192.168.112.252","192.168.112.253","192.168.112.254",};/ Kafka相关的基本配置信息/Properties kafkaConf = new Properties();kafkaConf.put("serializer.class", "kafka.serializer.StringEncoder");kafkaConf.put("metadeta.broker.list", "Master:9092,Worker1:9092,Worker2:9092");ProducerConfig producerConfig = new ProducerConfig(kafkaConf);final Producer<Integer, String> producer = new Producer<Integer, String>(producerConfig);new Thread(new Runnable() {public void run() {while(true) {//在线处理广告点击流的基本数据格式:timestamp、ip、userID、adID、province、cityLong timestamp = new Date().getTime();String ip = ips[random.nextInt(12)]; //可以采用网络上免费提供的ip库int userID = random.nextInt(10000);int adID = random.nextInt(100);String province = provinces[random.nextInt(4)];String city = cities.get(province)[random.nextInt(3)];String clickedAd = timestamp + "\t" + ip + "\t" + userID + "\t" + adID + "\t" + province + "\t" + city;producer.send(new KeyedMessage<Integer, String>("AdClicked", clickedAd));try {Thread.sleep(50);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }).start();} } package com.tom.spark.SparkApps.sparkstreaming;import java.sql.Connection;import java.sql.DriverManager;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.List;import java.util.Map;import java.util.Set;import java.util.concurrent.LinkedBlockingQueue;import kafka.serializer.StringDecoder;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.Function;import org.apache.spark.api.java.function.Function2;import org.apache.spark.api.java.function.PairFunction;import org.apache.spark.api.java.function.VoidFunction;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.hive.HiveContext;import org.apache.spark.sql.types.DataTypes;import org.apache.spark.sql.types.StructType;import org.apache.spark.streaming.Durations;import org.apache.spark.streaming.api.java.JavaDStream;import org.apache.spark.streaming.api.java.JavaPairDStream;import org.apache.spark.streaming.api.java.JavaPairInputDStream;import org.apache.spark.streaming.api.java.JavaStreamingContext;import org.apache.spark.streaming.api.java.JavaStreamingContextFactory;import org.apache.spark.streaming.kafka.KafkaUtils;import com.google.common.base.Optional;import scala.Tuple2;/ 数据处理,Kafka消费者/public class AdClickedStreamingStats {/ @param args/public static void main(String[] args) {// TODO Auto-generated method stub//好处:1、checkpoint 2、工厂final SparkConf conf = new SparkConf().setAppName("SparkStreamingOnKafkaDirect").setMaster("hdfs://Master:7077/");final String checkpointDirectory = "hdfs://Master:9000/library/SparkStreaming/CheckPoint_Data";JavaStreamingContextFactory factory = new JavaStreamingContextFactory() {public JavaStreamingContext create() {// TODO Auto-generated method stubreturn createContext(checkpointDirectory, conf);} };/ 可以从失败中恢复Driver,不过还需要指定Driver这个进程运行在Cluster,并且在提交应用程序的时候制定--supervise;/JavaStreamingContext javassc = JavaStreamingContext.getOrCreate(checkpointDirectory, factory);/ 第三步:创建Spark Streaming输入数据来源input Stream: 1、数据输入来源可以基于File、HDFS、Flume、Kafka、Socket等 2、在这里我们指定数据来源于网络Socket端口,Spark Streaming连接上该端口并在运行的时候一直监听该端口的数据 (当然该端口服务首先必须存在),并且在后续会根据业务需要不断有数据产生(当然对于Spark Streaming 应用程序的运行而言,有无数据其处理流程都是一样的) 3、如果经常在每间隔5秒钟没有数据的话不断启动空的Job其实会造成调度资源的浪费,因为并没有数据需要发生计算;所以 实际的企业级生成环境的代码在具体提交Job前会判断是否有数据,如果没有的话就不再提交Job;///创建Kafka元数据来让Spark Streaming这个Kafka Consumer利用Map<String, String> kafkaParameters = new HashMap<String, String>();kafkaParameters.put("metadata.broker.list", "Master:9092,Worker1:9092,Worker2:9092");Set<String> topics = new HashSet<String>();topics.add("SparkStreamingDirected");JavaPairInputDStream<String, String> adClickedStreaming = KafkaUtils.createDirectStream(javassc, String.class, String.class, StringDecoder.class, StringDecoder.class,kafkaParameters, topics);/因为要对黑名单进行过滤,而数据是在RDD中的,所以必然使用transform这个函数; 但是在这里我们必须使用transformToPair,原因是读取进来的Kafka的数据是Pair<String,String>类型, 另一个原因是过滤后的数据要进行进一步处理,所以必须是读进的Kafka数据的原始类型 在此再次说明,每个Batch Duration中实际上讲输入的数据就是被一个且仅被一个RDD封装的,你可以有多个 InputDStream,但其实在产生job的时候,这些不同的InputDStream在Batch Duration中就相当于Spark基于HDFS 数据操作的不同文件来源而已罢了。/JavaPairDStream<String, String> filteredadClickedStreaming = adClickedStreaming.transformToPair(new Function<JavaPairRDD<String,String>, JavaPairRDD<String,String>>() {public JavaPairRDD<String, String> call(JavaPairRDD<String, String> rdd) throws Exception {/ 在线黑名单过滤思路步骤: 1、从数据库中获取黑名单转换成RDD,即新的RDD实例封装黑名单数据; 2、然后把代表黑名单的RDD的实例和Batch Duration产生的RDD进行Join操作, 准确的说是进行leftOuterJoin操作,也就是说使用Batch Duration产生的RDD和代表黑名单的RDD实例进行 leftOuterJoin操作,如果两者都有内容的话,就会是true,否则的话就是false 我们要留下的是leftOuterJoin结果为false; /final List<String> blackListNames = new ArrayList<String>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doQuery("SELECT FROM blacklisttable", null, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {while(result.next()){blackListNames.add(result.getString(1));} }});List<Tuple2<String, Boolean>> blackListTuple = new ArrayList<Tuple2<String,Boolean>>();for(String name : blackListNames) {blackListTuple.add(new Tuple2<String, Boolean>(name, true));}List<Tuple2<String, Boolean>> blacklistFromListDB = blackListTuple; //数据来自于查询的黑名单表并且映射成为<String, Boolean>JavaSparkContext jsc = new JavaSparkContext(rdd.context());/ 黑名单的表中只有userID,但是如果要进行join操作的话就必须是Key-Value,所以在这里我们需要 基于数据表中的数据产生Key-Value类型的数据集合/JavaPairRDD<String, Boolean> blackListRDD = jsc.parallelizePairs(blacklistFromListDB);/ 进行操作的时候肯定是基于userID进行join,所以必须把传入的rdd进行mapToPair操作转化成为符合格式的RDD/JavaPairRDD<String, Tuple2<String, String>> rdd2Pair = rdd.mapToPair(new PairFunction<Tuple2<String,String>, String, Tuple2<String, String>>() {public Tuple2<String, Tuple2<String, String>> call(Tuple2<String, String> t) throws Exception {// TODO Auto-generated method stubString userID = t._2.split("\t")[2];return new Tuple2<String, Tuple2<String,String>>(userID, t);} });JavaPairRDD<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> joined = rdd2Pair.leftOuterJoin(blackListRDD);JavaPairRDD<String, String> result = joined.filter(new Function<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, Boolean>() {public Boolean call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> tuple)throws Exception {// TODO Auto-generated method stubOptional<Boolean> optional = tuple._2._2;if(optional.isPresent() && optional.get()){return false;} else {return true;} }}).mapToPair(new PairFunction<Tuple2<String,Tuple2<Tuple2<String,String>,Optional<Boolean>>>, String, String>() {public Tuple2<String, String> call(Tuple2<String, Tuple2<Tuple2<String, String>, Optional<Boolean>>> t)throws Exception {// TODO Auto-generated method stubreturn t._2._1;} });return result;} });//广告点击的基本数据格式:timestamp、ip、userID、adID、province、cityJavaPairDStream<String, Long> pairs = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t) throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} });/ 第4.3步:在单词实例计数为1基础上,统计每个单词在文件中出现的总次数/JavaPairDStream<String, Long> adClickedUsers= pairs.reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long i1, Long i2) throws Exception{return i1 + i2;} });/判断有效的点击,复杂化的采用机器学习训练模型进行在线过滤 简单的根据ip判断1天不超过100次;也可以通过一个batch duration的点击次数判断是否非法广告点击,通过一个batch来判断是不完整的,还需要一天的数据也可以每一个小时来判断。/JavaPairDStream<String, Long> filterClickedBatch = adClickedUsers.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {if (1 < v1._2){//更新一些黑名单的数据库表return false;} else { return true;} }});//filterClickedBatch.print();//写入数据库filterClickedBatch.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records,使用insertBatch 或 updateBatch//插入的用户数据信息:userID,adID,clickedCount,time//这里面有一个问题,可能出现两条记录的key是一样的,此时需要更新累加操作List<UserAdClicked> userAdClickedList = new ArrayList<UserAdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");UserAdClicked userClicked = new UserAdClicked();userClicked.setTimestamp(splited[0]);userClicked.setIp(splited[1]);userClicked.setUserID(splited[2]);userClicked.setAdID(splited[3]);userClicked.setProvince(splited[4]);userClicked.setCity(splited[5]);userAdClickedList.add(userClicked);}final List<UserAdClicked> inserting = new ArrayList<UserAdClicked>();final List<UserAdClicked> updating = new ArrayList<UserAdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final UserAdClicked clicked : userAdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclicked WHERE"+ " timestamp =? AND userID = ? AND adID = ?",new Object[]{clicked.getTimestamp(), clicked.getUserID(),clicked.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(UserAdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getIp(),insertRecord.getUserID(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclicked VALUES(?, ?, ?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(UserAdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getTimestamp(),updateRecord.getIp(),updateRecord.getUserID(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity(),updateRecord.getClickedCount() + 1});}jdbcWrapper.doBatch("UPDATE adclicked SET clickedCount = ? WHERE"+ " timestamp =? AND ip = ? AND userID = ? AND adID = ? "+ "AND province = ? AND city = ?", updateParametersList);} });return null;} });//再次过滤,从数据库中读取数据过滤黑名单JavaPairDStream<String, Long> blackListBasedOnHistory = filterClickedBatch.filter(new Function<Tuple2<String,Long>, Boolean>() {public Boolean call(Tuple2<String, Long> v1) throws Exception {//广告点击的基本数据格式:timestamp,ip,userID,adID,province,cityString[] splited = v1._1.split("\t"); //提取key值String date =splited[0];String userID =splited[2];String adID =splited[3];//查询一下数据库同一个用户同一个广告id点击量超过50次列入黑名单//接下来 根据date、userID、adID条件去查询用户点击广告的数据表,获得总的点击次数//这个时候基于点击次数判断是否属于黑名单点击int clickedCountTotalToday = 81 ;if (clickedCountTotalToday > 50) {return true;}else {return false ;} }});//map操作,找出用户的idJavaDStream<String> blackListuserIDBasedInBatchOnhistroy =blackListBasedOnHistory.map(new Function<Tuple2<String,Long>, String>() {public String call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubreturn v1._1.split("\t")[2];} });//有一个问题,数据可能重复,在一个partition里面重复,这个好办;//但多个partition不能保证一个用户重复,需要对黑名单的整个rdd进行去重操作。//rdd去重了,partition也就去重了,一石二鸟,一箭双雕// 找出了黑名单,下一步就写入黑名单数据库表中JavaDStream<String> blackListUniqueuserBasedInBatchOnhistroy = blackListuserIDBasedInBatchOnhistroy.transform(new Function<JavaRDD<String>, JavaRDD<String>>() {public JavaRDD<String> call(JavaRDD<String> rdd) throws Exception {// TODO Auto-generated method stubreturn rdd.distinct();} });// 下一步写入到数据表中blackListUniqueuserBasedInBatchOnhistroy.foreachRDD(new Function<JavaRDD<String>, Void>() {public Void call(JavaRDD<String> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<String>>() {public void call(Iterator<String> t) throws Exception {// TODO Auto-generated method stub//插入的用户信息可以只包含:useID//此时直接插入黑名单数据表即可。//写入数据库List<Object[]> blackList = new ArrayList<Object[]>();while(t.hasNext()) {blackList.add(new Object[]{t.next()});}JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();jdbcWrapper.doBatch("INSERT INTO blacklisttable values (?)", blackList);} });return null;} });/广告点击累计动态更新,每个updateStateByKey都会在Batch Duration的时间间隔的基础上进行广告点击次数的更新, 更新之后我们一般都会持久化到外部存储设备上,在这里我们存储到MySQL数据库中/JavaPairDStream<String, Long> updateStateByKeyDSteam = filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String[] splited=t._2.split("\t");String timestamp = splited[0]; //YYYY-MM-DDString ip = splited[1];String userID = splited[2];String adID = splited[3];String province = splited[4];String city = splited[5]; String clickedRecord = timestamp + "_" +ip + "_"+userID+"_"+adID+"_"+province +"_"+city;return new Tuple2<String, Long>(clickedRecord, 1L);} }).updateStateByKey(new Function2<List<Long>, Optional<Long>, Optional<Long>>() {public Optional<Long> call(List<Long> v1, Optional<Long> v2)throws Exception {// v1:当前的Key在当前的Batch Duration中出现的次数的集合,例如{1,1,1,。。。,1}// v2:当前的Key在以前的Batch Duration中积累下来的结果;Long clickedTotalHistory = 0L; if(v2.isPresent()){clickedTotalHistory = v2.get();}for(Long one : v1) {clickedTotalHistory += one;}return Optional.of(clickedTotalHistory);} });updateStateByKeyDSteam.foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {rdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition) throws Exception {//使用数据库连接池的高效读写数据库的方式将数据写入数据库mysql//例如一次插入 1000条 records,使用insertBatch 或 updateBatch//插入的用户数据信息:timestamp、adID、province、city//这里面有一个问题,可能出现两条记录的key是一样的,此时需要更新累加操作List<AdClicked> AdClickedList = new ArrayList<AdClicked>();while(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("\t");AdClicked adClicked = new AdClicked();adClicked.setTimestamp(splited[0]);adClicked.setAdID(splited[1]);adClicked.setProvince(splited[2]);adClicked.setCity(splited[3]);adClicked.setClickedCount(record._2);AdClickedList.add(adClicked);}final List<AdClicked> inserting = new ArrayList<AdClicked>();final List<AdClicked> updating = new ArrayList<AdClicked>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdClicked clicked : AdClickedList) {jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedcount WHERE"+ " timestamp = ? AND adID = ? AND province = ? AND city = ?",new Object[]{clicked.getTimestamp(), clicked.getAdID(),clicked.getProvince(), clicked.getCity()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);clicked.setClickedCount(count);updating.add(clicked);} else {inserting.add(clicked);clicked.setClickedCount(1L);} }});}//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdClicked insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince(),insertRecord.getCity(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedcount VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdClicked updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.getTimestamp(),updateRecord.getAdID(),updateRecord.getProvince(),updateRecord.getCity()});}jdbcWrapper.doBatch("UPDATE adclickedcount SET clickedCount = ? WHERE"+ " timestamp =? AND adID = ? AND province = ? AND city = ?", updateParametersList);} });return null;} });/ 对广告点击进行TopN计算,计算出每天每个省份Top5排名的广告 因为我们直接对RDD进行操作,所以使用了transfomr算子;/updateStateByKeyDSteam.transform(new Function<JavaPairRDD<String,Long>, JavaRDD<Row>>() {public JavaRDD<Row> call(JavaPairRDD<String, Long> rdd) throws Exception {JavaRDD<Row> rowRDD = rdd.mapToPair(new PairFunction<Tuple2<String,Long>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, Long> t)throws Exception {// TODO Auto-generated method stubString[] splited=t._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];String clickedRecord = timestamp + "_" + adID + "_" + province;return new Tuple2<String, Long>(clickedRecord, t._2);} }).reduceByKey(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }).map(new Function<Tuple2<String,Long>, Row>() {public Row call(Tuple2<String, Long> v1) throws Exception {// TODO Auto-generated method stubString[] splited=v1._1.split("_");String timestamp = splited[0]; //YYYY-MM-DDString adID = splited[3];String province = splited[4];return RowFactory.create(timestamp, adID, province, v1._2);} });StructType structType = DataTypes.createStructType(Arrays.asList(DataTypes.createStructField("timestamp", DataTypes.StringType, true),DataTypes.createStructField("adID", DataTypes.StringType, true),DataTypes.createStructField("province", DataTypes.StringType, true),DataTypes.createStructField("clickedCount", DataTypes.LongType, true)));HiveContext hiveContext = new HiveContext(rdd.context());DataFrame df = hiveContext.createDataFrame(rowRDD, structType);df.registerTempTable("topNTableSource");DataFrame result = hiveContext.sql("SELECT timestamp, adID, province, clickedCount, FROM"+ " (SELECT timestamp, adID, province,clickedCount, "+ "ROW_NUMBER() OVER(PARTITION BY province ORDER BY clickeCount DESC) rank "+ "FROM topNTableSource) subquery "+ "WHERE rank <= 5");return result.toJavaRDD();} }).foreachRDD(new Function<JavaRDD<Row>, Void>() {public Void call(JavaRDD<Row> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Row>>() {public void call(Iterator<Row> t) throws Exception {// TODO Auto-generated method stubList<AdProvinceTopN> adProvinceTopN = new ArrayList<AdProvinceTopN>();while(t.hasNext()) {Row row = t.next();AdProvinceTopN item = new AdProvinceTopN();item.setTimestamp(row.getString(0));item.setAdID(row.getString(1));item.setProvince(row.getString(2));item.setClickedCount(row.getLong(3));adProvinceTopN.add(item);}// final List<AdProvinceTopN> inserting = new ArrayList<AdProvinceTopN>();// final List<AdProvinceTopN> updating = new ArrayList<AdProvinceTopN>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();Set<String> set = new HashSet<String>();for(AdProvinceTopN item: adProvinceTopN){set.add(item.getTimestamp() + "_" + item.getProvince());}//表的字段timestamp、adID、province、clickedCountArrayList<Object[]> deleteParametersList = new ArrayList<Object[]>();for(String deleteRecord : set) {String[] splited = deleteRecord.split("_");deleteParametersList.add(new Object[]{splited[0],splited[1]});}jdbcWrapper.doBatch("DELETE FROM adprovincetopn WHERE timestamp = ? AND province = ?", deleteParametersList);//表的字段timestamp、ip、userID、adID、province、city、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdProvinceTopN insertRecord : adProvinceTopN) {insertParametersList.add(new Object[] {insertRecord.getClickedCount(),insertRecord.getTimestamp(),insertRecord.getAdID(),insertRecord.getProvince()});}jdbcWrapper.doBatch("INSERT INTO adprovincetopn VALUES (?, ?, ?, ?)", insertParametersList);} });return null;} });/ 计算过去半个小时内广告点击的趋势 广告点击的基本数据格式:timestamp、ip、userID、adID、province、city/filteredadClickedStreaming.mapToPair(new PairFunction<Tuple2<String,String>, String, Long>() {public Tuple2<String, Long> call(Tuple2<String, String> t)throws Exception {String splited[] = t._2.split("\t");String adID = splited[3];String time = splited[0]; //Todo:后续需要重构代码实现时间戳和分钟的转换提取。此处需要提取出该广告的点击分钟单位return new Tuple2<String, Long>(time + "_" + adID, 1L);} }).reduceByKeyAndWindow(new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 + v2;} }, new Function2<Long, Long, Long>() {public Long call(Long v1, Long v2) throws Exception {// TODO Auto-generated method stubreturn v1 - v2;} }, Durations.minutes(30), Durations.milliseconds(5)).foreachRDD(new Function<JavaPairRDD<String,Long>, Void>() {public Void call(JavaPairRDD<String, Long> rdd) throws Exception {// TODO Auto-generated method stubrdd.foreachPartition(new VoidFunction<Iterator<Tuple2<String,Long>>>() {public void call(Iterator<Tuple2<String, Long>> partition)throws Exception {List<AdTrendStat> adTrend = new ArrayList<AdTrendStat>();// TODO Auto-generated method stubwhile(partition.hasNext()) {Tuple2<String, Long> record = partition.next();String[] splited = record._1.split("_");String time = splited[0];String adID = splited[1];Long clickedCount = record._2;/ 在插入数据到数据库的时候具体需要哪些字段?time、adID、clickedCount; 而我们通过J2EE技术进行趋势绘图的时候肯定是需要年、月、日、时、分这个维度的,所以我们在这里需要 年月日、小时、分钟这些时间维度;/AdTrendStat adTrendStat = new AdTrendStat();adTrendStat.setAdID(adID);adTrendStat.setClickedCount(clickedCount);adTrendStat.set_date(time); //Todo:获取年月日adTrendStat.set_hour(time); //Todo:获取小时adTrendStat.set_minute(time);//Todo:获取分钟adTrend.add(adTrendStat);}final List<AdTrendStat> inserting = new ArrayList<AdTrendStat>();final List<AdTrendStat> updating = new ArrayList<AdTrendStat>();JDBCWrapper jdbcWrapper = JDBCWrapper.getJDBCInstance();//表的字段timestamp、ip、userID、adID、province、city、clickedCountfor(final AdTrendStat trend : adTrend) {final AdTrendCountHistory adTrendhistory = new AdTrendCountHistory();jdbcWrapper.doQuery("SELECT clickedCount FROM adclickedtrend WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?",new Object[]{trend.get_date(), trend.get_hour(), trend.get_minute(),trend.getAdID()}, new ExecuteCallBack() {public void resultCallBack(ResultSet result) throws Exception {// TODO Auto-generated method stubif(result.next()) {long count = result.getLong(1);adTrendhistory.setClickedCountHistoryLong(count);updating.add(trend);} else { inserting.add(trend);} }});}//表的字段date、hour、minute、adID、clickedCountList<Object[]> insertParametersList = new ArrayList<Object[]>();for(AdTrendStat insertRecord : inserting) {insertParametersList.add(new Object[] {insertRecord.get_date(),insertRecord.get_hour(),insertRecord.get_minute(),insertRecord.getAdID(),insertRecord.getClickedCount()});}jdbcWrapper.doBatch("INSERT INTO adclickedtrend VALUES(?, ?, ?, ?, ?)", insertParametersList);//表的字段date、hour、minute、adID、clickedCountList<Object[]> updateParametersList = new ArrayList<Object[]>();for(AdTrendStat updateRecord : updating) {updateParametersList.add(new Object[] {updateRecord.getClickedCount(),updateRecord.get_date(),updateRecord.get_hour(),updateRecord.get_minute(),updateRecord.getAdID()});}jdbcWrapper.doBatch("UPDATE adclickedtrend SET clickedCount = ? WHERE"+ " date =? AND hour = ? AND minute = ? AND AdID = ?", updateParametersList);} });return null;} });;/ Spark Streaming 执行引擎也就是Driver开始运行,Driver启动的时候是位于一条新的线程中的,当然其内部有消息循环体,用于 接收应用程序本身或者Executor中的消息,/javassc.start();javassc.awaitTermination();javassc.close();}private static JavaStreamingContext createContext(String checkpointDirectory, SparkConf conf) {// If you do not see this printed, that means the StreamingContext has been loaded// from the new checkpointSystem.out.println("Creating new context");// Create the context with a 5 second batch sizeJavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.seconds(10));ssc.checkpoint(checkpointDirectory);return ssc;} }class JDBCWrapper {private static JDBCWrapper jdbcInstance = null;private static LinkedBlockingQueue<Connection> dbConnectionPool = new LinkedBlockingQueue<Connection>();static {try {Class.forName("com.mysql.jdbc.Driver");} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();} }public static JDBCWrapper getJDBCInstance() {if(jdbcInstance == null) {synchronized (JDBCWrapper.class) {if(jdbcInstance == null) {jdbcInstance = new JDBCWrapper();} }}return jdbcInstance; }private JDBCWrapper() {for(int i = 0; i < 10; i++){try {Connection conn = DriverManager.getConnection("jdbc:mysql://Master:3306/sparkstreaming","root", "root");dbConnectionPool.put(conn);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } }public synchronized Connection getConnection() {while(0 == dbConnectionPool.size()){try {Thread.sleep(20);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }return dbConnectionPool.poll();}public int[] doBatch(String sqlText, List<Object[]> paramsList){Connection conn = getConnection();PreparedStatement preparedStatement = null;int[] result = null;try {conn.setAutoCommit(false);preparedStatement = conn.prepareStatement(sqlText);for(Object[] parameters: paramsList) {for(int i = 0; i < parameters.length; i++){preparedStatement.setObject(i + 1, parameters[i]);} preparedStatement.addBatch();}result = preparedStatement.executeBatch();conn.commit();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }}return result; }public void doQuery(String sqlText, Object[] paramsList, ExecuteCallBack callback){Connection conn = getConnection();PreparedStatement preparedStatement = null;ResultSet result = null;try {preparedStatement = conn.prepareStatement(sqlText);for(int i = 0; i < paramsList.length; i++){preparedStatement.setObject(i + 1, paramsList[i]);} result = preparedStatement.executeQuery();try {callback.resultCallBack(result);} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();} } catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} finally {if(preparedStatement != null) {try {preparedStatement.close();} catch (SQLException e) {// TODO Auto-generated catch blocke.printStackTrace();} }if(conn != null) {try {dbConnectionPool.put(conn);} catch (InterruptedException e) {// TODO Auto-generated catch blocke.printStackTrace();} }} }}interface ExecuteCallBack {void resultCallBack(ResultSet result) throws Exception;}class UserAdClicked {private String timestamp;private String ip;private String userID;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getIp() {return ip;}public void setIp(String ip) {this.ip = ip;}public String getUserID() {return userID;}public void setUserID(String userID) {this.userID = userID;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdClicked {private String timestamp;private String adID;private String province;private String city;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public String getCity() {return city;}public void setCity(String city) {this.city = city;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdProvinceTopN {private String timestamp;private String adID;private String province;private Long clickedCount;public String getTimestamp() {return timestamp;}public void setTimestamp(String timestamp) {this.timestamp = timestamp;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public String getProvince() {return province;}public void setProvince(String province) {this.province = province;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendStat {private String _date;private String _hour;private String _minute;private String adID;private Long clickedCount;public String get_date() {return _date;}public void set_date(String _date) {this._date = _date;}public String get_hour() {return _hour;}public void set_hour(String _hour) {this._hour = _hour;}public String get_minute() {return _minute;}public void set_minute(String _minute) {this._minute = _minute;}public String getAdID() {return adID;}public void setAdID(String adID) {this.adID = adID;}public Long getClickedCount() {return clickedCount;}public void setClickedCount(Long clickedCount) {this.clickedCount = clickedCount;} }class AdTrendCountHistory{private Long clickedCountHistoryLong;public Long getClickedCountHistoryLong() {return clickedCountHistoryLong;}public void setClickedCountHistoryLong(Long clickedCountHistoryLong) {this.clickedCountHistoryLong = clickedCountHistoryLong;} } 本篇文章为转载内容。原文链接:https://blog.csdn.net/tom_8899_li/article/details/71194434。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-02-14 19:16:35
297
转载
Tesseract
...要么灵活调整一下参数设定,这样就对啦! python import pytesseract from PIL import Image 假设我们有一张较为复杂的图片需要识别 img = Image.open('complex_image.png') text = pytesseract.image_to_string(img) 如果输出的text有误,那可能是因为原始图片的质量问题 2. 图像预处理 为了提高识别准确性,对输入图像进行预处理是至关重要的一步。例如,我们可以进行灰度化、二值化、降噪、边界检测等操作。 python 对图片进行灰度化和二值化处理 img = img.convert('L').point(lambda x: 0 if x < 128 else 255, '1') 再次尝试识别 improved_text = pytesseract.image_to_string(img) 3. 调整识别参数 Tesseract提供了一系列丰富的可调参数以适应不同的场景。比如语言模型、是否启用特定字典、识别模式等。针对特定场景下的错误,可以通过调整这些参数来改善识别效果。 python 使用英语+数字的语言模型,同时启用多层识别 custom_config = r'--oem 3 --psm 6 -l eng' more_accurate_text = pytesseract.image_to_string(img, config=custom_config) 4. 结果后处理 即便进行了以上优化,识别结果仍可能出现瑕疵。这时候,我们可以灵活运用自然语言处理技术对结果进行深加工,比如纠错、分词、揪出关键词这些操作,这样一来,文本的实用性就能噌噌噌地往上提啦! python import re from nltk.corpus import words 创建一个简单的英文单词库 english_words = set(words.words()) 对识别结果进行过滤,只保留英文单词 filtered_text = ' '.join([word for word in improved_text.split() if word.lower() in english_words]) 5. 针对异常情况的处理 当Tesseract抛出异常时,应遵循常规的异常处理原则。例如,捕获Image.open()可能导致的IOError,或者pytesseract.image_to_string()可能引发的RuntimeError等。 python try: img = Image.open('nonexistent_image.png') text = pytesseract.image_to_string(img) except IOError: print("无法打开图片文件!") except RuntimeError as e: print(f"运行时错误:{e}") 总结来说,处理Tesseract的错误和异常情况是一项涉及多个层面的工作,包括理解其内在局限性、优化输入图像、调整识别参数、结果后处理以及有效应对异常。在这个过程中,耐心调试、持续学习和实践反思都是非常关键的。让我们用人类特有的情感化思考和主观能动性去驾驭这一强大的工具,让Tesseract更好地服务于我们的需求吧!
2023-07-17 18:52:17
85
海阔天空
转载文章
...t;{try {t.join();} catch (InterruptedException e) {e.printStackTrace();} });long s2 = System.currentTimeMillis();System.out.println(s2 - s1);} } 3、synchronizedList和ConcurrentLinkedQueue package com.mashibing.juc.c_025;import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Queue;import java.util.concurrent.ConcurrentLinkedQueue;public class T04_ConcurrentQueue {public static void main(String[] args) {List<String> strsList = new ArrayList<>();List<String> strsSync = Collections.synchronizedList(strsList);//加锁ListQueue<String> strs = new ConcurrentLinkedQueue<>();//Concurrent链表队列,就是读快for(int i=0; i<10; i++) {strs.offer("a" + i); //add添加,但是不同点是,此方法会返回一个布尔值}System.out.println(strs);System.out.println(strs.size());System.out.println(strs.poll());//取出,取完后将元素去除System.out.println(strs.size());System.out.println(strs.peek());//取出,但是不会将元素从队列删除System.out.println(strs.size());//双端队列Deque} } 4、LinkedBlockingQueue 链表阻塞队列(无界链表,可以一直装东西,直到内存满(其实,也不是无限,其长度Integer.MaxValue就是上限,毕竟最大就这么大)) 主要体现在put和take方法,put添加的时候,如果队列满了,就阻塞当前线程,直到队列有空位,继续插入。take方法取的时候,如果没有值,就阻塞,等有值了,立马去取 import java.util.Random;import java.util.concurrent.BlockingQueue;import java.util.concurrent.LinkedBlockingQueue;import java.util.concurrent.TimeUnit;public class T05_LinkedBlockingQueue {static BlockingQueue<String> strs = new LinkedBlockingQueue<>();static Random r = new Random();public static void main(String[] args) {new Thread(() -> {for (int i = 0; i < 100; i++) {try {strs.put("a" + i); //如果满了,当前线程就会等待(实现阻塞),等多会有空位,将值插入TimeUnit.MILLISECONDS.sleep(r.nextInt(1000));} catch (InterruptedException e) {e.printStackTrace();} }}, "p1").start();for (int i = 0; i < 5; i++) {new Thread(() -> {for (;;) {try {System.out.println(Thread.currentThread().getName() + " take -" + strs.take()); //取内容,如果空了,当前线程就会等待(实现阻塞)} catch (InterruptedException e) {e.printStackTrace();} }}, "c" + i).start();} }} 5、ArrayBlockingQueue 有界阻塞队列(因为Array需要指定长度) import java.util.Random;import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.BlockingQueue;import java.util.concurrent.TimeUnit;public class T06_ArrayBlockingQueue {static BlockingQueue<String> strs = new ArrayBlockingQueue<>(10);static Random r = new Random();public static void main(String[] args) throws InterruptedException {for (int i = 0; i < 10; i++) {strs.put("a" + i);}//strs.put("aaa"); //满了就会等待,程序阻塞//strs.add("aaa");//strs.offer("aaa");strs.offer("aaa", 1, TimeUnit.SECONDS);System.out.println(strs);} } 6、特殊的阻塞队列1:DelayQueue 延时队列(按时间进行调度,就是隔多长时间运行,谁隔的少,谁先) 以下例子中,我们添加线程到队列顺序为t12345,正常情况下,会按照顺序运行,但是这里有了延时时间,也就是时间越短,越先执行 步骤很简单,拿到延时队列 指定构造方法 继承 implements Delayed 重写 compareTo和getDelay import java.util.Calendar;import java.util.Random;import java.util.concurrent.BlockingQueue;import java.util.concurrent.DelayQueue;import java.util.concurrent.Delayed;import java.util.concurrent.TimeUnit;public class T07_DelayQueue {static BlockingQueue<MyTask> tasks = new DelayQueue<>();static Random r = new Random();static class MyTask implements Delayed {String name;long runningTime;MyTask(String name, long rt) {this.name = name;this.runningTime = rt;}@Overridepublic int compareTo(Delayed o) {if(this.getDelay(TimeUnit.MILLISECONDS) < o.getDelay(TimeUnit.MILLISECONDS))return -1;else if(this.getDelay(TimeUnit.MILLISECONDS) > o.getDelay(TimeUnit.MILLISECONDS)) return 1;else return 0;}@Overridepublic long getDelay(TimeUnit unit) {return unit.convert(runningTime - System.currentTimeMillis(), TimeUnit.MILLISECONDS);}@Overridepublic String toString() {return name + " " + runningTime;} }public static void main(String[] args) throws InterruptedException {long now = System.currentTimeMillis();MyTask t1 = new MyTask("t1", now + 1000);MyTask t2 = new MyTask("t2", now + 2000);MyTask t3 = new MyTask("t3", now + 1500);MyTask t4 = new MyTask("t4", now + 2500);MyTask t5 = new MyTask("t5", now + 500);tasks.put(t1);tasks.put(t2);tasks.put(t3);tasks.put(t4);tasks.put(t5);System.out.println(tasks);for(int i=0; i<5; i++) {System.out.println(tasks.take());//获取的是toString方法返回值} }} 7、特殊的阻塞队列2:PriorityQueque 优先队列(二叉树算法,就是排序) import java.util.PriorityQueue;public class T07_01_PriorityQueque {public static void main(String[] args) {PriorityQueue<String> q = new PriorityQueue<>();q.add("c");q.add("e");q.add("a");q.add("d");q.add("z");for (int i = 0; i < 5; i++) {System.out.println(q.poll());} }} 8、特殊的阻塞队列3:SynchronusQueue 同步队列(线程池用处非常大) 此队列容量为0,当插入元素时,必须同时有个线程往外取 就是说,当你往这个队列里面插入一个元素,它就拿着这个元素站着(阻塞),直到有个取元素的线程来,它就把元素交给它 就是用来同步数据的,也就是线程间交互数据用的一个特殊队列 package com.mashibing.juc.c_025;import java.util.concurrent.BlockingQueue;import java.util.concurrent.SynchronousQueue;public class T08_SynchronusQueue { //容量为0public static void main(String[] args) throws InterruptedException {BlockingQueue<String> strs = new SynchronousQueue<>();new Thread(()->{//这个线程就是消费者,来取值try {System.out.println(strs.take());//和同步队列要值} catch (InterruptedException e) {e.printStackTrace();} }).start();strs.put("aaa"); //阻塞等待消费者消费,就拿着aaa站着,等线程来取//strs.put("bbb");//strs.add("aaa");System.out.println(strs.size());} } 9、特殊的阻塞队列4:TransferQueue 传递队列 此队列加入了一个方法transfer()用来向队列添加元素 但是和put()方法不同的是,put添加完元素就走了 而这个方法,添加完自己就阻塞了,直到有人将这个元素取走,它才继续工作(省去我们手动阻塞) import java.util.concurrent.LinkedTransferQueue;public class T09_TransferQueue {public static void main(String[] args) throws InterruptedException {LinkedTransferQueue<String> strs = new LinkedTransferQueue<>();new Thread(() -> {try {System.out.println(strs.take());} catch (InterruptedException e) {e.printStackTrace();} }).start();strs.transfer("aaa");//放东西到队列,同时阻塞等待消费者线程,取走元素//strs.put("aaa");//如果用put就和普通队列一样,放完东西就走了/new Thread(() -> {try {System.out.println(strs.take());} catch (InterruptedException e) {e.printStackTrace();} }).start();/} } 3、线程池 线程池 由于单独创建线程,十分影响效率,而且无法对线程集中管理,一旦疏落,可能线程无限执行,浪费资源 线程池就是一个存储线程的游泳池,而每个线程就是池子里面的赛道 池子里的线程不执行任何任务,只是提供一个资源 而谁提交了任务,比如我想来游泳,那么池子就给你一个赛道,让你游泳 比如它想练憋气,那么给它一个赛道练憋气 当他们用完,走了,那么后面其它人再过来继续用 这就是线程池,始终只有这几个线程,不做实现,而是借用这几个线程的用户,自己掌控用这些线程资源做什么(提交任务给线程,线程空闲就帮他们完成任务) 线程池的两种类型(两类,不是两个) ThreadPoolExecutor(简称TPE) ForkJoinPool(分解汇总任务(将任务细化,最后汇总结果),少量线程执行多个任务(子任务,TPE做不到先执行子任务),CPU密集型) Executors(注意这后面有s) 它可以说是线程池工厂类,我们一般通过它创建线程池,并且它为我们封装了线程 1、常用类 Executor ExecutorService 扩展了execute方法,具有一个返回值 规定了异步执行机制,提供了一些执行器方法,比如shutdown()关闭等 但是它不知道执行器中的线程何时执行完 Callable 对Runnable进行了扩展,实现Callable的调用,可以有返回值,表示线程的状态 但是无法返回线程执行结果 Future 获得未来线程执行结果 由此,我们可以得知线程池基本的一个使用步骤 其中service.submit():为异步提交,也就是说,主线程该干嘛干嘛,我是异步执行的,和同步不一样(当前线程执行完,主线程才能继续执行,叫同步) futuer.get():获取结果集结果,此时因为异步,主线程执行到这里,结果集可能还没封装好,所以此时如果没有值,就阻塞,直到结果集出来 public static void main(String[] args) throws ExecutionException, InterruptedException {Callable<String> c = new Callable() {@Overridepublic String call() throws Exception {return "Hello Callable";} };ExecutorService service = Executors.newCachedThreadPool();Future<String> future = service.submit(c); //异步System.out.println(future.get());//阻塞service.shutdown();} 2、FutureTask 可充当任务的结果集 上面我们介绍Future是用来得到任务的执行结果的 而FutureTask,可以当做一个任务用,并且返回任务的结果,也就是可以跑线程,然后还可以得到线程结果 public static void main(String[] args) throws InterruptedException, ExecutionException {FutureTask<Integer> task = new FutureTask<>(()->{TimeUnit.MILLISECONDS.sleep(500);return 1000;}); //new Callable () { Integer call();}new Thread(task).start();System.out.println(task.get()); //阻塞} 3、CompletableFuture 非常灵活的任务结果集 一个非常灵活的结果集 他可以将很多执行不同任务的线程的结果进行汇总 比如一个网站,它可以启动多个线程去各大电商网站,比如淘宝,京东,收集某些或某一个商品的价格 最后,将获取的数据进行整合封装 最终,客户就可以通过此网站,获取某类商品在各网站的价格信息 / 假设你能够提供一个服务 这个服务查询各大电商网站同一类产品的价格并汇总展示 @author 马士兵 http://mashibing.com/import java.io.IOException;import java.util.Random;import java.util.concurrent.CompletableFuture;import java.util.concurrent.ExecutionException;import java.util.concurrent.TimeUnit;public class T06_01_CompletableFuture {public static void main(String[] args) throws ExecutionException, InterruptedException {long start, end;/start = System.currentTimeMillis();priceOfTM();priceOfTB();priceOfJD();end = System.currentTimeMillis();System.out.println("use serial method call! " + (end - start));/start = System.currentTimeMillis();CompletableFuture<Double> futureTM = CompletableFuture.supplyAsync(()->priceOfTM());CompletableFuture<Double> futureTB = CompletableFuture.supplyAsync(()->priceOfTB());CompletableFuture<Double> futureJD = CompletableFuture.supplyAsync(()->priceOfJD());CompletableFuture.allOf(futureTM, futureTB, futureJD).join();//当所有结果集都获取到,才汇总阻塞CompletableFuture.supplyAsync(()->priceOfTM()).thenApply(String::valueOf).thenApply(str-> "price " + str).thenAccept(System.out::println);end = System.currentTimeMillis();System.out.println("use completable future! " + (end - start));try {System.in.read();} catch (IOException e) {e.printStackTrace();} }private static double priceOfTM() {delay();return 1.00;}private static double priceOfTB() {delay();return 2.00;}private static double priceOfJD() {delay();return 3.00;}/private static double priceOfAmazon() {delay();throw new RuntimeException("product not exist!");}/private static void delay() {int time = new Random().nextInt(500);try {TimeUnit.MILLISECONDS.sleep(time);} catch (InterruptedException e) {e.printStackTrace();}System.out.printf("After %s sleep!\n", time);} } 4、TPE型线程池1:ThreadPoolExecutor 原理及其参数 线程池由两个集合组成,一个集合存储线程,一个集合存储任务 存储线程:可以规定大小,最多可以有多少个,以及指定核心线程数量(不会被回收) 任务队列:存储任务 细节:初始线程池没有线程,当有一个任务来,线程池起一个线程,又有一个任务来,再起一个线程,直到达到核心线程数量 核心线程数量达到时,新来的任务将存储到任务队列中等待核心线程处理完成,直到任务队列也满了 当任务队列满了,此时再次启动一个线程(非核心线程,一旦空闲,达到指定时间将会消失),直到达到线程最大数量 当线程容器和任务容器都满了,又来了线程,将会执行拒绝策略 上面的细节涉及的所有步骤内容,均由创建线程池的参数执行 下面是ThreadPoolExecutor构造方法参数的源码注释 / 用给定的初始值,创建一个新的线程池 @param corePoolSize 核心线程数量 @param maximumPoolSize 最大线程数量 @param keepAliveTime 当线程数大于核心线程数量时,空闲的线程可生存的时间 @param unit 时间单位 @param workQueue 任务队列,只能包含由execute提交的Runnable任务 @param threadFactory 工厂,用于创建线程给线程池调度的工厂,可以自定义 @param handler 拒绝策略(可以自定义,JDK默认提供4种),当线程边界和队列容量已经满了,新来线程被阻塞时使用的处理程序/public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler) JDK提供的4种拒绝策略,不常用,一般都是自己定义拒绝策略 Abort:抛异常 Discard:扔掉,不抛异常 DiscardOldest:扔掉排队时间最久的(将队列中排队时间最久的扔掉,然后让新来的进来) CallerRuns:调用者处理任务(谁通过execute方法提交任务,谁处理) ThreadPoolExecutor继承关系 继承关系:ThreadPoolExecutor->AbstractExectorService类->ExectorService接口->Exector接口 Executors(注意这后面有s) 它可以说是线程池工厂类,我们一般通过它创建线程池,并且它为我们封装了线程 看看下面创建线程池,哪里用到了它 使用实例 import java.io.IOException;import java.util.concurrent.;public class T05_00_HelloThreadPool {static class Task implements Runnable {private int i;public Task(int i) {this.i = i;}@Overridepublic void run() {System.out.println(Thread.currentThread().getName() + " Task " + i);try {System.in.read();} catch (IOException e) {e.printStackTrace();} }@Overridepublic String toString() {return "Task{" +"i=" + i +'}';} }public static void main(String[] args) {ThreadPoolExecutor tpe = new ThreadPoolExecutor(2, 4,60, TimeUnit.SECONDS,new ArrayBlockingQueue<Runnable>(4),Executors.defaultThreadFactory(),new ThreadPoolExecutor.CallerRunsPolicy());//创建线程池,核心2个,最大4个,空闲线程存活时间60s,任务队列容量4,使用默认线程工程,创建线程。拒绝策略是JDK提供的for (int i = 0; i < 8; i++) {tpe.execute(new Task(i));//供提交8次任务}System.out.println(tpe.getQueue());//查看任务队列tpe.execute(new Task(100));//提交新的任务System.out.println(tpe.getQueue());tpe.shutdown();//关闭线程池} } 5、TPE型线程池2:SingleThreadPool 单例线程池(只有一个线程) 为什么有单例线程池 有任务队列,有线程池管理机制 Executors(注意这后面有s) 它可以说是线程池工厂类,我们一般通过它创建线程池,并且它为我们封装了线程 看看下面哪里用到了它 /创建单例线程池,扔5个任务进去,查看输出结果,看看有几个线程执行任务/import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class T07_SingleThreadPool {public static void main(String[] args) {ExecutorService service = Executors.newSingleThreadExecutor();for(int i=0; i<5; i++) {final int j = i;service.execute(()->{System.out.println(j + " " + Thread.currentThread().getName());});} }} 6、TPE型线程池3:CachedPool 缓存,存储线程池 此线程池没有核心线程,来一个任务启动一个线程(最多Integer.MaxValue,不会放在任务队列,因为任务队列容量为0),每个线程空闲后,只能活60s 实例 import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class T07_SingleThreadPool {public static void main(String[] args) {ExecutorService service = Executors.newSingleThreadExecutor();//通过Executors获取池子for(int i=0; i<5; i++) {final int j = i;service.execute(()->{//提交任务System.out.println(j + " " + Thread.currentThread().getName());});}service.shutdown();} } 7、TPE型线程池4:FixedThreadPool 固定线程池 此线次池,用于创建一个固定线程数量的线程池,不会回收 实例 import java.util.ArrayList;import java.util.List;import java.util.concurrent.Callable;import java.util.concurrent.ExecutionException;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.Future;public class T09_FixedThreadPool {public static void main(String[] args) throws InterruptedException, ExecutionException {//并发执行long start = System.currentTimeMillis();getPrime(1, 200000); long end = System.currentTimeMillis();System.out.println(end - start);//输出并发执行耗费时间final int cpuCoreNum = 4;//并行执行ExecutorService service = Executors.newFixedThreadPool(cpuCoreNum);MyTask t1 = new MyTask(1, 80000); //1-5 5-10 10-15 15-20MyTask t2 = new MyTask(80001, 130000);MyTask t3 = new MyTask(130001, 170000);MyTask t4 = new MyTask(170001, 200000);Future<List<Integer>> f1 = service.submit(t1);Future<List<Integer>> f2 = service.submit(t2);Future<List<Integer>> f3 = service.submit(t3);Future<List<Integer>> f4 = service.submit(t4);start = System.currentTimeMillis();f1.get();f2.get();f3.get();f4.get();end = System.currentTimeMillis();System.out.println(end - start);//输出并行耗费时间}static class MyTask implements Callable<List<Integer>> {int startPos, endPos;MyTask(int s, int e) {this.startPos = s;this.endPos = e;}@Overridepublic List<Integer> call() throws Exception {List<Integer> r = getPrime(startPos, endPos);return r;} }static boolean isPrime(int num) {for(int i=2; i<=num/2; i++) {if(num % i == 0) return false;}return true;}static List<Integer> getPrime(int start, int end) {List<Integer> results = new ArrayList<>();for(int i=start; i<=end; i++) {if(isPrime(i)) results.add(i);}return results;} } 8、TPE型线程池5:ScheduledPool 预定,延时线程池 根据延时时间(隔多长时间后运行),排序,哪个线程先执行,用户只需要指定核心线程数量 此线程池返回的池对象,和提交任务方法都不一样,比较涉及到时间 import java.util.Random;import java.util.concurrent.Executors;import java.util.concurrent.ScheduledExecutorService;import java.util.concurrent.TimeUnit;public class T10_ScheduledPool {public static void main(String[] args) {ScheduledExecutorService service = Executors.newScheduledThreadPool(4);service.scheduleAtFixedRate(()->{//提交延时任务try {TimeUnit.MILLISECONDS.sleep(new Random().nextInt(1000));} catch (InterruptedException e) {e.printStackTrace();}System.out.println(Thread.currentThread().getName());}, 0, 500, TimeUnit.MILLISECONDS);//指定延时时间和单位,第一个任务延时0毫秒,之后的任务,延时500毫秒} } 9、手写拒绝策略小例子 import java.util.concurrent.;public class T14_MyRejectedHandler {public static void main(String[] args) {ExecutorService service = new ThreadPoolExecutor(4, 4,0, TimeUnit.SECONDS, new ArrayBlockingQueue<>(6),Executors.defaultThreadFactory(),new MyHandler());//将手写拒绝策略传入}static class MyHandler implements RejectedExecutionHandler {//1、继承RejectedExecutionHandler@Overridepublic void rejectedExecution(Runnable r, ThreadPoolExecutor executor) {//2、重写方法//log("r rejected")//伪代码,表示通过log4j.log()报一下日志,拒绝的时间,线程名//save r kafka mysql redis//可以尝试保存队列//try 3 times //可以尝试几次,比如3次,重新去抢队列,3次还不行就丢弃if(executor.getQueue().size() < 10000) {//尝试条件,如果size>10000了,就执行拒绝策略//try put again();//如果小于10000,尝试将其放到队列中} }} } 10、ForkJoinPool线程池1:ForkJoinPool 前面我们讲过线程分为两大类,TPE和FJP ForkJoinPool(分解汇总任务(将任务细化,最后汇总结果),少量线程执行多个任务(子任务,TPE做不到先执行子任务),CPU密集型) 适合将大任务切分成多个小任务运行 两个方法,fork():分子任务,将子任务分配到线程池中 join():当前任务的计算结果,如果有子任务,等子任务结果返回后再汇总 下面实例实现,一百万个随机数求和,由两种方法实现,一种ForkJoinPool分任务并行,一种使用单线程做 import java.io.IOException;import java.util.Arrays;import java.util.Random;import java.util.concurrent.ForkJoinPool;import java.util.concurrent.RecursiveAction;import java.util.concurrent.RecursiveTask;public class T12_ForkJoinPool {//1000000个随机数求和static int[] nums = new int[1000000];//一堆数static final int MAX_NUM = 50000;//分任务时,每个任务的操作量不能多于50000个,否则就继续细分static Random r = new Random();//使用随机数将数组初始化static {for(int i=0; i<nums.length; i++) {nums[i] = r.nextInt(100);}System.out.println("---" + Arrays.stream(nums).sum()); //stream api 单线程就这么做,一个一个加}//分任务,需要继承,可以继承RecursiveAction(不需要返回值,一般用在不需要返回值的场景)或//RecursiveTask(需要返回值,我们用这个,因为我们需要最后获取求和结果)两个更好实现的类,//他俩继承与ForkJoinTaskstatic class AddTaskRet extends RecursiveTask<Long> {private static final long serialVersionUID = 1L;int start, end;AddTaskRet(int s, int e) {start = s;end = e;}@Overrideprotected Long compute() {if(end-start <= MAX_NUM) {//如果任务操作数小于规定的最大操作数,就进行运算,long sum = 0L;for(int i=start; i<end; i++) sum += nums[i];return sum;//返回结果} //如果分配的操作数大于规定,就继续细分(简单的重中点分,两半)int middle = start + (end-start)/2;//获取中间值AddTaskRet subTask1 = new AddTaskRet(start, middle);//传入起始值和中间值,表示一个子任务AddTaskRet subTask2 = new AddTaskRet(middle, end);//中间值和结尾值,表示一个子任务subTask1.fork();//分任务subTask2.fork();//分任务return subTask1.join() + subTask2.join();//最后返回结果汇总} }public static void main(String[] args) throws IOException {/ForkJoinPool fjp = new ForkJoinPool();AddTask task = new AddTask(0, nums.length);fjp.execute(task);/ForkJoinPool fjp = new ForkJoinPool();//创建线程池AddTaskRet task = new AddTaskRet(0, nums.length);//创建任务fjp.execute(task);//传入任务long result = task.join();//返回汇总结果System.out.println(result);//System.in.read();} } 11、ForkJoinPool线程池2:WorkStealingPool 任务偷取线程池 原来的线程池,都是有一个任务队列,而这个不同,它给每个线程都分配了一个任务队列 当某一个线程的任务队列没有任务,并且自己空闲,它就去其它线程的任务队列中偷任务,所以叫任务偷取线程池 细节:当线程自己从自己的任务队列拿任务时,不需要加锁,但是偷任务时,因为有两个线程,可能发生同步问题,需要加锁 此线程继承FJP 实例 import java.io.IOException;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.TimeUnit;public class T11_WorkStealingPool {public static void main(String[] args) throws IOException {ExecutorService service = Executors.newWorkStealingPool();System.out.println(Runtime.getRuntime().availableProcessors());service.execute(new R(1000));service.execute(new R(2000));service.execute(new R(2000));service.execute(new R(2000)); //daemonservice.execute(new R(2000));//由于产生的是精灵线程(守护线程、后台线程),主线程不阻塞的话,看不到输出System.in.read(); }static class R implements Runnable {int time;R(int t) {this.time = t;}@Overridepublic void run() {try {TimeUnit.MILLISECONDS.sleep(time);} catch (InterruptedException e) {e.printStackTrace();}System.out.println(time + " " + Thread.currentThread().getName());} }} 12、流式API:ParallelStreamAPI 不懂的请参考:https://blog.csdn.net/grd_java/article/details/110265219 实例 import java.util.ArrayList;import java.util.List;import java.util.Random;public class T13_ParallelStreamAPI {public static void main(String[] args) {List<Integer> nums = new ArrayList<>();Random r = new Random();for(int i=0; i<10000; i++) nums.add(1000000 + r.nextInt(1000000));//System.out.println(nums);long start = System.currentTimeMillis();nums.forEach(v->isPrime(v));long end = System.currentTimeMillis();System.out.println(end - start);//使用parallel stream apistart = System.currentTimeMillis();nums.parallelStream().forEach(T13_ParallelStreamAPI::isPrime);//并行流,将任务切分成子任务执行end = System.currentTimeMillis();System.out.println(end - start);}static boolean isPrime(int num) {for(int i=2; i<=num/2; i++) {if(num % i == 0) return false;}return true;} } 13、总结 总结 Callable相当于一Runnable但是它有返回值 Future:存储执行完产生的结果 FutureTask 相当于Future+Runnable,既可以执行任务,又能获取任务执行的Future结果 CompletableFuture 可以多任务异步,并对多任务控制,整合任务结果,细化完美,比如可以一个任务完成就可以整合结果,也可以所有任务完成才整合结果 4、ThreadPoolExecutor源码解析 依然只讲重点,实际还需要大家按照上篇博客中看源码的方式来看 1、常用变量的解释 // 1. ctl,可以看做一个int类型的数字,高3位表示线程池状态,低29位表示worker数量private final AtomicInteger ctl = new AtomicInteger(ctlOf(RUNNING, 0));// 2. COUNT_BITS,Integer.SIZE为32,所以COUNT_BITS为29private static final int COUNT_BITS = Integer.SIZE - 3;// 3. CAPACITY,线程池允许的最大线程数。1左移29位,然后减1,即为 2^29 - 1private static final int CAPACITY = (1 << COUNT_BITS) - 1;// runState is stored in the high-order bits// 4. 线程池有5种状态,按大小排序如下:RUNNING < SHUTDOWN < STOP < TIDYING < TERMINATEDprivate static final int RUNNING = -1 << COUNT_BITS;private static final int SHUTDOWN = 0 << COUNT_BITS;private static final int STOP = 1 << COUNT_BITS;private static final int TIDYING = 2 << COUNT_BITS;private static final int TERMINATED = 3 << COUNT_BITS;// Packing and unpacking ctl// 5. runStateOf(),获取线程池状态,通过按位与操作,低29位将全部变成0private static int runStateOf(int c) { return c & ~CAPACITY; }// 6. workerCountOf(),获取线程池worker数量,通过按位与操作,高3位将全部变成0private static int workerCountOf(int c) { return c & CAPACITY; }// 7. ctlOf(),根据线程池状态和线程池worker数量,生成ctl值private static int ctlOf(int rs, int wc) { return rs | wc; }/ Bit field accessors that don't require unpacking ctl. These depend on the bit layout and on workerCount being never negative./// 8. runStateLessThan(),线程池状态小于xxprivate static boolean runStateLessThan(int c, int s) {return c < s;}// 9. runStateAtLeast(),线程池状态大于等于xxprivate static boolean runStateAtLeast(int c, int s) {return c >= s;} 2、构造方法 public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler) {// 基本类型参数校验if (corePoolSize < 0 ||maximumPoolSize <= 0 ||maximumPoolSize < corePoolSize ||keepAliveTime < 0)throw new IllegalArgumentException();// 空指针校验if (workQueue == null || threadFactory == null || handler == null)throw new NullPointerException();this.corePoolSize = corePoolSize;this.maximumPoolSize = maximumPoolSize;this.workQueue = workQueue;// 根据传入参数unit和keepAliveTime,将存活时间转换为纳秒存到变量keepAliveTime 中this.keepAliveTime = unit.toNanos(keepAliveTime);this.threadFactory = threadFactory;this.handler = handler;} 3、提交执行task的过程 public void execute(Runnable command) {if (command == null)throw new NullPointerException();/ Proceed in 3 steps: 1. If fewer than corePoolSize threads are running, try to start a new thread with the given command as its first task. The call to addWorker atomically checks runState and workerCount, and so prevents false alarms that would add threads when it shouldn't, by returning false. 2. If a task can be successfully queued, then we still need to double-check whether we should have added a thread (because existing ones died since last checking) or that the pool shut down since entry into this method. So we recheck state and if necessary roll back the enqueuing if stopped, or start a new thread if there are none. 3. If we cannot queue task, then we try to add a new thread. If it fails, we know we are shut down or saturated and so reject the task./int c = ctl.get();// worker数量比核心线程数小,直接创建worker执行任务if (workerCountOf(c) < corePoolSize) {if (addWorker(command, true))return;c = ctl.get();}// worker数量超过核心线程数,任务直接进入队列if (isRunning(c) && workQueue.offer(command)) {int recheck = ctl.get();// 线程池状态不是RUNNING状态,说明执行过shutdown命令,需要对新加入的任务执行reject()操作。// 这儿为什么需要recheck,是因为任务入队列前后,线程池的状态可能会发生变化。if (! isRunning(recheck) && remove(command))reject(command);// 这儿为什么需要判断0值,主要是在线程池构造方法中,核心线程数允许为0else if (workerCountOf(recheck) == 0)addWorker(null, false);}// 如果线程池不是运行状态,或者任务进入队列失败,则尝试创建worker执行任务。// 这儿有3点需要注意:// 1. 线程池不是运行状态时,addWorker内部会判断线程池状态// 2. addWorker第2个参数表示是否创建核心线程// 3. addWorker返回false,则说明任务执行失败,需要执行reject操作else if (!addWorker(command, false))reject(command);} 4、addworker源码解析 private boolean addWorker(Runnable firstTask, boolean core) {retry:// 外层自旋for (;;) {int c = ctl.get();int rs = runStateOf(c);// 这个条件写得比较难懂,我对其进行了调整,和下面的条件等价// (rs > SHUTDOWN) || // (rs == SHUTDOWN && firstTask != null) || // (rs == SHUTDOWN && workQueue.isEmpty())// 1. 线程池状态大于SHUTDOWN时,直接返回false// 2. 线程池状态等于SHUTDOWN,且firstTask不为null,直接返回false// 3. 线程池状态等于SHUTDOWN,且队列为空,直接返回false// Check if queue empty only if necessary.if (rs >= SHUTDOWN &&! (rs == SHUTDOWN &&firstTask == null &&! workQueue.isEmpty()))return false;// 内层自旋for (;;) {int wc = workerCountOf(c);// worker数量超过容量,直接返回falseif (wc >= CAPACITY ||wc >= (core ? corePoolSize : maximumPoolSize))return false;// 使用CAS的方式增加worker数量。// 若增加成功,则直接跳出外层循环进入到第二部分if (compareAndIncrementWorkerCount(c))break retry;c = ctl.get(); // Re-read ctl// 线程池状态发生变化,对外层循环进行自旋if (runStateOf(c) != rs)continue retry;// 其他情况,直接内层循环进行自旋即可// else CAS failed due to workerCount change; retry inner loop} }boolean workerStarted = false;boolean workerAdded = false;Worker w = null;try {w = new Worker(firstTask);final Thread t = w.thread;if (t != null) {final ReentrantLock mainLock = this.mainLock;// worker的添加必须是串行的,因此需要加锁mainLock.lock();try {// Recheck while holding lock.// Back out on ThreadFactory failure or if// shut down before lock acquired.// 这儿需要重新检查线程池状态int rs = runStateOf(ctl.get());if (rs < SHUTDOWN ||(rs == SHUTDOWN && firstTask == null)) {// worker已经调用过了start()方法,则不再创建workerif (t.isAlive()) // precheck that t is startablethrow new IllegalThreadStateException();// worker创建并添加到workers成功workers.add(w);// 更新largestPoolSize变量int s = workers.size();if (s > largestPoolSize)largestPoolSize = s;workerAdded = true;} } finally {mainLock.unlock();}// 启动worker线程if (workerAdded) {t.start();workerStarted = true;} }} finally {// worker线程启动失败,说明线程池状态发生了变化(关闭操作被执行),需要进行shutdown相关操作if (! workerStarted)addWorkerFailed(w);}return workerStarted;} 5、线程池worker任务单元 private final class Workerextends AbstractQueuedSynchronizerimplements Runnable{/ This class will never be serialized, but we provide a serialVersionUID to suppress a javac warning./private static final long serialVersionUID = 6138294804551838833L;/ Thread this worker is running in. Null if factory fails. /final Thread thread;/ Initial task to run. Possibly null. /Runnable firstTask;/ Per-thread task counter /volatile long completedTasks;/ Creates with given first task and thread from ThreadFactory. @param firstTask the first task (null if none)/Worker(Runnable firstTask) {setState(-1); // inhibit interrupts until runWorkerthis.firstTask = firstTask;// 这儿是Worker的关键所在,使用了线程工厂创建了一个线程。传入的参数为当前workerthis.thread = getThreadFactory().newThread(this);}/ Delegates main run loop to outer runWorker /public void run() {runWorker(this);}// 省略代码...} 6、核心线程执行逻辑-runworker final void runWorker(Worker w) {Thread wt = Thread.currentThread();Runnable task = w.firstTask;w.firstTask = null;// 调用unlock()是为了让外部可以中断w.unlock(); // allow interrupts// 这个变量用于判断是否进入过自旋(while循环)boolean completedAbruptly = true;try {// 这儿是自旋// 1. 如果firstTask不为null,则执行firstTask;// 2. 如果firstTask为null,则调用getTask()从队列获取任务。// 3. 阻塞队列的特性就是:当队列为空时,当前线程会被阻塞等待while (task != null || (task = getTask()) != null) {// 这儿对worker进行加锁,是为了达到下面的目的// 1. 降低锁范围,提升性能// 2. 保证每个worker执行的任务是串行的w.lock();// If pool is stopping, ensure thread is interrupted;// if not, ensure thread is not interrupted. This// requires a recheck in second case to deal with// shutdownNow race while clearing interrupt// 如果线程池正在停止,则对当前线程进行中断操作if ((runStateAtLeast(ctl.get(), STOP) ||(Thread.interrupted() &&runStateAtLeast(ctl.get(), STOP))) &&!wt.isInterrupted())wt.interrupt();// 执行任务,且在执行前后通过beforeExecute()和afterExecute()来扩展其功能。// 这两个方法在当前类里面为空实现。try {beforeExecute(wt, task);Throwable thrown = null;try {task.run();} catch (RuntimeException x) {thrown = x; throw x;} catch (Error x) {thrown = x; throw x;} catch (Throwable x) {thrown = x; throw new Error(x);} finally {afterExecute(task, thrown);} } finally {// 帮助gctask = null;// 已完成任务数加一 w.completedTasks++;w.unlock();} }completedAbruptly = false;} finally {// 自旋操作被退出,说明线程池正在结束processWorkerExit(w, completedAbruptly);} } 本篇文章为转载内容。原文链接:https://blog.csdn.net/grd_java/article/details/113116244。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-07-21 16:19:45
328
转载
Flink
...理器。嘿,你知道吗?动态表的JOIN操作可真是个了不得的功能。这玩意儿就像个超级小助手,能让我们轻轻松松地处理那些复杂得让人挠头的数据分析工作,让数据处理变得简单又便捷,真可谓是我们的好帮手啊!本文将会详细介绍如何在Flink中实现动态表JOIN操作。 二、什么是动态表JOIN? 动态表JOIN是一种特殊类型的JOIN操作,它可以让我们更加灵活地处理动态数据流。跟老式的静态表格JOIN玩法不一样,动态表JOIN更酷炫,它能在运行时灵活应变。就像个聪明的小助手,会根据输入数据的实时变化自动调整JOIN操作的结果,给你最准确、最新的信息。这种灵活性使得动态表JOIN非常适合处理那些不断变化的数据流。 三、如何在Flink中实现动态表JOIN? 要实现动态表JOIN,我们需要做以下几个步骤: 1. 创建两个动态表 首先,我们需要创建两个动态表,这两个表可以是任何类型的表,例如关系型表、序列文件表或者是Parquet文件表等。 2. 定义JOIN条件 接下来,我们需要定义JOIN条件,这个条件可以是任意的条件,只要它满足动态表JOIN的要求即可。一般情况下,我们常常会借助一些比较基础的条件来进行操作,就像是拿主键做个配对游戏,或者根据时间戳来个精准的时间比对什么的。 3. 使用JOIN操作 最后,我们可以使用Flink的JOIN操作来实现动态表JOIN。Flink提供了多种JOIN操作,例如Inner Join、Left Join、Right Join以及Full Join等。我们可以根据实际情况选择合适的JOIN操作。 四、代码示例 下面是一个使用Flink实现动态表JOIN的简单示例。在本次实例里,我们要用两个活灵活现的动态表格来演示JOIN操作,一个叫“users”,另一个叫“orders”。想象一下,这就像是把这两本会不断更新变化的花名册和订单簿对齐合并一样。 java // 创建两个动态表 DataStream users = ...; DataStream orders = ...; // 定义JOIN条件 MapFunction userToOrderKeyMapper = new MapFunction() { @Override public OrderKey map(User value) throws Exception { return new OrderKey(value.getId(), value.getCountry()); } }; DataStream orderKeys = users.map(userToOrderKeyMapper); // 使用JOIN操作 DataStream> joined = orders.join(orderKeys) .where(new KeySelector() { @Override public OrderKey getKey(OrderKey value) throws Exception { return value; } }) .equalTo(new KeySelector() { @Override public User getKey(User value) throws Exception { return value; } }) .window(TumblingEventTimeWindows.of(Time.minutes(5))) .apply(new ProcessWindowFunction, Tuple2, TimeWindow>() { @Override public void process(TimeWindow window, Context context, Iterable> values, Collector> out) throws Exception { int count = 0; for (Tuple2 value : values) { if (value.f1.getUserId() == value.f0.getId()) { count++; } } if (count > 1) { out.collect(new Tuple2<>(value.f0, value.f1)); } } }); 在这个示例中,我们首先创建了两个动态表users和orders。然后,我们捣鼓出了一个叫userToOrderKeyMapper的神奇小函数,它的任务就是把用户对象摇身一变,变成订单键对象。接着,我们使用这个映射函数将users表转换为orderKeys表。 接下来,我们使用JOIN操作将orders表和orderKeys表进行JOIN。在JOIN操作这个环节,我们搞了个挺实用的小玩意儿叫键选择器where,它就像是个挖掘工,专门从那个orders表格里头找出来每个订单的关键信息。我们也定义了一个键选择器equalTo,它从users表中提取出用户对象。
2023-02-08 23:59:51
369
秋水共长天一色-t
c++
...线程中断异常的探索与实践 1. 引言 在多线程编程的世界中,有效地管理并控制线程行为是一项关键任务。从C++11开始,标准库就像哆啦A梦的口袋一样,掏出了一堆给力的工具来帮我们玩转线程。这当中,有个特别实用、不可或缺的功能就是线程中断,真是让我们的多线程编程如虎添翼啊!这篇文章,咱们要来好好唠唠ThreadInterruptedException这个家伙,它就是在特定情况下会蹦出来的线程中断异常。我将通过一些实实在在的代码实例,带你一起潜入这个既微妙又实用的小天地,保证让你看得明明白白、真真切切。 2. 线程中断的概念与机制 线程中断是一种协作式的线程终止方式,允许主线程或其他线程通知某个正在运行的线程适时停止其执行。在C++这门编程语言里,虽然标准库没有现成的、直接叫“ThreadInterruptedException”的异常类型供我们使用,但是咱完全可以脑洞大开,模拟实现一个类似功能的东西出来。通常,我们借助std::thread::interrupt()方法来设置线程的中断标志,并通过周期性检查std::this_thread::interruption_point()来响应中断请求。 3. 实现ThreadInterruptedException示例 下面,让我们通过一段示例代码来看看如何在C++中模拟ThreadInterruptedException: cpp include include include include // 自定义异常类,模拟ThreadInterruptedException class ThreadInterruptedException : public std::runtime_error { public: ThreadInterruptedException(const std::string& what_arg) : std::runtime_error(what_arg) {} }; // 模拟长时间运行的任务,定期检查中断点 void longRunningTask() { try { while (true) { // 做一些工作... std::cout << "Working...\n"; // 检查中断点,若被中断则抛出异常 if (std::this_thread::interruption_requested()) { throw ThreadInterruptedException("Thread interrupted by request."); } // 短暂休眠 std::this_thread::sleep_for(std::chrono::seconds(1)); } } catch (const ThreadInterruptedException& e) { std::cerr << "Caught exception: " << e.what() << '\n'; } } int main() { std::thread worker(longRunningTask); // 稍后决定中断线程 std::this_thread::sleep_for(std::chrono::seconds(5)); worker.interrupt(); // 等待线程结束(可能是因为中断) worker.join(); std::cout << "Main thread finished.\n"; return 0; } 在这个例子中,我们首先创建了一个自定义异常类ThreadInterruptedException,当检测到中断请求时,在longRunningTask函数内部抛出。然后,在main函数中启动线程执行该任务,并在稍后调用worker.interrupt()发起中断请求。在运行的过程中,线程会时不时地瞅一眼自己的中断状态,如果发现那个标志被人悄悄设定了,它就会立马像个急性子一样抛出异常,然后毫不犹豫地跳出循环。 4. 思考与探讨 虽然C++标准库并未内置ThreadInterruptedException,但我们能够通过上述方式模拟其行为,这为程序提供了更为灵活且可控的线程管理手段。不过,这里要敲个小黑板强调一下,线程中断并不是什么霸道的硬性停止手段,它更像是个君子协定。所以在开发多线程应用的时候,咱们程序员朋友得把这个线程中断机制吃得透透的,合理地运用起来,确保线程在关键时刻能够麻溜儿地、安全无虞地退出舞台哈。 总结来说,理解和掌握线程中断异常对于提升C++多线程编程能力至关重要。想象一下,如果我们模拟一个ThreadInterruptedException,就像是给线程们安排了一个默契的小暗号,当它们需要更好地协同工作、同步步伐时,就可以更体面、更灵活地处理这些情况。这样一来,我们的程序不仅更容易维护,也变得更加靠谱,就像一台精密的机器,每个零件都恰到好处地运转着。
2023-03-08 17:43:12
814
幽谷听泉
CSS
...步关注这一领域的发展动态与实践应用。近期,随着折叠屏设备和超宽屏显示器的普及,对CSS响应式设计提出了更为复杂且精细的要求。例如,Google于2021年发布了Material Design 3规范,其中详细阐述了如何利用最新的CSS特性如container queries、aspect-ratio等属性来实现更精确的组件级响应式设计。 此外,前端开发社区也在积极探索和分享响应式设计的新思路和技术方案。例如,Tailwind CSS框架以其便捷高效的utility-first设计理念,为开发者提供了丰富的响应式设计工具类,简化了根据不同屏幕尺寸调整样式的流程。同时,各大主流浏览器对CSS Grid布局和Flexbox模块的支持日益完善,使得复杂布局的响应式设计变得更加容易实现。 另外,针对移动优先策略,不少专家提倡采用“渐进增强”的设计理念,即先构建一个适用于小屏幕的基本功能和样式,再逐步为更大或更高分辨率的屏幕增加功能和优化样式,这种理念有助于提升网站性能并保证各终端用户体验的一致性。 总之,在不断变化的前端技术环境中,CSS响应式设计持续演进和发展,通过紧跟行业趋势、掌握最新技术和设计理念,我们能更好地适应各类屏幕尺寸,为用户提供更加优雅且一致的浏览体验。
2023-06-07 11:37:32
489
电脑达人
MySQL
...关注数据库性能优化的实践和最新进展至关重要。近期,Percona在其官方博客上发布了一篇关于MySQL 8.0新特性的深度解析文章,其中详细介绍了如何利用新版本中的执行计划改进功能来优化查询性能(链接:[实际链接])。MySQL 8.0引入了对索引条件推断、半联接转换以及优化器提示等方面的增强,这些都能够显著影响SQL语句的执行效率。 同时,InfoQ网站近期报道了一项由阿里云团队主导的重大突破,他们在MySQL数据库性能优化方面取得新成果,通过智能SQL优化引擎,能够实时分析与优化线上运行的SQL语句,减少慢查询,提升整体数据库性能(链接:[实际链接])。这项技术结合机器学习算法,为大规模生产环境下的MySQL性能调优提供了有力支持。 此外,MariaDB也在其最新的5.5版本中推出了一系列性能优化工具及特性,如动态列压缩技术和更完善的资源组管理,旨在帮助企业用户更好地监控和调整数据库操作,降低SQL执行时间(链接:[实际链接])。 总之,在数据库性能优化领域,无论是开源的MySQL还是其分支MariaDB,都在不断演进和创新,以满足日益增长的数据处理需求。持续跟进相关领域的最新研究和技术动态,对于提高数据库系统效能、保障业务稳定运行具有不可忽视的意义。
2023-03-20 17:28:08
51
数据库专家
VUE
...reverse().join('') } } }) 接下来是逻辑渲染, <div id="app"> <p 根据条件显示="显现">You can see me!</p> </div> var app = new Vue({ el: 'app', data: { 显现: true } }) 还有循环渲染, <div id="app"> <ul> <li 数组遍历渲染="item in 项目"> { { item } } </li> </ul> </div> var app = new Vue({ el: 'app', data: { 项目: ['Vue', 'React', 'Angular'] } }) 最后是事件响应, <div id="app"> <button v-on:敲击="次数 增加 1">Add 1</button> <p>You have 敲击ed the button { { 次数 } } times.</p> </div> var app = new Vue({ el: 'app', data: { 次数: 0 } }) 掌握vue要诀,按部就班逐步了解。
2023-04-23 13:30:02
69
算法侠
Python
...向目标、直译式、具有动态类型的编程语言。它非常适宜新手研习和使用,因为它便于理解和理解,而且已经变为许多领域的高级手段。在本文中,我们将阐述怎样使用Python生成正负轮流序列。 Python代码:生成正负轮流序列 def alternating_sequence(n): seq = [] x = 1 for i in range(1, n+1): seq.append(x -1) x = -1 return seq 测试 print(alternating_sequence(10)) [1, -1, 1, -1, 1, -1, 1, -1, 1, -1] 上述代码中,我们首先设定了一个名为alternating_sequence()的方法,该方法接受一个变量n,代表序列的大小。我们将使用一个空数组seq来保存生成的序列。接下来,我们设定变量x初始化为1,这个变量将在后续循环中,标记数字的正负属性。在循环中,我们使用append()方法将x乘以-1的结果添加到序列seq中,并将变量x乘以-1,实现正负轮流。最后,我们返回生成的序列seq。 我们使用print()方法测试了alternating_sequence()方法,将序列的大小设置为10,得到输出[1, -1, 1, -1, 1, -1, 1, -1, 1, -1],表明方法成功生成了一个大小为10的正负轮流的序列。 在Python中,生成正负轮流的序列可以帮助我们完成某些特殊的需求,例如: - 在计算机科学中,我们可以利用正负轮流序列模拟写入和读取磁盘时的平衡负载; - 数学中,这种序列又被称为莫比乌斯方法,可以用于素数、约数的分解等方面。 总之,Python的语法简单易懂,在编程过程中,只需要了解基本的方法、列表、循环语句等知识,就可以轻松地生成出需要的序列。
2023-01-27 13:46:53
343
电脑达人
MySQL
... 从 user 在…条件下 username = 'user1'; 选取 COUNT() 从 user; 5. 修改数据 UPDATE user 设定 password = 'newpassword' 在…条件下 id = 1; 6. 删除数据 DELETE 从 user 在…条件下 id = 2; MySQL提供了丰富的功能和灵活的检索语言,可以满足大部分业务数据的保存需求。
2023-01-17 16:44:32
123
程序媛
转载文章
...L Server采用JOIN子句配合UPDATE实现跨表更新,而PostgreSQL则支持使用FROM子句完成类似操作,这些方法同样值得广大数据库管理员和技术开发者关注与学习。 综上所述,无论是紧跟数据库技术的最新动态,还是深入研究不同系统的特性和最佳实践,都将有助于我们在日常工作中更有效地处理数据订正以及关联表字段同步等问题,提升数据管理与维护的效率和准确性。
2023-09-10 10:14:44
798
转载
Hibernate
...来操作数据库,并支持JOIN查询功能。 Criteria API , Criteria API是Hibernate提供的一种API接口,用于构建动态SQL查询。它允许开发人员在运行时创建并执行面向对象的查询,而无需编写硬编码的HQL或原生SQL语句。在本文中,通过使用Criteria API,可以灵活地构造JOIN查询条件,实现表间数据关联查询。 HQL (Hibernate Query Language) , HQL是Hibernate特有的查询语言,类似于SQL但更面向对象。它允许开发人员以类和属性的方式来查询数据库,而不是直接操作数据库表。在本文上下文中,HQL被用来编写JOIN查询语句,可以根据实体类之间的关联关系来检索多个表中的数据,使得查询更具可读性和移植性。 JOIN , JOIN是SQL中的一个关键概念,用于合并来自两个或更多表的行。根据JOIN类型的不同(INNER JOIN, LEFT OUTER JOIN, RIGHT OUTER JOIN, FULL OUTER JOIN),可以从这些表中选择满足特定连接条件的数据行进行组合。在Hibernate中,可以通过Criteria API或HQL来执行JOIN操作,以便从多个相关联的实体类中获取所需数据。
2023-01-23 14:43:22
504
雪落无痕-t
PostgreSQL
... 2. 场景设定 假设我们有一个数据库,里面有两个表:employees 和 departments。employees 表记录了员工的信息,而 departments 表则记录了部门的信息。两个表之间的关系是通过 department_id 这个外键关联起来的。 表结构如下: - employees - id (INT, 主键) - name (VARCHAR) - department_id (INT, 外键) - departments - id (INT, 主键) - name (VARCHAR) 现在我们需要查询出所有员工的姓名以及他们所在的部门名称。按常规思维,我们会写出如下的两行SQL: sql SELECT e.name AS employee_name, d.name AS department_name FROM employees e JOIN departments d ON e.department_id = d.id; SELECT e.name AS employee_name, d.name AS department_name FROM employees e LEFT JOIN departments d ON e.department_id = d.id; 3. 合并思路 合并这两句SQL的初衷是为了减少数据库查询的次数,提高效率。那么,我们该如何做呢? 3.1 使用 UNION ALL 一个简单的思路是使用 UNION ALL 来合并这两条SQL语句。不过要注意,UNION ALL会把结果集拼在一起,但不会把重复的东西去掉。因此,我们可以先尝试这种方法: sql SELECT e.name AS employee_name, d.name AS department_name FROM employees e JOIN departments d ON e.department_id = d.id UNION ALL SELECT e.name AS employee_name, d.name AS department_name FROM employees e LEFT JOIN departments d ON e.department_id = d.id; 但是,这种方法可能会导致数据重复,因为 JOIN 和 LEFT JOIN 的结果集可能有重叠部分。所以,这并不是最优解。 3.2 使用条件判断 另一种方法是利用条件判断来处理 LEFT JOIN 的情况。你可以把 LEFT JOIN 的结果想象成一个备用值,当 JOIN 找不到匹配项时就用这个备用值。这样可以避免数据重复,同时也能达到合并的效果。 sql SELECT e.name AS employee_name, COALESCE(d.name, 'Unknown') AS department_name FROM employees e LEFT JOIN departments d ON e.department_id = d.id; 这里使用了 COALESCE 函数,当 d.name 为空时(即没有匹配到部门),返回 'Unknown'。这样就能保证所有的员工都有部门信息,即使该部门不存在。 3.3 使用 CASE WHEN 如果我们想在某些情况下返回不同的结果,可以考虑使用 CASE WHEN 语句。例如,如果某个员工的部门不存在,我们可以显示特定的提示信息: sql SELECT e.name AS employee_name, CASE WHEN d.id IS NULL THEN 'No Department' ELSE d.name END AS department_name FROM employees e LEFT JOIN departments d ON e.department_id = d.id; 这样,当 d.id 为 NULL 时,我们就可以知道该员工没有对应的部门信息,并显示相应的提示。 4. 总结与反思 通过上述几种方法,我们可以看到,合并SQL语句其实有很多方式。每种方式都有其适用场景和优缺点。在实际应用中,我们应该根据具体需求选择最合适的方法。这些招数不光让代码更好懂、跑得更快,还把我们的SQL技能磨得更锋利了呢! 在学习过程中,我发现,SQL不仅仅是机械地编写代码,更是一种逻辑思维的体现。每一次优化和改进都是一次对问题本质的深刻理解。希望这篇文章能帮助你更好地理解和掌握SQL语句的合并技巧,让你在数据库操作中更加游刃有余。
2025-03-06 16:20:34
54
林中小径_
Shell
...批量数据的逐条处理与动态控制。 同时,关于条件判断失效的问题也引发了业界对于代码质量把控和测试实践的新思考。许多团队开始强调ShellCheck等静态分析工具的使用,它可以自动检测shell脚本中的常见错误,包括可能导致while循环失效的逻辑问题。此外,提倡采用TDD(测试驱动开发)模式编写shell脚本,预先为关键循环逻辑编写单元测试用例,可以在编码初期就发现问题并及时修复。 值得注意的是,对于避免无限递归这一问题,现代编程范式如函数式编程的一些思想可以提供借鉴,比如明确地设定递归退出条件,并在设计循环结构时注重其简洁性和可读性。而命令执行结果的正确处理,则要求开发者深入理解Unix哲学,遵循“每个程序都做好一件事,并做到最好”的原则,以减少因命令失败导致的意外循环行为。 总之,在实战中不断优化shell编程技巧,深入研究相关工具与最佳实践,不仅可以解决while循环条件失效这类具体问题,更能全面提升开发效率与系统稳定性,适应快速发展的IT技术环境。
2023-07-15 08:53:29
71
蝶舞花间_t
MySQL
...ULL是一个字段约束条件,用于确保某个字段的值在插入或更新记录时必须提供一个实际的、非空的有效值。如果尝试向设置了NOT NULL约束的字段插入NULL或空字符串(对于文本类型字段),MySQL将拒绝该操作,并抛出错误。 默认值(Default Value) , 在MySQL数据库设计中,默认值是指为表的某一字段预先设定的一个固定值,当用户在插入新记录时没有明确指定该字段的值时,系统会自动填充这个默认值。结合NOT NULL约束,即使未在INSERT语句中提供具体数据,MySQL也能保证字段不会出现NULL,而是使用预设的默认值。 PreparedStatement(预编译语句) , 在Java等编程语言与数据库交互的过程中,PreparedStatement是一种预编译的SQL查询对象,允许开发者先定义SQL语句模板,并通过占位符(如“?”)为参数预留位置。在执行查询或插入操作时,可以动态地为这些占位符提供实际值,从而提高SQL执行效率和安全性。通过PreparedStatement,可以有效地防止SQL注入攻击,并确保在插入或更新数据时,每个字段都能被正确且明确地赋值,避免因为空白值导致的数据完整性问题。
2023-04-18 15:27:46
87
风轻云淡_t
Saiku
...神”——系统管理员来设定的,所以假如你对此一头雾水,不知道它们应该是啥,那就赶紧去找这位“超级英雄”咨询一下吧! 3.2 检查并纠正用户名或密码 如果上面的步骤都不能解决问题,那么可能是你的用户名或密码出了问题。在这种情况下,你需要重新获取正确的用户名和密码。具体来说,你可以联系你的系统管理员,让他们告诉你正确的用户名和密码。如果你在其他地儿改了密码,那千万得记住,这个新密码也得在Saiku上生效才行。 3.3 检查并修正Saiku配置 最后,我们还需要检查你的Saiku配置文件,确保其中包含了正确的LDAP集成相关信息。具体的步骤如下: 首先,打开你的Saiku配置文件(通常是/etc/saiku/pentaho-saiku.properties),然后找到相关的LDAP配置项。这些配置项通常包括ldap.url、ldap.basedn、ldap.username等。 然后,检查这些配置项的值是否正确。如果不正确,你需要将它们更改为正确的值。 3.4 重启Saiku 完成上述所有步骤后,你需要重启Saiku才能使更改生效。实际上,这个操作步骤可能会随着你操作系统和安装环境的变化而有所差异。但通常情况下,你有两个主要的方法来完成它:一是通过命令行这种“黑窗口”式的工具,二是利用服务管理器这个功能强大的家伙进行操作,就像你亲自指挥一支小分队一样去管理你的系统服务~ 4. 结论 总的来说,解决Saiku LDAP集成登录失效的问题需要从多个方面入手,包括检查和修正LDAP配置、用户名或密码,以及检查和修正Saiku配置。希望这篇教程能对你有所帮助。如果你在实践中遇到了其他问题,欢迎随时提问。
2023-12-01 14:45:01
130
月影清风-t
Struts2
...了一篇关于新特性——动态拦截器栈的博客,这为解决拦截器顺序问题提供了一种新的解决方案。动态拦截器栈允许开发人员在运行时根据用户请求动态调整拦截器的执行顺序,增强了应用的灵活性和响应性。 一篇文章详细解释了如何利用Spring Boot集成Struts2,并结合Spring AOP(面向切面编程)实现动态拦截器栈。通过实例演示,读者可以看到如何在用户登录状态变化时,仅启用或禁用特定的拦截器,比如权限验证拦截器,从而提高用户体验和性能。 此外,业界对于拦截器性能优化的关注也在升温。研究表明,过度复杂的拦截器链可能导致性能瓶颈,因此推荐定期评估和优化拦截器配置,避免不必要的拦截操作。Struts官方文档也强调了性能监控和优化的重要性,包括使用Profiler工具识别性能瓶颈,以及合理使用缓存策略减少重复计算。 总之,随着Struts2框架的不断发展和社区的最佳实践,拦截器顺序管理和性能优化已成为现代Web开发不可或缺的一部分。开发者们不仅需要熟悉框架的核心机制,还要紧跟技术潮流,灵活运用新特性,以提升应用程序的健壮性和效率。
2024-04-28 11:00:36
126
时光倒流
Scala
...出是由于递归函数没有设定合理的退出条件,使得递归调用无限制进行,最终耗尽了系统为函数调用分配的栈空间,进而引发程序崩溃。 尾递归优化 , 尾递归优化是编程语言编译器对特定递归函数的一种优化手段,它将满足特定条件的递归调用转化为循环结构,从而避免了递归过程中堆栈帧的持续增长。在Scala中,通过使用@tailrec注解标记尾递归函数,编译器会在确保递归调用位于函数体最后一行且每次递归调用不会产生新堆栈帧的情况下,自动进行尾递归优化,以防止栈溢出问题的发生。 动态规划 , 动态规划是一种用于求解最优化问题的算法策略,在处理具有重叠子问题和最优子结构的问题时特别有效。在文章语境下,虽然未直接提到动态规划,但它是递归的一种替代方案,特别是在解决可能导致栈溢出的深度递归问题时。动态规划通过存储和重用已计算的子问题结果(通常称为“记忆化”),可以避免不必要的重复计算,并能有效解决递归深度过大而导致的栈溢出问题。
2023-11-28 18:34:42
105
素颜如水
JSON
JSON条件读取:深入理解与实践探索 JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,广泛应用于Web服务和API接口中。这篇小文呢,咱要唠的就是“JSON条件读取”这码事儿。我会尽量说人话,用大伙都能秒懂的语言,再配上一堆实实在在的代码实例,手把手带你摸清怎么按照自个儿的需求,从JSON这座信息山里头精准挖出想要的数据宝贝。 1. JSON基础回顾 在我们深入探讨条件读取之前,先简单回顾一下JSON的基础知识。JSON是一种文本格式,用来表示键值对的集合,支持数组、对象等复杂结构。例如: json { "users": [ { "id": 1, "name": "Alice", "age": 25, "city": "New York" }, { "id": 2, "name": "Bob", "age": 30, "city": "San Francisco" } ] } 在这个例子中,我们有一个包含多个用户信息的JSON对象,每个用户信息也是一个JSON对象,包含了id、name、age和city属性。 2. JSON条件读取初识 JSON条件读取是指基于预先设定的条件,从JSON数据结构中提取满足条件的特定数据。比如,我们要从这个用户列表里头找出所有年龄超过28岁的大哥大姐们,这就得做个条件筛选了。 2.1 JavaScript中的JSON条件读取 在JavaScript中,我们可以使用循环和条件语句实现JSON条件读取。下面是一个简单的示例: javascript var jsonData = { "users": [ // ... ] }; for (var i = 0; i < jsonData.users.length; i++) { var user = jsonData.users[i]; if (user.age > 28) { console.log(user); } } 这段代码会遍历users数组,并打印出年龄大于28岁的用户信息。 2.2 使用现代JavaScript方法 对于更复杂的查询,可以利用Array.prototype.filter()方法简化条件读取操作: javascript var olderUsers = jsonData.users.filter(function(user) { return user.age > 28; }); console.log(olderUsers); 这里我们使用了filter()方法创建了一个新的数组,其中只包含了年龄大于28岁的用户。 3. 进阶 深度条件读取与JSONPath 在大型或嵌套结构的JSON数据中,可能需要进行深度条件读取。这时,JSONPath(类似于XPath在XML中的作用)可以派上用场。虽然JavaScript原生并不直接支持JSONPath,但可通过第三方库如jsonpath-plus来实现: javascript const jsonpath = require('jsonpath-plus'); var data = { ... }; // 假设是上面那个大的JSON对象 var result = jsonpath.query(data, '$..users[?(@.age > 28)]'); console.log(result); // 输出所有年龄大于28岁的用户 这个例子展示了如何使用JSONPath表达式去获取深层嵌套结构中的满足条件的数据。 4. 总结与思考 JSON条件读取是我们在处理大量JSON数据时不可或缺的技能。用各种语言技巧和工具灵活“玩转”,我们就能迅速找准并揪出我们需要的信息,这样一来,无论是数据分析、应用开发还是其他多种场景,我们都能够提供更棒的支持和服务。随着技术的不断进步,未来没准会出现更多省时省力的小工具和高科技手段,帮咱们轻轻松松解决JSON条件读取这个难题。因此,不断学习、紧跟技术潮流显得尤为重要。让我们一起在实践中不断提升对JSON条件读取的理解和应用能力吧!
2023-01-15 17:53:11
383
红尘漫步
Docker
...指定。比如,我们可以设定日志级别为info,以便只输出信息级别及以上的日志: bash docker run -it --log-driver=json-file --log-opt max-size=10m --log-opt max-file=3 --log-opt labels=info your-image-name 上述命令设置了日志驱动为json-file(这是Docker默认的日志驱动),同时限制了单个日志文件最大10M,最多保存3个文件,并且只记录info及以上级别的日志。 三、查看Docker容器日志的几种方式 1. 使用docker logs命令 Docker提供了一个内置命令docker logs来查看容器的日志,默认情况下,它会显示容器的所有输出。 bash docker logs -f --tail 100 your-container-id-or-name 上述命令中的-f表示实时(follow)输出日志,--tail 100则表示仅显示最后100行日志内容。这就是咱们今天讨论主题的重点操作环节,说白了,就是用来快速瞅一眼某个容器最近都干了啥。 2. 结合journalctl查看systemd驱动的日志 若你配置了Docker使用journald日志驱动,可以借助journalctl工具查看: bash journalctl -u docker.service --since "1 hour ago" _COMM=docker 这里并没有直接实现查看容器最后100行日志,但你可以根据实际需要调整journalctl的查询条件以达到类似效果。 四、深入思考 为什么我们需要查看日志最后100行? 当我们面对复杂的系统环境或突发的问题时,快速定位到问题发生的时间窗口至关重要。瞧瞧Docker容器日志最后的100条信息,就像是翻看最近发生的故事一样,能让我们闪电般地抓住最新的动态,更快地寻找到解决问题的关键线索。这就好比侦探破案,总是先从最新的线索入手,逐步揭开谜团。 五、实践探索 自定义日志输出格式与存储 除了基础的日志查看功能外,Docker还支持丰富的自定义日志处理选项。例如,我们可以将日志发送至syslog服务器,或者对接第三方日志服务如Logstash等。对于资深用户来说,这种灵活性简直就是个宝藏,它意味着无限多的可能性。你可以根据自家业务的具体需求,随心所欲地打造一套最适合自己的日志管理系统,就像私人订制一般,让一切都变得恰到好处。 总结来说,理解和熟练掌握Docker日志管理,尤其是如何便捷地查看日志最后100行,是每个Docker使用者必备技能之一。经过不断动手尝试和摸爬滚打,我们定能把Docker这玩意儿玩得溜起来,让它在咱们的开发运维工作中大显身手,发挥出更大的价值。下次当你面对茫茫日志海洋时,希望这篇指南能助你快速锁定目标,犹如海上的灯塔照亮前行的方向。
2024-01-02 22:55:08
507
青春印记
ActiveMQ
...在接收消息时设置特定条件进行筛选。它通过检查消息头属性(如类型、优先级、时间戳等)来决定哪些消息应该被消费。例如,在文章示例代码中,消费者仅会接收到颜色为red且类型为fruit的消息,这就利用了消息选择器根据预设规则进行过滤的功能。 虚拟主题(Virtual Topic) , 在消息队列系统中,虚拟主题是ActiveMQ提供的一种实现消息分发和过滤的高级功能。不同于传统主题,虚拟主题允许一个生产者将消息发送到主主题,然后由消息中间件根据预先设定的规则自动将这些消息路由到不同的子主题,从而让不同订阅者可以根据自身需求只接收感兴趣的部分消息,实现了消息的精准分发与过滤。 内容路由器(Content-Based Router) , 在ActiveMQ以及其它支持企业集成模式(EIP)的消息中间件中,内容路由器是一种动态路由组件,能够根据消息内容中的属性或值做出智能的路由决策,将消息投递到对应的目标队列或主题。例如,当配置的内容路由器规则是依据header.color属性值的不同将消息路由至不同的目标,那么带有红色标记的消息会被转发至一个队列,而蓝色标记的消息则会被转发至另一个队列,以此实现灵活、精准的消息路由策略。
2023-12-25 10:35:49
421
笑傲江湖
Netty
...领域的最新应用与发展动态。随着Web技术的飞速进步和互联网应用场景的日益丰富,WebSocket已成为构建高性能、实时交互系统的关键技术之一。 例如,近日Google发布了Chrome浏览器对WebSocket协议的重大更新,旨在提升连接稳定性与数据传输效率,并优化了对WebSocket握手过程中的错误处理机制,这将有助于开发者更好地应对类似“握手失败”等问题。同时,一些开源项目如Spring Framework 5.x版本也强化了对WebSocket的支持,提供了更简洁易用的API来帮助开发者创建符合规范的WebSocket服务端,从而有效避免因握手响应不完整或无效导致的问题。 此外,对于深入理解WebSocket协议规范以及实战应用,可以进一步研读RFC6455(WebSocket协议标准)以获取第一手权威资料,并参考行业内的最佳实践案例,比如各大云服务商基于WebSocket实现的消息推送服务架构解析,从中吸取经验教训,确保在使用Netty等工具进行WebSocket编程时能够更加得心应手。 总之,在实际开发过程中,紧跟WebSocket协议和技术的发展趋势,结合本文所探讨的Netty框架下握手问题解决方案,将有助于我们打造更为稳定、高效且符合业界标准的WebSocket应用程序。
2023-11-19 08:30:06
211
凌波微步
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
date +%Y-%m-%d - 显示当前日期(YYYY-MM
-DD格式)。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"