Kafka消息可靠性保证：从理论到实践 1. 什么是Kafka？为什么它这么火？说到Kafka，你可能已经听说过它的名字无数次了。它是分布式流处理平台的代名词，一个开源的消息队列系统。Kafka这东西啊，最早是LinkedIn那边捣鼓出来的，后来觉得挺好，就把它送给了Apache基金会。没想到吧，就这么一送，它现在在大数据圈子里混得那叫一个风生水起，已经成了整个生态里头离不开的重要角色啦！作为一个开发者，我对Kafka的第一印象是它超级可靠。无论是高吞吐量、低延迟还是容错能力，Kafka都表现得非常出色。大家有没有想过啊，“可靠”这个词到底是怎么来的？为啥说某个东西“靠谱”，我们就觉得它值得信赖呢？今天咱们就来聊聊这个事儿——比如说，你发出去的消息，咋就能保证它不会石沉大海、人间蒸发了呢？这可不是开玩笑的事儿，尤其是在大数据的世界里，丢一个消息可能就意味着丢了一笔订单或者错过了一次重要沟通。所以啊，今天我们就要揭开谜底，跟大家唠唠Kafka是怎么做到让消息“稳如老狗”的！ 2. Kafka可靠性背后的秘密武器 Kafka的可靠性主要依赖于以下几个核心概念： 2.1 持久化与日志结构 Kafka将所有数据存储在日志文件中，并通过持久化机制确保数据不会因为服务器宕机而丢失。简单来说，就是把消息写入磁盘而不是内存。 java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("acks", "all"); props.put("retries", 0); props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); Producer producer = new KafkaProducer<>(props); producer.send(new ProducerRecord<>("my-topic", "my-key", "my-value")); producer.close(); 这段代码展示了如何发送一条消息到Kafka主题。其中acks="all"参数表示生产者会等待所有副本确认收到消息后才认为发送成功。 2.2 分区与副本机制 Kafka通过分区（Partition）来分摊负载，同时通过副本（Replica）机制来提高可用性和容错性。每个分区可以有多个副本，其中一个为主副本，其余为从副本。 java AdminClient adminClient = AdminClient.create(props); ListTopicsOptions options = new ListTopicsOptions(); options.listInternal(true); Set topics = adminClient.listTopics(options).names().get(); System.out.println("Topics: " + topics); 这段代码用于列出Kafka集群中的所有主题及其副本信息。通过这种方式，你可以检查每个主题的副本分布情况。 3. 生产者端的可靠性保障作为生产者，我们需要确保发送出去的消息能够安全到达Kafka集群。这涉及到一些关键配置： - acks：控制生产者的确认级别。设置为"all"时，意味着必须等待所有副本确认。 - retries：指定重试次数。如果网络抖动导致消息未送达，Kafka会自动重试。 - linger.ms：控制批量发送的时间间隔。默认值为0毫秒，即立即发送。 java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("acks", "all"); props.put("retries", 3); props.put("linger.ms", 5); props.put("batch.size", 16384); Producer producer = new KafkaProducer<>(props); for (int i = 0; i < 100; i++) { producer.send(new ProducerRecord<>("my-topic", Integer.toString(i), Integer.toString(i))); } producer.close(); 在这个例子中，我们设置了retries=3和linger.ms=5，这意味着即使遇到短暂的网络问题，Kafka也会尝试最多三次重试，并且会在5毫秒内累积多条消息一起发送。 4. 消费者端的可靠性保障消费者端同样需要关注可靠性问题。Kafka 有两种消费模式，一个叫 earliest，一个叫 latest。简单来说，earliest 就是从头开始补作业，把之前没看过的消息全都读一遍；而 latest 则是直接从最新的消息开始看，相当于跳过之前的存档，直接进入直播频道。 java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("group.id", "test-group"); props.put("enable.auto.commit", "true"); props.put("auto.commit.interval.ms", "1000"); props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); KafkaConsumer consumer = new KafkaConsumer<>(props); consumer.subscribe(Arrays.asList("my-topic")); while (true) { ConsumerRecords records = consumer.poll(Duration.ofMillis(100)); for (ConsumerRecord record : records) { System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value()); } } 这段代码展示了如何订阅一个主题并持续拉取消息。注意这里启用了自动提交功能，这样就不需要手动管理偏移量了。 5. 总结与反思通过今天的讨论，我相信大家对Kafka的消息可靠性有了更深的理解。Kafka能从一堆消息队列系统里脱颖而出，靠的就是它在设计的时候就脑补了各种“灾难片”场景，比如数据爆炸、服务器宕机啥的，然后还给配齐了神器，专门对付这些麻烦事儿。然而，正如任何技术一样，Kafka也不是万能的。在实际应用中，我们还需要结合具体的业务需求来调整配置参数。比如说啊，在那种超级忙、好多请求同时涌过来的场景下，就得调整一下每次处理的任务量，别一下子搞太多，慢慢来可能更稳。但要是你干的事特别讲究速度，晚一秒钟都不行的那种，那就得想办法把发东西的时间间隔调短点，越快越好！总之，Kafka的强大之处在于它允许我们灵活地调整策略以适应不同的工作负载。希望这篇文章能帮助你在实践中更好地利用Kafka的优势！如果你有任何疑问或想法，欢迎随时交流哦~

2025-04-11 16:10:34

幽谷听泉

转载文章

[转载]开放式激光振镜+运动控制器(六)：双振镜运动

...入输出在内的通信协议统一化，以促进不同制造商设备间的无缝集成，降低系统开发难度和成本。综上所述，无论是从控制器核心技术的演进，还是激光振镜控制系统智能化的发展趋势，以及行业标准的规范化推进，都显示出了工业自动化领域的勃勃生机与广阔前景。对于技术人员而言，紧跟这些前沿动态，掌握更高效、精确的运动控制技术，无疑将极大地推动自身业务水平的提升与创新。

2023-12-04 17:33:09

338

转载

转载文章

[转载]浅谈Linux内核RCU机制原理

...发布-订阅机制是一种消息传递范式，其中一个组件（发布者）发布事件或数据，而其他组件（订阅者）根据它们的兴趣来接收这些信息。在RCU的上下文中，这个机制用来保证当一个新节点插入链表时，读取线程可以在节点完全初始化后再进行访问，从而确保读取到的是完整且一致的数据状态。这意味着即使在插入操作尚未完全完成时，读取线程也能正确识别和处理新增的节点。

2023-09-25 09:31:10

105

转载

NodeJS

Node.js项目基于Docker容器化部署实现环境一致性与镜像优化

...而言是一个重要的利好消息，因为这意味着未来的Docker镜像将更加兼容，开发者可以更轻松地在不同平台上迁移和共享他们的应用。此外，随着Kubernetes的兴起，容器编排工具逐渐成为主流。Kubernetes不仅支持Docker容器，还提供了强大的自动化管理能力，使得大规模部署Node.js应用变得更加高效。例如，某知名电商公司在去年成功将其电商平台迁移到基于Kubernetes的Docker容器集群上，不仅提升了系统的稳定性和扩展性，还显著降低了运维成本。从长远来看，容器化技术将继续推动DevOps文化的普及，促进开发人员和运维团队之间的协作。正如Linux之父Linus Torvalds所说：“开源的本质在于合作而非竞争。”通过拥抱开源技术和社区的力量，开发者可以更快地创新并解决实际问题。对于Node.js开发者而言，掌握Docker和Kubernetes等工具，不仅是技术上的提升，更是职业发展的必要条件。在未来几年，我们有理由相信，容器化技术将在更多领域展现出其独特的价值，为软件行业带来更多的可能性。

2025-05-03 16:15:16

海阔天空

DorisDB

DorisDB数据写入失败：剖析与解决——从网络延迟到资源限制

...收到了“写入失败”的消息，同时发现网络连接偶尔会中断。解决方案：首先，检查网络连接稳定性。确保你的服务器与DorisDB实例之间的网络畅通无阻。其次，优化SQL语句的执行效率，减少网络传输的数据量。例如，可以考虑批量插入数据，而不是逐条插入。第三章：资源限制：磁盘空间不足的挑战场景还原：你的DorisDB实例运行在一个资源有限的环境中，某天，当你试图插入大量数据时，系统提示磁盘空间不足。问题浮现：尽管你已经确保了网络连接稳定，但写入仍然失败。解决方案：增加磁盘空间是显而易见的解决方法，但这需要时间和成本。哎呀，兄弟，你得知道，咱们手头的空间那可是个大问题啊！要是想在短时间内搞定它，我这儿有个小妙招给你。首先，咱们得做个大扫除，把那些用不上的数据扔掉。就像家里大扫除一样，那些过时的文件、照片啥的，该删就删，别让它占着地方。其次呢，咱们可以用更牛逼的压缩工具，比如ZIP或者RAR，它们能把文件压缩得更小，让硬盘喘口气。这样一来，不仅空间大了，还能节省点资源，挺划算的嘛！试试看，说不定你会发现自己的设备运行起来比以前流畅多了！嘿，兄弟！你听说过 DorisDB 的分片和分布式功能吗？这玩意儿超级厉害！它就像个大仓库，能把咱们的数据均匀地摆放在多个小仓库里（那些就是节点），这样不仅能让数据更高效地存储起来，还能让我们的系统跑得更快，用起来更顺畅。试试看，保管让你爱不释手！第四章：事务冲突与并发控制场景还原：在高并发环境下，多个用户同时尝试插入数据到同一表中，导致了写入失败。问题浮现：即使网络连接稳定，磁盘空间充足，事务冲突仍可能导致写入失败。解决方案：引入适当的并发控制机制是关键。在DorisDB中，可以通过设置合理的锁策略来避免或减少事务冲突。例如，使用行级锁或表级锁，根据具体需求选择最合适的锁模式。哎呀，兄弟，咱们在优化程序的时候，得注意一点，别搞那些没必要的同时进行的操作，这样能大大提升系统的稳定性。就像是做饭，你要是同时炒好几个菜，肯定得忙得团团转，而且容易出错。所以啊，咱们得一个个来，稳扎稳打，这样才能让系统跑得又快又稳！结语：从困惑到解决的旅程面对“写入失败”，我们需要冷静分析，从不同的角度寻找问题所在。哎呀，你知道嘛，不管是网速慢了点、硬件不够给力、操作过程中卡壳了，还是设置哪里没对劲，这些事儿啊，都有各自的小妙招来解决。就像是遇到堵车了，你得找找是哪段路的问题，然后对症下药，说不定就是换个路线或者等等红绿灯，就能顺畅起来呢！哎呀，你知道不？咱们要是能持续地学习和动手做，那咱处理问题的能力就能慢慢上个新台阶。就像给水管通了塞子，数据的流动就更顺畅了。这样一来，咱们的业务跑起来也快多了，就像是有了个贴身保镖，保护着业务高效运转呢！嘿！听好了，每回遇到难题都不是白来的，那可是让你升级打怪的好机会！咱们就一起手牵手，勇闯数据的汪洋大海，去发现那些藏在暗处的新世界吧！别怕，有我在你身边，咱俩一起探险，一起成长！

2024-10-07 15:51:26

123

醉卧沙场

Tornado

基于Tornado和Google Cloud Secret Manager构建加密存储敏感信息的Web服务

...Pub/Sub 实现消息队列机制。如果你也有类似的想法或者遇到什么问题，欢迎随时跟我交流呀！最后祝大家 coding愉快，记得保护好自己的秘密哦~ 😊

2025-04-09 15:38:23

追梦人

Javascript

异步操作中网络请求取消操作的错误处理与信号机制对用户体验的影响

...异步操作的集中管理和统一控制，从而提高代码的可维护性和响应能力。

2025-03-27 16:22:54

106

月影清风

ElasticSearch

Elasticsearch安全性提升：SSL/TLS加密通信+用户认证+授权+日志审计

...和实施安全措施时遵循统一规范。通过不断学习最新的安全趋势和技术动态，企业能够更好地保护自己的资产免受威胁。总之，面对日益复杂的网络环境，唯有保持警惕并积极行动，才能真正实现Elasticsearch乃至整个IT基础设施的安全稳定运行。

2025-05-12 15:42:52

星辰大海

转载文章

[转载]清华都老师介绍windows下的mpich的经验

...也是可读写的，盘符的格式是一样的，单机可以运行 mpirun -np 2 -localonly c:/ .exe 有结果 Zhihui Du <duzh@tsinghua.edu.cn> wrote: 安装mpich后应该有一个新的mpi进程在运行，用mpiconfig应该能够列出其他的机器才行，还有这些计算结点的网络配置应该在一个子网内，另外共享的权限是否是任何用户可以读写？你用mpirun -localonly -np x abc方式是否可以运行？ ------------------------------ Dr. Zhihui Du Department of Computer Science and Technology Tsinghua University. Beijing, 100084, P.R. China Phone:86-10-62782530 Fax:86-10-62771138 http://hpclab.cs.tsinghua.edu.cn/~duzh ----- Original Message ----- From: zhyi To: Zhihui Du Sent: Saturday, October 30, 2004 5:55 PM Subject: Re: 请教mpi 我是严格按照mpich的要求进行的， 1。使用管理员权限在两机器上新建同一个名称的用户及相同的口令 2。分别在上面的两用户里安装mpich,然后mpiregister ,用户名和口令同 3。同一名称的盘符共享 4。mpiconfig,显示了对方的mpich 的版本号，说明已找到。 5。运行mpi程序这样还是没有用，我们这边在windows系统下进行的很少有人成功过我们都在网上问这个问题 Zhihui Du <duzh@tsinghua.edu.cn> wrote: 如果仅仅是自己做实验用，就可以不要考虑太多的安全问题，把MPI程序所在的盘共享出来让其他的机器都可以访问，按照MPICH自己的设置，你可以运行MPIREGISTER程序先注册一下用户名和口令。 ------------------------------ Dr. Zhihui Du Department of Computer Science and Technology Tsinghua University. Beijing, 100084, P.R. China Phone:86-10-62782530 Fax:86-10-62771138 http://hpclab.cs.tsinghua.edu.cn/~duzh ----- Original Message ----- From: zhyi To: duzh@tirc.cs.tsinghua.edu.cn Sent: Friday, October 29, 2004 9:26 PM Subject: 请教mpi 都老师：你好！我是南京大学系学生，现在正在用mpi进行数值并行编程，是在windows系统下，同实验室的两台机器，总是显示登陆失败不知怎么设置的。两台机器用的是同一用户名和相同密码，同样的注册。希望能得到您的指点。此致 -- ※ 来源:．南京大学小百合站 http://bbs.nju.edu.cn [FROM: 172.16.78.68] -- ※ 转寄:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 202.120.20.14] -- ※ 转寄:．南京大学小百合站 bbs.nju.edu.cn．[FROM: 202.120.20.14] 一、预备工作 0. 二、下载 1. 下载mpich 三、安装 2. 用具有管理权限的帐户登陆计算机 3. 执行mpich.nt.1.2.5.exe，选择所有缺省安装 4. 在每台计算机上均执行上述过程2、3 四、配置 5. 运行配置工具 start->programs->MPICH->mpd->MPICH Configuration tool 6. 加入已经安装mpich的主机 7.点击 [Apply] 保存 8 点击 [OK] 退出五、测试 9. 打开MSDEV工作空间文件 MPICH/SDK/examples/nt/examples.dsw 10. 编译调试该cpi 项目 11. 拷贝MPICH/SDK/examples/nt/basic/Debug/cpi.exe 到每一台机器某一共享目录。如： c:/temp/cpi.exe 注意：确保每台机器均有同样的共享目录，并且可以互相访问！！ 12. 打开命令窗口，改变当前路径到 c:/temp 下(与前相同) 13. 执行命令 MPICH/mpd/bin/mpirun.exe -np 4 cpi 本篇文章为转载内容。原文链接：https://blog.csdn.net/yangdelong/article/details/3946113。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-09 11:52:38

113

转载

Hive

Hive中使用GZIP与BZIP2压缩格式构建外部表以提升性能优化

...用一些不被支持的压缩格式：GZIP、BZIP2等一、引言为什么我们要折腾这些“不被支持”的压缩格式？大家好啊，我是你的数据工程师小A。嘿，今天咱们来聊个有点“叛逆”的事儿——你知道吗？在Hive里头，有些压缩格式虽然官方文档上明晃晃地写着“不支持”，但其实很多人还在偷偷用，像GZIP和BZIP2这些就挺典型的。这事儿听着是不是还挺有意思？相当于跟官方规矩唱反调嘛！哈哈，我知道这话听着可能有点“疯疯癫癫”的，但说实话，谁还没点被迫走出舒适区的时候呢？比如为了给硬盘腾地方，或者让数据库跑得更快一点，咱总得豁出去折腾折腾吧！先简单介绍一下背景吧。Hive其实就像是个建在Hadoop上的“数据仓库”，它能帮我们把有条理的数据存到HDFS里，然后用类似SQL的语句去查询和处理这些数据，特别方便！Hive默认支持一些常见的压缩格式，比如Snappy、LZO等。哎呀，你要是想用GZIP或者BZIP2来存表，那可得小心点啊！没准Hive会直接给你整出个错误，连数据都不让你加载。这到底是咋回事儿呢？其实吧，这是因为这两种压缩方式的性格和Hive的理念不太合拍。简单来说，它们的玩法不一样，所以Hive就觉得有点不爽，干脆就不让你这么干了。那么问题来了：既然Hive不支持它们，为什么我们还要去折腾这些“非主流”压缩格式呢？我的回答是：因为它们可能真的有用！比如，GZIP非常适合用于压缩单个文件，而BZIP2则在某些场景下能提供更高的压缩比。所以说嘛，官方案子虽然说了不让搞，但我们不妨大胆试试，看看这些玩意儿到底能整出啥名堂！ --- 二、理论基础 GZIP vs BZIP2 vs Hive的“规则” 在深入讨论具体操作之前，我们得先搞清楚这三个东西之间的差异。嘿，先说个大家可能都知道的小秘密——GZIP可是个超火的压缩“神器”呢！它最大的特点就是又快又好用，压缩文件的速度嗖一下就搞定了，效果也还行，妥妥的性价比之王！而BZIP2则是另一种高级压缩算法，虽然压缩比更高，但速度相对较慢。相比之下，Hive好像更喜欢找那种“全能型选手”，就像Snappy这种，又快又能省资源，简直两全其美！现在问题来了：既然Hive有自己的偏好，那我们为什么要挑战它的权威呢？答案很简单：现实世界中的需求往往比理想模型复杂得多。比如说啊，有时候我们有一堆小文件，东一个西一个的，看着就头疼，想把它们整整齐齐地打包成一个大文件存起来，这时候用GZIP就很方便啦！但要是你手头的数据量超级大，比如几百万张高清图片那种，而且你还特别在意压缩效果，希望能榨干每一丢丢空间，那BZIP2就更适合你了，它在这方面可是个狠角色！当然，这一切的前提是我们能够绕过Hive对这些格式的限制。接下来，我们就来看看具体的解决方案。 --- 三、实践篇如何让Hive接受GZIP和BZIP2？ 3.1 GZIP的逆袭之路让我们从GZIP开始说起。想象一下，你有个文件夹，专门用来存各种日志文件，里面的文件可多啦！不过呢，这些文件都特别小巧，大概就几百KB的样子，像是些小纸条，记录着各种小事。哎呀，要是直接把一堆小文件一股脑儿塞进HDFS里，那可就麻烦了！这么多小文件堆在一起，系统就会变得特别卡，整体性能直线下降，简直像路上突然挤满了慢吞吞的小汽车，堵得不行！要解决这个问题嘛，咱们可以先把文件用GZIP压缩一下，弄个小“压缩包”，然后再把它丢进Hive里头去。下面是一段示例代码，展示了如何创建一个支持GZIP格式的外部表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS log_db; -- 切换到数据库 USE log_db; -- 创建外部表并指定GZIP格式 CREATE EXTERNAL TABLE IF NOT EXISTS logs ( id STRING, timestamp STRING, message STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE -- 注意这里使用TEXTFILE而不是默认的SEQUENCEFILE LOCATION '/path/to/gzipped/files'; 看到这里，你可能会问：“为什么这里要用TEXTFILE而不是SEQUENCEFILE？”这是因为Hive默认不支持直接读取GZIP格式的数据，所以我们需要手动调整存储格式。此外，还需要确保你的Hadoop集群已经启用了GZIP解压功能。 3.2 BZIP2的高阶玩法接下来轮到BZIP2登场了。相比于GZIP，BZIP2的压缩比更高，但它也有一个明显的缺点：解压速度较慢。因此，BZIP2更适合用于那些访问频率较低的大规模静态数据集。下面这段代码展示了如何创建一个支持BZIP2格式的分区表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS archive_db; -- 切换到数据库 USE archive_db; -- 创建分区表并指定BZIP2格式 CREATE TABLE IF NOT EXISTS archives ( file_name STRING, content STRING ) PARTITIONED BY (year INT, month INT) STORED AS RCFILE -- RCFILE支持BZIP2压缩 TBLPROPERTIES ("orc.compress"="BZIP2"); 需要注意的是，在这种情况下，你需要确保Hive的配置文件中启用了BZIP2支持，并且相关的JAR包已经正确安装。 --- 四、实战经验分享踩过的坑与学到的东西在这个过程中，我遇到了不少挫折。比如说吧，有次我正打算把一个GZIP文件塞进Hive里，结果系统直接给我整了个报错，说啥解码器找不着。折腾了半天才发现，哎呀，原来是服务器上那个GZIP工具的老版本太不给劲了，跟最新的Hadoop配不上，闹起了脾气！于是，我赶紧联系运维团队升级了相关依赖，这才顺利解决问题。还有一个教训是关于文件命名规范的。一开始啊，我老是忘了在压缩完的文件后面加“.gz”或者“.bz2”这种后缀名，搞得 Hive 一脸懵逼，根本分不清文件是啥类型的，直接就报错不认账了。后来我才明白，那些后缀名可不只是个摆设啊，它们其实是给文件贴标签的，告诉你这个文件是啥玩意儿，是图片、音乐，还是什么乱七八糟的东西。 --- 五、总结与展望总的来说，虽然Hive对GZIP和BZIP2的支持有限，但这并不意味着我们不能利用它们的优势。相反，只要掌握了正确的技巧，我们完全可以在这两者之间找到平衡点，满足不同的业务需求。最后，我想说的是，作为一名数据工程师，我们不应该被工具的限制束缚住手脚。相反，我们应该敢于尝试新事物，勇于突破常规。毕竟，正是这种探索精神，推动着整个行业不断向前发展！好了，今天的分享就到这里啦。如果你也有类似的经历或者想法，欢迎随时跟我交流哦~再见啦！

2025-04-19 16:20:43

翡翠梦境

转载文章

[转载]20171105_shiyan_upanddown Struts上传、下载功能结合（集合模拟数据库）

...ame", "用户名格式错误！");} }if(password==null||password.trim().equals("")) {this.addFieldError("password","密码不能为空！");}else {if(!Pattern.matches("\\d{6,15}", password.trim())) {this.addFieldError("password", "密码格式错误！");} }} } /20171105_shiyan_upanddown/src/nuc/sw/interceptor/LoginInterceptor.java package nuc.sw.interceptor;import com.opensymphony.xwork2.Action;import com.opensymphony.xwork2.ActionContext;import com.opensymphony.xwork2.ActionInvocation;import com.opensymphony.xwork2.ActionSupport;import com.opensymphony.xwork2.interceptor.AbstractInterceptor;public class LoginInterceptor extends AbstractInterceptor {@Overridepublic String intercept(ActionInvocation arg0) throws Exception {// TODO Auto-generated method stub//判断是否登陆，通过ActionContext访问SessionActionContext ac=arg0.getInvocationContext();String username=(String)ac.getSession().get("user");if(username!=null&&username.equals("chenghaoran")) {return arg0.invoke();//放行}else {((ActionSupport)arg0.getAction()).addActionError("请先登录！");return Action.LOGIN;} }} /20171105_shiyan_upanddown/src/struts.xml <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.1.7//EN""http://struts.apache.org/dtds/struts-2.1.7.dtd"><struts><constant name="struts.i18n.encoding" value="utf-8"/><package name="default" extends="struts-default"><interceptors><interceptor name="login" class="nuc.sw.interceptor.LoginInterceptor"></interceptor></interceptors> <action name="docUpload" class="nuc.sw.action.DocUploadAction"><interceptor-ref name="fileUpload"><param name="maximumSize">50000</param></interceptor-ref><interceptor-ref name="defaultStack"/><param name="savePath">/upload</param><result>/showFile.jsp</result><result name="input">/uploadFile.jsp</result></action> <action name="docDownload" class="nuc.sw.action.DocDownloadAction"><result type="stream"><param name="contentType">application/msword,text/plain</param><param name="inputName">inputStream</param><param name="contentDisposition">attachment;filename="${downloadFileName}"</param><param name="bufferSize">40960</param></result></action><action name="loginAction" class="nuc.sw.action.LoginAction" method="loginMethod"><result name="loginOK">/uploadFile.jsp</result><result name="loginFail">/login.jsp</result><result name="input">/login.jsp</result></action> </package></struts> /20171105_shiyan_upanddown/WebContent/login.jsp <%@ page language="java" contentType="text/html; charset=UTF-8"pageEncoding="UTF-8"%><%@ taglib prefix="s" uri="/struts-tags" %> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>登录页</title><s:head/></head><body><s:actionerror/><s:fielderror fieldName="err"></s:fielderror><s:form action="loginAction" method="post"> <s:textfield label="用户名" name="username"></s:textfield><s:password label="密码" name="password"></s:password><s:submit value="登陆"></s:submit></s:form></body></html> /20171105_shiyan_upanddown/WebContent/showFile.jsp <%@ page language="java" contentType="text/html; charset=UTF-8"pageEncoding="UTF-8"%><%@ taglib prefix="s" uri="/struts-tags" %><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>显示上传文档</title></head><body><center><font style="font-size:18px;color:red">上传者：<s:property value="name"/></font><table width="45%" cellpadding="0" cellspacing="0" border="1"><tr><th>文件名称</th><th>上传者</th><th>上传时间</th></tr><s:iterator value="uploadFileName" status="st" var="doc"><tr><td align="center"><a href="docDownload.action?downPath=upload/<s:property value="doc"/>"><s:property value="doc"/> </a></td><td align="center"><s:property value="name"/></td><td align="center"><s:date name="createTime" format="yyyy-MM-dd HH:mm:ss"/></td></tr></s:iterator></table></center></body></html> /20171105_shiyan_upanddown/WebContent/uploadFile.jsp <%@ page language="java" contentType="text/html; charset=UTF-8"pageEncoding="UTF-8"%><%@ taglib prefix="s" uri="/struts-tags" %><!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>多文件上传</title></head><body><center><s:form action="docUpload" method="post" enctype="multipart/form-data"><s:textfield name="name" label="姓名" size="20"/><s:file name="upload" label="选择文档" size="20"/><s:file name="upload" label="选择文档" size="20"/><s:file name="upload" label="选择文档" size="20"/><s:submit value="确认上传" align="center"/></s:form></center></body></html> 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_34101492/article/details/78811741。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-12 20:53:42

140

转载

Hadoop

Hadoop结合HDFS实现跨硬件复制保障分布式系统数据可靠性与副本策略

...e这样的新一代数据湖格式逐渐流行起来，它们在数据存储、更新和查询方面提供了更高的效率和更低的成本。与此同时，Kubernetes作为容器编排的事实标准，也正在改变传统Hadoop集群的管理模式。越来越多的企业开始尝试将Hadoop与Kubernetes结合，通过容器化部署来简化运维工作，提高资源利用率。此外，隐私保护法规的变化也为Hadoop的应用带来了新挑战。随着《个人信息保护法》等法律法规在全球范围内的实施，企业在处理敏感数据时必须更加谨慎。在这种背景下，如何在保证数据安全的同时实现高效的大数据分析成为了一个亟待解决的问题。一些公司正在探索使用加密技术和联邦学习等方法，以确保数据在传输和处理过程中不被泄露。另一方面，尽管Hadoop本身仍在持续迭代更新，但社区的关注点已经开始向边缘计算转移。边缘计算能够有效缓解中心化数据中心的压力，特别是在物联网设备数量激增的情况下。通过在靠近数据源的地方进行预处理，不仅可以降低延迟，还能减少带宽消耗。这为Hadoop未来的发展指明了一条新的路径。总之，虽然Hadoop面临诸多挑战，但凭借其成熟的技术体系和广泛的应用基础，它仍然是许多企业和组织不可或缺的选择。未来，Hadoop可能会与其他新兴技术深度融合，共同推动大数据产业的进步。

2025-03-26 16:15:40

冬日暖阳

转载文章

[转载]详解Class类文件的结构（上）

...这种特定的二进制文件格式所关联。虚拟机具有语言无关性，它不关心Class文件的来源是何种语言，它只关心Class文件中的内容。Java语言中的各种变量、关键字和运算符号的语义最终都是由多条字节码命名组合而成的，因此字节码命令所能提供的语义描述能力比Java语言本身更加强大。二、Class文件的结构虚拟机可以接受任何语言编译而成的Class文件，因此也给虚拟机带来了安全隐患，为了提供语言无关性的功能就必须做好安全防备措施，避免危险有害的类文件载入到虚拟机中，对虚拟机造成损害。所以在类加载的第二大阶段就是验证，这一步工作是虚拟机安全防护的关键所在，其中检查的步骤就是对class文件按照《Java虚拟机规范》规定的内容来对其进行验证。 1.总体结构 Class文件是一组以8位字节为基础单位的二进制流，各个数据项目严格按照顺序紧凑地排列在Class文件之中，中间没有添加任何分隔符，Class文件中存储的内容几乎全部是程序运行的必要数据，没有空隙存在。当遇到需要占用8位字节以上空间的数据项时，就按照高位在前的方式分割成若干个8位字节进行存储。 Class文件格式采用类似于C语言结构体的伪结构来存储数据，这种伪结构只有两种数据类型：无符号数和表。无符号数属于基本的数据类型，以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节、8个字节的无符号数，无符号数可以来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。表是由多个无符号数或者其他表作为数据项构成的复合数据类型，所有表都习惯性的以“_info”结尾。表用于描述有层次关系的复合结构的数据，整个Class文件本质上就是一张表，它的数据项构成如下图。 2.魔数（Magic Number）每一个Class文件的头4个字节成为魔数（Magic Number），它的唯一作用是确定这个文件是否是一个能被虚拟机接收的Class文件。很多文件存储标准中都是用魔数来进行身份识别，比如gif、png、jpeg等都有魔数。使用魔数主要是来识别文件的格式，相比于通过文件后缀名识别，这种方式准确性更高，因为文件后缀名可以随便更改，但更改二进制文件内容的却很少。Class类文件的魔数是Oxcafebabe，cafe babe？咖啡宝贝？至于为什么是这个，这个名字在java语言诞生之初就已经确定了，它象征着著名咖啡品牌Peet's Coffee中深受欢迎的Baristas咖啡，Java的商标logo也源于此。 3.文件版本（Version）在魔数后面的4个字节就是Class文件的版本号，第5和第6个字节是次版本号（Minor Version），第7和第8个字节是主版本号（Major Version）。Java的版本号是从45开始的，JDK1.1之后的每个JDK大版本发布主版本号向上加1（JDK1.0~1.1使用的版本号是45.0~45.3），比如我这里是十六进制的Ox0034，也就是十进制的52，所以说明该class文件可以被JDK1.8及以上的虚拟机执行，否则低版本虚拟机执行会报java.lang.UnsupportedClassVersionError错误。 4.常量池（Constant Pool）在主版本号紧接着的就是常量池的入口，它是Class文件结构中与其他项目关联最多的数据类型，也是占用空间最大的数据之一。常量池的容量由后2个字节指定，比如这里我的是Ox001d，即十进制的29，这就表示常量池中有29项常量，而常量池的索引是从1开始的，这一点需要特殊记忆，因为程序员习惯性的计数法是从0开始的，而这里不一样，所以我这里常量池的索引范围是1~29。设计者将第0项常量空出来是有目的的，这样可以满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义。通过javap -v命令反编译出class文件之后，我们可以看到常量池的内容常量池中主要存放两大类常量：字面量和符号引用。比如文本字符、声明为final的常量值就属于字面量，而符号引用则包含下面三类常量：类和接口的全限名字段的名称和描述符方法的名称和描述符在之前的文章（详谈类加载的全过程）中有详细讲到，在加载类过程的第二大阶段连接的第三个阶段解析的时候，会将常量池中的符号引用替换为直接引用。相信很多人在开始了解那里的时候也是一头雾水，作者我也是，当我了解到常量池的构成的时候才明白真正意思。Java代码在编译的时候，是在虚拟机加载Class文件的时候才会动态链接，也就是说Class文件中不会保存各个方法、字段的最终内存布局信息，因此这些字段、方法的符号引用不经过运行期转换的话无法获得真正的内存入口地址，也就无法直接被虚拟机使用。当虚拟机运行时，需要从常量池获得对应的符号引用，再在类创建时或运行时解析、翻译到具体的内存地址之中。常量池中每一项常量都是一张表，这里我只找到了JDK1.7之前的常量池项目类型表，见下图。常量池项目类型表：常量池常量项的结构总表：比如我这里测试的class文件第一项常量，它的标志位是Ox0a，即十进制10，即表示tag为10的常量项，查表发现是CONSTANT_Methodref_info类型，和上面反编译之后的到的第一个常量是一致的，Methodref表示类中方法的符号引用。查上面《常量池常量项的结构总表》可以看到Methodref中含有3个项目，第一个tag就是上述的Ox0a，那么第二个项目就是Ox0006，第三个项目就是Ox000f，分别指向的CONSTANT_Class_info索引项和CONSTANT_NameAndType_info索引项为6和15，那么反编译的结果该项常量指向的应该是6和15，查看上面反编译的图应证我们的推测是对的。后面的常量项就以此类推。这里需要特殊说明一下utf8常量项的内容，这里我以第29项常量项解释，也就是最后一项常量项。查《常量池常量项的结构总表》可以看到utf8项有三个内容：tag、length、bytes。tag表示常量项类型，这里是Ox01，表示是CONSTANT_Utf8_info类型，紧接着的是长度length，这里是Ox0015，即十进制21，那么再紧接着的21个字节都表示该项常量项的具体内容。特别注意length表示的最大值是65535，所以Java程序中仅能接收小于等于64KB英文字符的变量和变量名，否则将无法编译。 5.访问标志（Access Flags）在常量池结束后，紧接着的两个字节代表访问标志（Access Flags），该标志用于识别一些类或者接口层次的访问信息，其中包括：Class是类还是接口、是否定义为public、是否定义为abstract类型、类是否被声明为final等。访问标志表标志位一共有16个，但是并不是所有的都用到，上表只列举了其中8个，没有使用的标志位统统置为0，access_flags只有2个字节表示，但是有这么多标志位怎么计算而来的呢？它是由标志位为true的标志位值取或运算而来，比如这里我演示的class文件是一个类并且是public的，所以对应的ACC_PUBLIC和ACC_SIPER标志应该置为true，其余标志不满足则为false，那么access_flags的计算过程就是：Ox0001 | Ox0020 = Ox0021 篇幅原因，未完待续...... 参考文献：《深入理解Java虚拟机》 END 本篇文章为转载内容。原文链接：https://javar.blog.csdn.net/article/details/97532925。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-09 17:46:36

645

转载

NodeJS

Node.js+Express搭建HTTP服务/ws库实现WebSocket通信构建客户端-服务器实时监控面板

...是，如果你想知道最新消息，就得一直重复这个过程——不停地挂电话再拨号，也就是不停刷新页面，才能看到有没有新东西蹦出来。这显然不是最优解。而 WebSocket 就不一样了，它是一种全双工通信协议，可以让客户端和服务端随时互相推送消息，简直是实时应用的最佳拍档！说到 Node.js，它天生就擅长处理异步事件流，再加上强大的生态系统（比如 Express、Socket.IO 等），简直就是为实时应用量身定制的工具。所以，今天我们就用 Node.js + WebSocket 来做一个简单的实时监控面板，顺便分享一下我的一些心得。 --- 2. 第一步搭建基础环境首先，我们需要准备开发环境。Node.js 的安装非常简单，去官网下载对应版本就行。安装完后，用 node -v 和 npm -v 验证是否成功。如果这两个命令都能正常输出版本号，那就说明环境配置好了。接下来，我们创建项目文件夹，并初始化 npm： bash mkdir real-time-monitor cd real-time-monitor npm init -y 然后安装必要的依赖包。这里我们用到两个核心库：Express 和 ws（WebSocket 库）。Express 是用来搭建 HTTP 服务的，ws 则专门用于 WebSocket 通信。 bash npm install express ws 接下来，我们写一个最基础的 HTTP 服务，确保环境能正常工作： javascript // server.js const express = require('express'); const app = express(); app.get('/', (req, res) => { res.send('Hello World!'); }); const PORT = process.env.PORT || 3000; app.listen(PORT, () => { console.log(Server is running on port ${PORT}); }); 保存文件后运行 node server.js，然后在浏览器输入 http://localhost:3000，应该能看到 “Hello World!”。到这里，我们的基本框架已经搭好了，是不是感觉还挺容易的？ --- 3. 第二步引入 WebSocket 现在我们有了一个 HTTP 服务，接下来该让 WebSocket 上场了。WebSocket 的好处就是能在浏览器和服务器之间直接搭起一条“高速公路”，不用老是像发短信那样频繁地丢 HTTP 请求过去，省时又高效！为了方便，我们可以直接用 ws 库来实现。修改 server.js 文件，添加 WebSocket 相关代码： javascript // server.js const express = require('express'); const WebSocket = require('ws'); const app = express(); const wss = new WebSocket.Server({ port: 8080 }); wss.on('connection', (ws) => { console.log('A client connected!'); // 接收来自客户端的消息 ws.on('message', (message) => { console.log(Received message => ${message}); ws.send(You said: ${message}); }); // 当客户端断开时触发 ws.on('close', () => { console.log('Client disconnected.'); }); }); app.get('/', (req, res) => { res.sendFile(__dirname + '/index.html'); }); const PORT = process.env.PORT || 3000; app.listen(PORT, () => { console.log(HTTP Server is running on port ${PORT}); }); 这段代码做了几件事： 1. 创建了一个 WebSocket 服务器，监听端口 8080。 2. 当客户端连接时，打印日志并等待消息。 3. 收到消息后，会回传给客户端。 4. 如果客户端断开连接，也会记录日志。为了让浏览器能连接到 WebSocket 服务器，我们还需要一个简单的 HTML 页面作为客户端入口： html Real-Time Monitor WebSocket Test Send Message 这段 HTML 代码包含了一个简单的聊天界面，用户可以在输入框中输入内容并通过 WebSocket 发送到服务器，同时也能接收到服务器返回的信息。跑完 node server.js 之后，别忘了打开浏览器，去 http://localhost:3000 看一眼，看看它是不是能正常转起来。 --- 4. 第三步扩展功能——实时监控数据现在我们的 WebSocket 已经可以正常工作了，但还不能算是一个真正的监控面板。为了让它更实用一点，咱们不妨假装弄点监控数据玩玩，像CPU用得多不多、内存占了百分之多少之类的。首先，我们需要一个生成随机监控数据的函数： javascript function generateRandomMetrics() { return { cpuUsage: Math.random() 100, memoryUsage: Math.random() 100, diskUsage: Math.random() 100 }; } 然后，在 WebSocket 连接中定时向客户端推送这些数据： javascript wss.on('connection', (ws) => { console.log('A client connected!'); setInterval(() => { const metrics = generateRandomMetrics(); ws.send(JSON.stringify(metrics)); }, 1000); // 每秒发送一次 ws.on('close', () => { console.log('Client disconnected.'); }); }); 客户端需要解析接收到的数据，并动态更新页面上的信息。我们可以稍微改造一下 HTML 和 JavaScript： html CPU Usage: Memory Usage: Disk Usage: javascript socket.onmessage = (event) => { const metrics = JSON.parse(event.data); document.getElementById('cpuProgress').value = metrics.cpuUsage; document.getElementById('memoryProgress').value = metrics.memoryUsage; document.getElementById('diskProgress').value = metrics.diskUsage; const messagesDiv = document.getElementById('messages'); messagesDiv.innerHTML += Metrics updated. ; }; 这样，每秒钟都会从服务器获取一次监控数据，并在页面上以进度条的形式展示出来。是不是很酷？ --- 5. 结尾总结与展望通过这篇文章，我们从零开始搭建了一个基于 Node.js 和 WebSocket 的实时监控面板。别看它现在功能挺朴素的，但这东西一出手就让人觉得，WebSocket 在实时互动这块儿真的大有可为啊！嘿，听我说！以后啊，你完全可以接着把这个项目捯饬得更酷一些。比如说，弄点新鲜玩意儿当监控指标，让用户用起来更爽，或者直接把它整到真正的生产环境里去，让它发挥大作用！其实开发的过程就像拼图一样，有时候你会遇到困难，但只要一点点尝试和调整，总会找到答案。希望这篇文章能给你带来灵感，也欢迎你在评论区分享你的想法和经验！最后，如果你觉得这篇文章对你有帮助，记得点个赞哦！😄 --- 完

2025-05-06 16:24:48

清风徐来

转载文章

[转载]html5 footer header,html-5 --html5教程article、footer、header、nav、section使用

...mber库解析pdf格式参考地址:https://github.com/jsvine/pdfplumber 简单的pdf转换文本: import pdfplumber with pdfplumber.open(path) a ... KMP替代算法——字符串Hash 很久以前写的... 今天来谈谈一种用来替代KMP算法的奇葩算法--字符串Hash 例题:给你两个字符串p和s,求出p在s中出现的次数.(字符串长度小于等于1000000) 字符串的Hash 根据字面意 ... SSM_CRUD新手练习(5)测试mapper 上一篇我们使用逆向工程生成了所需要的bean.dao和对应的mapper.xml文件,并且修改好了我们需要的数据库查询方法. 现在我们来测试一下DAO层,在test包下新建一个MapperTest.j ... 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_35666639/article/details/118169985。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-16 11:42:34

252

转载

Netty

Netty如何通过异常处理、长连接复用、零拷贝技术和心跳检测实现故障恢复

...方发个“我还在线”的消息，就为了确认你们的联系没断就行啦！ java // 设置心跳检测参数 Bootstrap bootstrap = new Bootstrap(); bootstrap.option(ChannelOption.SO_KEEPALIVE, true); // 开启TCP保活功能 bootstrap.option(ChannelOption.CONNECT_TIMEOUT_MILLIS, 5000); // 设置连接超时时间在这里，我们通过设置SO_KEEPALIVE选项开启了TCP保活功能，并设置了最长的连接等待时间为5秒。这样一来，即使网络出现短暂中断，Netty也会自动尝试恢复连接。 --- 3.4 数据缓冲与批量处理最后一个要点是数据缓冲与批量处理。在网络通信过程中，数据的大小和频率往往不可控。要是每次传来的数据都一点点的，那老是去处理这些小碎数据，就会多花不少功夫啦。Netty通过内置的缓冲区（Buffer）解决了这个问题。例如，我们可以使用ByteBuf来存储和处理接收到的数据。ByteBuf就像是内存管理界的“万金油”，不仅能够灵活地伸缩大小，还能轻松应对各种编码需求，简直是程序员手里的瑞士军刀！ java // 创建一个ByteBuf实例 ByteBuf buffer = Unpooled.buffer(1024); buffer.writeBytes(data); // 处理数据 while (buffer.readableBytes() > 0) { byte b = buffer.readByte(); process(b); } 在这段代码中，我们首先创建了一个容量为1024字节的缓冲区，然后将接收到的数据写入其中。接着，我们通过循环逐个读取并处理缓冲区中的数据。这种方式不仅可以提高处理效率，还能更好地应对突发流量。 --- 四、总结与展望好了，朋友们，今天的分享就到这里啦！通过上面的内容，相信大家对Netty的故障恢复机制有了更深的理解。不管是应对各种意外情况的异常处理，还是能让数据传输更高效的零拷贝技术，又或者是能重复利用长连接和设置数据缓冲这些招数，Netty可真是个实力派选手啊！不过，技术的世界永远没有尽头。Netty虽然已经足够优秀，但在某些特殊场景下仍可能存在局限性。未来的日子啊，我超级期待能看到更多的小伙伴，在Netty的基础上大展身手，把自己的系统捯饬得既聪明又靠谱，简直就像给它装了个“智慧大脑”一样！最后，我想说的是，技术的学习是一个不断探索的过程。希望大家能在实践中积累经验，在挑战中成长进步。如果你有任何疑问或者想法，欢迎随时留言交流哦！祝大家都能写出又快又稳的代码，一起迈向技术巅峰吧！😎

2025-03-19 16:22:40

红尘漫步

转载文章

[转载]docker镜像详解 docker命令详解

...，是关于Docker统一文件系统（the union file system）的知识，然后回过头来再看Docker的命令，一切变得顺理成章，简单极了。题外话：就我个人而言，掌握一门技术并合理使用它的最好办法就是深入理解这项技术背后的工作原理。通常情况下，一项新技术的诞生常常会伴随着媒体的大肆宣传和炒作，这使得用户很难看清技术的本质。更确切地说，新技术总是会发明一些新的术语或者隐喻词来帮助宣传，这在初期是非常有帮助的，但是这给技术的原理蒙上了一层砂纸，不利于用户在后期掌握技术的真谛。 Git就是一个很好的例子。我之前不能够很好的使用Git，于是我花了一段时间去学习Git的原理，直到这时，我才真正明白了Git的用法。我坚信只有真正理解Git内部原理的人才能够掌握这个工具。 Image Definition 镜像（Image）就是一堆只读层（read-only layer）的统一视角，也许这个定义有些难以理解，下面的这张图能够帮助读者理解镜像的定义。从左边我们看到了多个只读层，它们重叠在一起。除了最下面一层，其它层都会有一个指针指向下一层。这些层是Docker内部的实现细节，并且能够在主机（译者注：运行Docker的机器）的文件系统上访问到。统一文件系统（union file system）技术能够将不同的层整合成一个文件系统，为这些层提供了一个统一的视角，这样就隐藏了多层的存在，在用户的角度看来，只存在一个文件系统。我们可以在图片的右边看到这个视角的形式。你可以在你的主机文件系统上找到有关这些层的文件。需要注意的是，在一个运行中的容器内部，这些层是不可见的。在我的主机上，我发现它们存在于/var/lib/docker/aufs目录下。 sudo tree -L 1 /var/lib/docker/ /var/lib/docker/├── aufs├── containers├── graph├── init├── linkgraph.db├── repositories-aufs├── tmp├── trust└── volumes7 directories, 2 files Container Definition 容器（container）的定义和镜像（image）几乎一模一样，也是一堆层的统一视角，唯一区别在于容器的最上面那一层是可读可写的。细心的读者可能会发现，容器的定义并没有提及容器是否在运行，没错，这是故意的。正是这个发现帮助我理解了很多困惑。要点：容器 = 镜像 + 可读层。并且容器的定义并没有提及是否要运行容器。接下来，我们将会讨论运行态容器。 Running Container Definition 一个运行态容器（running container）被定义为一个可读写的统一文件系统加上隔离的进程空间和包含其中的进程。下面这张图片展示了一个运行中的容器。正是文件系统隔离技术使得Docker成为了一个前途无量的技术。一个容器中的进程可能会对文件进行修改、删除、创建，这些改变都将作用于可读写层（read-write layer）。下面这张图展示了这个行为。我们可以通过运行以下命令来验证我们上面所说的： docker run ubuntu touch happiness.txt 即便是这个ubuntu容器不再运行，我们依旧能够在主机的文件系统上找到这个新文件。 find / -name happiness.txt /var/lib/docker/aufs/diff/860a7b...889/happiness.txt Image Layer Definition 为了将零星的数据整合起来，我们提出了镜像层（image layer）这个概念。下面的这张图描述了一个镜像层，通过图片我们能够发现一个层并不仅仅包含文件系统的改变，它还能包含了其他重要信息。元数据（metadata）就是关于这个层的额外信息，它不仅能够让Docker获取运行和构建时的信息，还包括父层的层次信息。需要注意，只读层和读写层都包含元数据。除此之外，每一层都包括了一个指向父层的指针。如果一个层没有这个指针，说明它处于最底层。 Metadata Location: 我发现在我自己的主机上，镜像层（image layer）的元数据被保存在名为”json”的文件中，比如说： /var/lib/docker/graph/e809f156dc985.../json e809f156dc985...就是这层的id 一个容器的元数据好像是被分成了很多文件，但或多或少能够在/var/lib/docker/containers/<id>目录下找到，<id>就是一个可读层的id。这个目录下的文件大多是运行时的数据，比如说网络，日志等等。全局理解（Tying It All Together）现在，让我们结合上面提到的实现细节来理解Docker的命令。 docker create <image-id> docker create 命令为指定的镜像（image）添加了一个可读写层，构成了一个新的容器。注意，这个容器并没有运行。 docker start <container-id> Docker start命令为容器文件系统创建了一个进程隔离空间。注意，每一个容器只能够有一个进程隔离空间。 docker run <image-id> 看到这个命令，读者通常会有一个疑问：docker start 和 docker run命令有什么区别。从图片可以看出，docker run 命令先是利用镜像创建了一个容器，然后运行这个容器。这个命令非常的方便，并且隐藏了两个命令的细节，但从另一方面来看，这容易让用户产生误解。题外话：继续我们之前有关于Git的话题，我认为docker run命令类似于git pull命令。git pull命令就是git fetch 和 git merge两个命令的组合，同样的，docker run就是docker create和docker start两个命令的组合。 docker ps docker ps 命令会列出所有运行中的容器。这隐藏了非运行态容器的存在，如果想要找出这些容器，我们需要使用下面这个命令。 docker ps –a docker ps –a命令会列出所有的容器，不管是运行的，还是停止的。 docker images docker images命令会列出了所有顶层（top-level）镜像。实际上，在这里我们没有办法区分一个镜像和一个只读层，所以我们提出了top-level 镜像。只有创建容器时使用的镜像或者是直接pull下来的镜像能被称为顶层（top-level）镜像，并且每一个顶层镜像下面都隐藏了多个镜像层。 docker images –a docker images –a命令列出了所有的镜像，也可以说是列出了所有的可读层。如果你想要查看某一个image-id下的所有层，可以使用docker history来查看。 docker stop <container-id> docker stop命令会向运行中的容器发送一个SIGTERM的信号，然后停止所有的进程。 docker kill <container-id> docker kill 命令向所有运行在容器中的进程发送了一个不友好的SIGKILL信号。 docker pause <container-id> docker stop和docker kill命令会发送UNIX的信号给运行中的进程，docker pause命令则不一样，它利用了cgroups的特性将运行中的进程空间暂停。具体的内部原理你可以在这里找到：https://www.kernel.org/doc/Doc ... m.txt，但是这种方式的不足之处在于发送一个SIGTSTP信号对于进程来说不够简单易懂，以至于不能够让所有进程暂停。 docker rm <container-id> docker rm命令会移除构成容器的可读写层。注意，这个命令只能对非运行态容器执行。 docker rmi <image-id> docker rmi 命令会移除构成镜像的一个只读层。你只能够使用docker rmi来移除最顶层（top level layer）（也可以说是镜像），你也可以使用-f参数来强制删除中间的只读层。 docker commit <container-id> docker commit命令将容器的可读写层转换为一个只读层，这样就把一个容器转换成了不可变的镜像。 docker build docker build命令非常有趣，它会反复的执行多个命令。我们从上图可以看到，build命令根据Dockerfile文件中的FROM指令获取到镜像，然后重复地1）run（create和start）、2）修改、3）commit。在循环中的每一步都会生成一个新的层，因此许多新的层会被创建。 docker exec <running-container-id> docker exec 命令会在运行中的容器执行一个新进程。 docker inspect <container-id> or <image-id> docker inspect命令会提取出容器或者镜像最顶层的元数据。 docker save <image-id> docker save命令会创建一个镜像的压缩文件，这个文件能够在另外一个主机的Docker上使用。和export命令不同，这个命令为每一个层都保存了它们的元数据。这个命令只能对镜像生效。 docker export <container-id> docker export命令创建一个tar文件，并且移除了元数据和不必要的层，将多个层整合成了一个层，只保存了当前统一视角看到的内容（译者注：expoxt后的容器再import到Docker中，通过docker images –tree命令只能看到一个镜像；而save后的镜像则不同，它能够看到这个镜像的历史镜像）。 docker history <image-id> docker history命令递归地输出指定镜像的历史镜像。参考： http://www.cnblogs.com/bethal/p/5942369.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/u010098331/article/details/53485539。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-26 15:47:20

538

转载

Mahout

实时流数据分析：Mahout与分布式计算的机器学习实践

...规的完善和技术标准的统一，实时光流分析与AI在金融行业的应用将更加规范和成熟，为金融市场的健康发展提供坚实的技术支撑。实时光流分析与AI在金融领域的深度融合，正引领着金融科技创新的新潮流，不仅推动了金融行业的数字化转型，也为全球经济的可持续发展注入了新的活力。随着技术的不断进步与应用场景的不断拓展，这一领域的发展前景无疑充满了无限可能。

2024-09-06 16:26:39

月影清风

ZooKeeper

ZooKeeper分布式协调中队列管理与高并发下的优化策略，含客户端优化与异步API应用

...eeper的那个内部消息队列已经爆满了，忙不过来了，所以没法再接着处理新的请求啦！作为一个开发者，我第一次看到这个错误的时候，心里是有点慌的：“完蛋啦，是不是我的代码有问题？”但后来我慢慢发现，其实它并不是那么可怕，只要我们理解了它的原理，并且知道怎么应对，就能轻松解决这个问题。那么，CommitQueueFullException到底是怎么回事呢？简单来说，ZooKeeper内部有一个请求队列，用来存储客户端发来的各种操作请求（比如创建节点、删除节点等）。嘿嘿，想象一下，这就好比一个超挤的电梯，已经装满了人，再有人想挤进去肯定会被拒之门外啦！ZooKeeper也一样，当它的小“队伍”排满了的时候，新来的请求就别想加塞儿了，直接就被它无情地“拒绝”了，然后还甩给你一个“异常”的小牌子，意思是说：“兄弟，这儿真的装不下了！”这种情况通常发生在高并发场景下，或者是网络延迟导致请求堆积。为了更好地理解这个问题，我们可以看看下面这段代码： java import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.CreateMode; public class ZookeeperExample { public static void main(String[] args) throws Exception { // 创建ZooKeeper实例 ZooKeeper zk = new ZooKeeper("localhost:2181", 5000, event -> { System.out.println("ZooKeeper event: " + event); }); // 创建一个节点 String nodePath = zk.create("/testNode", "data".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT); System.out.println("Node created at path: " + nodePath); // 关闭连接 zk.close(); } } 在这个简单的例子中，我们尝试创建一个ZooKeeper实例并创建一个节点。如果这个时候ZooKeeper的队列满了，就会抛出CommitQueueFullException。所以，接下来我们要做的就是想办法避免这种情况的发生。 --- 二、为什么会出现CommitQueueFullException？在深入讨论解决方案之前，我觉得有必要先搞清楚为什么会发生这种异常。其实，这背后涉及到了ZooKeeper的一些设计细节。首先，ZooKeeper的队列大小是由配置文件中的zookeeper.commitlog.capacity参数决定的。默认情况下，这个值是比较小的，可能只有几兆字节。想象一下，你的应用像一个忙碌的快递站，接到了无数订单（也就是那些请求）。但要是快递小哥忙得顾不上送货，订单就会越堆越多，很快整个站点就塞满了，连下一份订单都没地方放了！其次，网络环境也是一个重要因素。有时候，客户端和服务端之间的网络延迟会导致请求堆积。就算客户端那边请求没那么频繁，但要是服务端反应慢了，照样会出问题啊。最后，还有一个容易被忽视的原因就是客户端的连接数过多。每个连接都会占用一定的资源，包括内存和CPU。要是连上的用户太多了，但服务器的“体力”又不够强（比如内存、CPU之类的资源有限），那它就很容易“忙不过来”，导致请求都排着队等着，根本处理不完。说到这里，我忍不住想吐槽一下自己曾经犯过的错误。嘿，有次我在测试环境里弄了个能扛大流量的程序，结果发现ZooKeeper老是蹦出个叫“CommitQueueFullException”的错误，烦得不行！我当时就纳闷了：“我明明设了个挺合理的线程池大小啊，怎么还出问题了呢？”后来一查才发现，坏事了，是客户端的连接数配少了，结果请求都堵在那儿了，就像高速公路堵车一样。真是教训深刻啊！ --- 三、如何优雅地处理CommitQueueFullException？既然知道了问题的根源，那接下来就要谈谈具体的解决办法了。我觉得可以从以下几个方面入手： 1. 调整队列大小最直接的办法当然是增大队列的容量。通过修改zookeeper.commitlog.capacity参数，可以让ZooKeeper拥有更大的缓冲空间。其实嘛，这个方法也不是啥灵丹妙药，毕竟咱们手头的硬件资源就那么多，要是傻乎乎地把队列弄得太长，说不定反而会惹出别的麻烦，比如让系统跑得更卡之类的。代码示例： properties zookeeper.commitlog.capacity=10485760 上面这段配置文件的内容表示将队列大小调整为10MB。你可以根据实际情况进行调整。 2. 优化客户端逻辑很多时候，CommitQueueFullException并不是因为服务器的问题，而是客户端的请求模式不合理造成的。比如说，你是否可以合并多个小请求为一个大请求？或者是否可以采用批量操作的方式减少请求次数？举个例子，假设你在做一个日志采集系统，每天需要向ZooKeeper写入成千上万个临时节点。与其每次都往一个节点里写东西，不如一口气往多个节点里写，这样能大大减少你发出的请求次数，省事儿又高效！代码示例： java List nodesToCreate = Arrays.asList("/node1", "/node2", "/node3"); List createdNodes = zk.create("/batch/", new byte[0], ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL, nodesToCreate.size()); System.out.println("Created nodes: " + createdNodes); 在这段代码中，我们一次性创建了三个临时节点，而不是分别调用三次create()方法。这样的做法不仅减少了请求次数，还提高了效率。 3. 增加服务器资源如果以上两种方法都不能解决问题，那么可能就需要考虑升级服务器硬件了。比如增加内存、提升CPU性能，甚至更换更快的磁盘。当然，这通常是最后的选择，因为它涉及到成本和技术难度。 4. 使用异步API ZooKeeper提供了同步和异步两种API，其中异步API可以在一定程度上缓解CommitQueueFullException的问题。异步API可酷了！你提交个请求，它立马给你返回结果，根本不用傻等那个响应回来。这样一来啊，就相当于给任务队列放了个假，压力小了很多呢！代码示例： java import org.apache.zookeeper.AsyncCallback.StringCallback; public class AsyncExample implements StringCallback { @Override public void processResult(int rc, String path, Object ctx, String name) { if (rc == 0) { System.out.println("Node created successfully at path: " + name); } else { System.err.println("Failed to create node with error code: " + rc); } } public static void main(String[] args) throws Exception { ZooKeeper zk = new ZooKeeper("localhost:2181", 5000, null); zk.createAsync("/asyncTest", "data".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT, new AsyncExample(), null); } } 在这段代码中，我们使用了createAsync()方法来异步创建节点。相比于同步版本，这种方式不会阻塞主线程，从而降低了队列满的风险。 --- 四、总结与展望通过今天的探讨，我相信大家都对CommitQueueFullException有了更深刻的理解。嘿，别被这个错误吓到！其实啊，它也没那么可怕。只要你找到对的方法，保证分分钟搞定，就跟玩儿似的！回顾整个过程，我觉得最重要的是要保持冷静和耐心。遇到技术难题的时候啊，别慌！先搞清楚它到底是个啥问题，就像剥洋葱一样，一层层搞明白本质。接着呢，就一步一步地去找解决的办法，慢慢来，总能找到出路的！就像攀登一座高山一样，每一步都需要脚踏实地。最后，我想鼓励大家多动手实践。理论固然重要，但真正的成长来自于不断的尝试和失败。希望大家能够在实际项目中运用今天学到的知识，创造出更加优秀的应用！好了，今天的分享就到这里啦！如果你还有什么疑问或者想法，欢迎随时交流哦～

2025-03-16 15:37:44

林中小径

Redis

基于Redis的分布式锁互斥性与可靠性实现及命名空间与原子性保障

...技，像什么过期时间、消息订阅啥的，这些功能简直就是搞分布式锁的神器啊！所以，如果你也在纠结选什么工具来做分布式锁，强烈推荐试试Redis！接下来我会结合实际案例给你们展示具体的操作步骤。 --- 3. 实现分布式锁的基本思路首先，我们要明确分布式锁需要满足哪些条件： 1. 互斥性同一时刻只能有一个客户端持有锁。 2. 可靠性即使某个客户端崩溃了，锁也必须自动释放，避免死锁。 3. 公平性排队等待的客户端应该按照请求顺序获取锁。 4. 可重入性（可选）允许同一个客户端多次获取同一个锁。现在我们就来一步步实现这些功能。示例代码 1：最基本的分布式锁实现 python import redis import time def acquire_lock(redis_client, lock_key, timeout=10): 尝试加锁，设置过期时间为timeout秒 result = redis_client.set(lock_key, "locked", nx=True, ex=timeout) return bool(result) def release_lock(redis_client, lock_key): 使用Lua脚本来保证解锁的安全性 script = """ if redis.call("get", KEYS[1]) == ARGV[1] then return redis.call("del", KEYS[1]) else return 0 end """ redis_client.eval(script, keys=[lock_key], args=["locked"]) 这段代码展示了最基础的分布式锁实现方式。我们用set命令设置了两个参数：一个是NX，意思是“只在key不存在的时候才创建”，这样就能避免重复创建；另一个是EX，给这个锁加了个过期时间，相当于设了个倒计时，万一客户端挂了或者出问题了，锁也能自动释放，就不会一直卡在那里变成死锁啦。最后，解锁的时候我们用了Lua脚本，这样可以保证操作的原子性。 --- 4. 如何解决锁的隔离性问题？诶，说到这里，问题来了——如果两个不同的业务逻辑都需要用到同一个锁怎么办？比如订单系统和积分系统都想操作同一个用户的数据，这时候就需要考虑锁的隔离性了。换句话说，我们需要确保不同业务逻辑之间的锁不会互相干扰。示例代码 2：基于命名空间的隔离策略 python def acquire_namespace_lock(redis_client, namespace, lock_name, timeout=10): 构造带命名空间的锁名称 lock_key = f"{namespace}:{lock_name}" result = redis_client.set(lock_key, "locked", nx=True, ex=timeout) return bool(result) def release_namespace_lock(redis_client, namespace, lock_name): lock_key = f"{namespace}:{lock_name}" script = """ if redis.call("get", KEYS[1]) == ARGV[1] then return redis.call("del", KEYS[1]) else return 0 end """ redis_client.eval(script, keys=[lock_key], args=["locked"]) 在这个版本中，我们在锁的名字前面加上了命名空间前缀，比如orders:place_order和points:update_score。这样一来，不同业务逻辑就可以使用独立的锁，避免相互影响。 --- 5. 进阶如何处理锁竞争与性能优化？当然啦，现实中的分布式锁并不会总是那么顺利，有时候会出现大量请求同时争抢同一个锁的情况。这时我们可能需要引入队列机制或者批量处理的方式来降低系统的压力。示例代码 3：使用Redis的List模拟队列 python def enqueue_request(redis_client, queue_key, request_data): redis_client.rpush(queue_key, request_data) def dequeue_request(redis_client, queue_key): return redis_client.lpop(queue_key) def process_queue(redis_client, lock_key, queue_key): while True: 先尝试获取锁 if not acquire_lock(redis_client, lock_key): time.sleep(0.1) 等待一段时间再重试 continue 获取队列中的第一个请求并处理 request = dequeue_request(redis_client, queue_key) if request: handle_request(request) 释放锁 release_lock(redis_client, lock_key) 这段代码展示了如何利用Redis的List结构来管理请求队列。想象一下，好多用户一起抢同一个东西，场面肯定乱哄哄的对吧？这时候，咱们就让他们老老实实排成一队，然后派一个专门的小哥挨个儿去处理他们的请求。这样一来，大家就不会互相“打架”了，事情也能更顺利地办妥。 --- 6. 总结与反思兄弟们，通过今天的讨论，我相信大家都对如何在Redis中实现分布式锁有了更深刻的理解了吧？虽然Redis本身已经足够强大，但我们仍然需要根据实际需求对其进行适当的扩展和优化。比如刚才提到的命名空间隔离、队列机制等，这些都是非常实用的小技巧。不过呢，我也希望大家能记住一点——技术永远不是一成不变的。业务越做越大，技术也日新月异的，咱们得不停地充电，学点新鲜玩意儿，试试新招数才行啊！就像今天的分布式锁一样，也许明天就会有更高效、更优雅的解决方案出现。所以，保持好奇心，勇于探索未知领域，这才是程序员最大的乐趣所在！好了，今天就聊到这里啦，祝大家在编程的路上越走越远！如果有任何疑问或者想法，欢迎随时找我交流哦~

2025-04-22 16:00:29

寂静森林

转载文章

[转载]练习：《斗鱼视频》m3u8流视频采集下载+思路+Python

...议的媒体播放列表文件格式，通常用于流媒体服务中。在本文语境下，斗鱼视频将其用于存储一个视频流的所有.ts片段（视频切片）的网络地址清单。当客户端（如浏览器或播放器）请求播放某个直播或点播视频时，会首先获取到playlist.m3u8文件，根据其中列出的地址顺序下载并连续播放.ts片段，从而实现视频流的无缝播放。 ts文件 , .ts文件是MPEG-2 Transport Stream（传输流）文件格式，常用于数字电视广播、DVD和在线流媒体服务中存储音频和视频数据。在本文中，斗鱼视频将完整的视频内容分割成多个.ts片段进行存储和传输。每个.ts文件包含一小段连续的音视频数据，通过合并这些.ts片段可以重构原始的完整视频。 MongoDB , MongoDB是一个开源的、面向文档的NoSQL数据库系统，适用于大规模数据存储和处理场景。在文章所给出的Python代码实现中，MongoDB被用来存储已经下载过的斗鱼视频信息，以避免重复下载。其灵活的数据模型允许开发者以JSON-like文档的形式存储数据，并提供了丰富的查询语言和高可用性特征，使得在整个采集流程中能够方便地对数据进行增删查改等操作。例如，在文中提到的save_to_mango函数中，就使用了MongoDB来存储抓取到的斗鱼视频ID，以便后续检查是否已下载过该视频。

2023-12-18 11:34:00

119

转载

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...示XML和HTML等格式文档的标准信息模型。DOM解析是指将整个HTML文档加载到内存中，形成一个树状结构（节点树），允许开发者通过编程方式动态访问和修改文档的内容、结构及样式。在文章所述的网络爬虫项目中，利用Jsoup进行DOM解析，以识别并提取目标网页上的图片链接及其他相关信息。

2023-06-12 10:26:04

130

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

export VAR=value - 设置环境变量。