...统，它提供了更高效的数据存储和安全性特性。文中提到的NTFSInfo工具就是用来查看详细的NTFS分区信息，包括主文件表（MFT）、MFT区域大小与位置，以及NTFS元数据文件大小等重要信息。 Active Directory , Active Directory是Microsoft Windows Server操作系统的一部分，提供网络环境中的中央身份认证、授权与目录服务功能。管理员可以利用Active Directory管理域内的用户账户、计算机、组策略、安全设置等资源。文章提及AdRestore工具能够恢复Server 2003 Active Directory对象，表明该工具在AD故障恢复场景中有重要作用。登录会话（Logon Sessions） , 在多用户操作系统的环境中，登录会话是指用户通过验证后，在系统上创建的一个独立的工作环境，其中包含了用户的配置、权限和其他相关状态信息。Sysinternals工具集中的LogonSessions工具则能列出当前系统上的所有活动登录会话，帮助管理员监控和管理用户登录情况。动态磁盘分区（Dynamic Disk Partitioning） , 动态磁盘是Windows操作系统中相对于基本磁盘而言的一种更为灵活的磁盘管理方式，它可以支持诸如跨多个物理磁盘的卷扩展等功能。LDMDump工具在文章中被提及，作用是倾倒逻辑磁盘管理器在Windows 2000动态磁盘分区上的数据库内容，从而让管理员了解和分析动态磁盘的详细配置信息。

2024-01-22 15:44:41

102

转载

转载文章

[转载]清华都老师介绍windows下的mpich的经验

...状。近年来，随着大数据和人工智能等领域的飞速发展，对计算能力的需求日益增长，MPI作为并行计算的重要通信接口标准，在解决大规模科学计算、机器学习等问题上发挥着关键作用。最新版本的MPICH已支持更多的优化策略和特性，如更好的多核CPU利用、对GPU加速计算的支持以及更高效的网络传输协议，以适应不断变化的高性能计算环境需求。同时，微软Azure云平台和AWS Amazon EC2等云服务提供商也相继推出了预装MPI的高性能计算实例，用户无需在本地搭建复杂环境，即可直接在云端进行MPI并行程序开发与测试，极大地降低了使用门槛，促进了并行计算技术的普及与应用。另外，随着跨平台开发需求的增长，开源社区也在积极推动MPICH在Linux、macOS等其他操作系统上的兼容性和性能优化。例如，Microsoft Research团队合作推出的Open MPI项目，旨在提供一个高度可扩展且跨平台的MPI实现，为开发者提供更多选择和灵活性。此外，对于希望深入了解MPI编程原理及其实战技巧的读者，可以参考《Using MPI - 3rd Edition》这本书，作者详细解析了MPI的各种函数用法，并提供了大量实例代码，是MPI编程入门到精通的绝佳教程资源。综上所述，无论是从MPI技术的最新进展、云计算环境下的并行计算解决方案，还是深入学习MPI编程的专业书籍推荐，都为那些想要在并行计算领域持续探索和实践的读者提供了丰富的延伸阅读内容。

2023-04-09 11:52:38

113

转载

.net

DI容器配置错误导致的生命周期管理问题及服务注册解耦单元测试隐患

...象一下，你正在用一个数据库连接池这种“有状态”的服务，要是把它搞成单例模式，那可就热闹了——多个线程或者任务同时去抢着用它，结果就是互相踩脚、搞砸事情，什么竞争条件啦、数据混乱啦，各种麻烦接踵而至。就好比大家伙儿都盯着同一个饼干罐子，都想伸手拿饼干，但谁也没个规矩，结果不是抢得太猛把罐子摔了，就是谁都拿不痛快。所以啊，这种情况下，还是别让单例当这个“独裁者”了，分清楚责任才靠谱！ 4.3 忘记注册依赖有时候，我们可能会忘记注册某些依赖项。比如： csharp public class SomeClass { private readonly IAnotherService _anotherService; public SomeClass(IAnotherService anotherService) { _anotherService = anotherService; } } 如果IAnotherService没有被注册到DI容器中，那么在运行时就会抛出异常。为了避免这种情况，你可以使用AddScoped或AddTransient来确保所有依赖都被正确注册。 --- 5. 探讨与总结通过今天的讨论，我们可以看到，虽然依赖注入能够极大地提高代码的质量和可维护性，但它并不是万能的。设置搞错了，那可就麻烦大了，小到一个单词拼错了，大到程序跑偏、东西乱套，什么幺蛾子都可能出现。我的建议是，在使用DI框架时要多花时间去理解和实践。不要害怕犯错，因为正是这些错误教会了我们如何更好地编写代码。同时，也要学会利用工具和日志来帮助自己排查问题。最后，我想说的是，编程不仅仅是解决问题的过程，更是一个不断学习和成长的过程。希望大家能够在实践中找到乐趣，享受每一次成功的喜悦！好了，今天的分享就到这里啦，如果你有任何疑问或者想法，欢迎随时留言交流哦！😄

2025-05-07 15:53:50

夜色朦胧

Hive

Hive中使用GZIP与BZIP2压缩格式构建外部表以提升性能优化

... 大家好啊，我是你的数据工程师小A。嘿，今天咱们来聊个有点“叛逆”的事儿——你知道吗？在Hive里头，有些压缩格式虽然官方文档上明晃晃地写着“不支持”，但其实很多人还在偷偷用，像GZIP和BZIP2这些就挺典型的。这事儿听着是不是还挺有意思？相当于跟官方规矩唱反调嘛！哈哈，我知道这话听着可能有点“疯疯癫癫”的，但说实话，谁还没点被迫走出舒适区的时候呢？比如为了给硬盘腾地方，或者让数据库跑得更快一点，咱总得豁出去折腾折腾吧！先简单介绍一下背景吧。Hive其实就像是个建在Hadoop上的“数据仓库”，它能帮我们把有条理的数据存到HDFS里，然后用类似SQL的语句去查询和处理这些数据，特别方便！Hive默认支持一些常见的压缩格式，比如Snappy、LZO等。哎呀，你要是想用GZIP或者BZIP2来存表，那可得小心点啊！没准Hive会直接给你整出个错误，连数据都不让你加载。这到底是咋回事儿呢？其实吧，这是因为这两种压缩方式的性格和Hive的理念不太合拍。简单来说，它们的玩法不一样，所以Hive就觉得有点不爽，干脆就不让你这么干了。那么问题来了：既然Hive不支持它们，为什么我们还要去折腾这些“非主流”压缩格式呢？我的回答是：因为它们可能真的有用！比如，GZIP非常适合用于压缩单个文件，而BZIP2则在某些场景下能提供更高的压缩比。所以说嘛，官方案子虽然说了不让搞，但我们不妨大胆试试，看看这些玩意儿到底能整出啥名堂！ --- 二、理论基础 GZIP vs BZIP2 vs Hive的“规则” 在深入讨论具体操作之前，我们得先搞清楚这三个东西之间的差异。嘿，先说个大家可能都知道的小秘密——GZIP可是个超火的压缩“神器”呢！它最大的特点就是又快又好用，压缩文件的速度嗖一下就搞定了，效果也还行，妥妥的性价比之王！而BZIP2则是另一种高级压缩算法，虽然压缩比更高，但速度相对较慢。相比之下，Hive好像更喜欢找那种“全能型选手”，就像Snappy这种，又快又能省资源，简直两全其美！现在问题来了：既然Hive有自己的偏好，那我们为什么要挑战它的权威呢？答案很简单：现实世界中的需求往往比理想模型复杂得多。比如说啊，有时候我们有一堆小文件，东一个西一个的，看着就头疼，想把它们整整齐齐地打包成一个大文件存起来，这时候用GZIP就很方便啦！但要是你手头的数据量超级大，比如几百万张高清图片那种，而且你还特别在意压缩效果，希望能榨干每一丢丢空间，那BZIP2就更适合你了，它在这方面可是个狠角色！当然，这一切的前提是我们能够绕过Hive对这些格式的限制。接下来，我们就来看看具体的解决方案。 --- 三、实践篇如何让Hive接受GZIP和BZIP2？ 3.1 GZIP的逆袭之路让我们从GZIP开始说起。想象一下，你有个文件夹，专门用来存各种日志文件，里面的文件可多啦！不过呢，这些文件都特别小巧，大概就几百KB的样子，像是些小纸条，记录着各种小事。哎呀，要是直接把一堆小文件一股脑儿塞进HDFS里，那可就麻烦了！这么多小文件堆在一起，系统就会变得特别卡，整体性能直线下降，简直像路上突然挤满了慢吞吞的小汽车，堵得不行！要解决这个问题嘛，咱们可以先把文件用GZIP压缩一下，弄个小“压缩包”，然后再把它丢进Hive里头去。下面是一段示例代码，展示了如何创建一个支持GZIP格式的外部表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS log_db; -- 切换到数据库 USE log_db; -- 创建外部表并指定GZIP格式 CREATE EXTERNAL TABLE IF NOT EXISTS logs ( id STRING, timestamp STRING, message STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE -- 注意这里使用TEXTFILE而不是默认的SEQUENCEFILE LOCATION '/path/to/gzipped/files'; 看到这里，你可能会问：“为什么这里要用TEXTFILE而不是SEQUENCEFILE？”这是因为Hive默认不支持直接读取GZIP格式的数据，所以我们需要手动调整存储格式。此外，还需要确保你的Hadoop集群已经启用了GZIP解压功能。 3.2 BZIP2的高阶玩法接下来轮到BZIP2登场了。相比于GZIP，BZIP2的压缩比更高，但它也有一个明显的缺点：解压速度较慢。因此，BZIP2更适合用于那些访问频率较低的大规模静态数据集。下面这段代码展示了如何创建一个支持BZIP2格式的分区表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS archive_db; -- 切换到数据库 USE archive_db; -- 创建分区表并指定BZIP2格式 CREATE TABLE IF NOT EXISTS archives ( file_name STRING, content STRING ) PARTITIONED BY (year INT, month INT) STORED AS RCFILE -- RCFILE支持BZIP2压缩 TBLPROPERTIES ("orc.compress"="BZIP2"); 需要注意的是，在这种情况下，你需要确保Hive的配置文件中启用了BZIP2支持，并且相关的JAR包已经正确安装。 --- 四、实战经验分享踩过的坑与学到的东西在这个过程中，我遇到了不少挫折。比如说吧，有次我正打算把一个GZIP文件塞进Hive里，结果系统直接给我整了个报错，说啥解码器找不着。折腾了半天才发现，哎呀，原来是服务器上那个GZIP工具的老版本太不给劲了，跟最新的Hadoop配不上，闹起了脾气！于是，我赶紧联系运维团队升级了相关依赖，这才顺利解决问题。还有一个教训是关于文件命名规范的。一开始啊，我老是忘了在压缩完的文件后面加“.gz”或者“.bz2”这种后缀名，搞得 Hive 一脸懵逼，根本分不清文件是啥类型的，直接就报错不认账了。后来我才明白，那些后缀名可不只是个摆设啊，它们其实是给文件贴标签的，告诉你这个文件是啥玩意儿，是图片、音乐，还是什么乱七八糟的东西。 --- 五、总结与展望总的来说，虽然Hive对GZIP和BZIP2的支持有限，但这并不意味着我们不能利用它们的优势。相反，只要掌握了正确的技巧，我们完全可以在这两者之间找到平衡点，满足不同的业务需求。最后，我想说的是，作为一名数据工程师，我们不应该被工具的限制束缚住手脚。相反，我们应该敢于尝试新事物，勇于突破常规。毕竟，正是这种探索精神，推动着整个行业不断向前发展！好了，今天的分享就到这里啦。如果你也有类似的经历或者想法，欢迎随时跟我交流哦~再见啦！

2025-04-19 16:20:43

翡翠梦境

转载文章

[转载]容器编排技术 -- Kubernetes 给容器和Pod分配内存资源

...收集集群中的资源使用数据，如CPU、内存等，并将这些数据发送到后端存储系统以便进一步分析和可视化。在本文的具体实验步骤中，虽然并非必需组件，但用户可以通过Heapster获取Pod的内存使用情况以验证内存资源配置是否生效。内存请求与限制 , 在Kubernetes中，内存请求（requests.memory）是指容器向系统声明的最低内存需求量，而内存限制（limits.memory）则是容器可使用的最大内存额度。当Kubernetes调度器决定将Pod分配到哪个节点时，会考虑每个节点剩余的内存资源以及Pod内所有容器的内存请求。同时，如果容器试图分配超过其内存限制的资源，Kubernetes会采取相应措施（例如终止容器）以防止整个系统的稳定性受到影响。

2023-12-23 12:14:07

494

转载

Beego

Beego配置文件格式文本检查日志记录耐心与细心错误排查全解析

...模块，包括路由管理、数据库 ORM、配置文件解析等，旨在帮助开发者快速构建高效稳定的 Web 应用。文中提到的配置文件解析错误主要涉及 Beego 框架对配置文件的加载和读取过程，当配置文件格式不正确时，会导致程序无法正常启动。Beego 提供了 LoadAppConfig 和 AppConfig 等工具，方便开发者管理和操作配置文件。配置文件 , 配置文件是一种存储应用程序运行所需参数的文件，通常采用特定的格式（如 ini、json 或 yaml）。文中提到的配置文件是 Beego 框架使用的 ini 格式，包含键值对的形式定义各种配置项。例如，appname 和 port 分别定义了应用名称和监听端口号。配置文件的正确性和完整性直接影响程序的运行状态，因此需要严格检查其格式和内容。Beego 提供了专门的方法来加载和解析配置文件，确保程序能够顺利读取必要的参数。日志记录 , 日志记录是指将程序运行过程中的重要信息（如错误、警告或调试信息）保存到文件或输出到控制台的过程。文中提到的日志记录主要用于监控配置文件加载是否成功。通过使用 Beego 提供的日志模块，开发者可以设置日志的格式和级别，例如记录日期、时间和错误发生的具体位置。当配置文件加载失败时，日志会输出详细的错误信息，帮助开发者快速定位问题。这种机制对于复杂系统的维护和故障排查至关重要，能够显著提高开发效率。

2025-04-13 15:33:12

桃李春风一杯酒

Hadoop

Hadoop结合HDFS实现跨硬件复制保障分布式系统数据可靠性与副本策略

...。作为一个程序员或者数据工程师，你可能已经听说过这个名字。Hadoop是一种开源的大数据处理框架，它的核心功能是存储和处理海量的数据。不过，我今天想带大家深入探讨的是Hadoop的一个非常实用的功能：跨硬件复制文件。为什么这个功能这么重要呢？想象一下，如果你正在运行一个大型的分布式系统，突然某个节点挂了怎么办？数据丢了？那可太惨了！Hadoop通过分布式文件系统（HDFS）来解决这个问题。HDFS 可不只是简单地把大文件切成小块儿，它还特聪明，会把这些小块儿分散存到不同的机器上。这就跟把鸡蛋放在好几个篮子里一个道理，哪怕有一台机器突然“罢工”了（也就是挂掉了），你的数据还是稳稳的，一点都不会丢。那么，Hadoop是如何做到这一点的呢？咱们先来看看它是怎么工作的。 --- 2. HDFS的工作原理数据块与副本 HDFS是一个分布式的文件系统，它的设计理念就是让数据更加可靠。简单讲啊，HDFS会把一个大文件切成好多小块儿（每块默认有128MB这么大），接着把这些小块分开放到集群里的不同电脑上存着。更关键的是，HDFS会为每个数据块多弄几个备份，一般是三个副本。这就相当于给你的数据买了“多重保险”，哪怕有一台机器突然“罢工”或者出问题了，你的数据还是妥妥地躺在别的机器上，一点都不会丢。举个例子，假设你有一个1GB的文件，HDFS会把这个文件分成8个128MB的小块，并且每个小块会被复制成3份，分别存储在不同的服务器上。这就意味着啊，就算有一台服务器“挂了”或者出问题了，另外两台服务器还能顶上，数据照样能拿得到，完全不受影响。说到这里，你可能会问：“为什么要复制这么多份？会不会浪费空间？”确实，多副本策略会占用更多的磁盘空间，但它的优点远远超过这一点。先说白了就是，它能让数据更好用、更靠谱啊！再说了，在那种超大的服务器集群里头，这样的备份机制还能帮着分散压力，不让某一个地方出问题就整个崩掉。 --- 3. 实战演示如何使用Hadoop进行跨硬件复制？接下来，让我们动手试试看！我会通过一些实际的例子来展示Hadoop是如何完成文件跨硬件复制的。 3.1 安装与配置Hadoop 首先，你需要确保自己的环境已经安装好了Hadoop。如果你还没有安装，可以参考官方文档一步步来配置。对新手来说，建议先试试伪分布式模式，相当于在一台电脑上“假装”有一个完整的集群，方便你熟悉环境又不用折腾多台机器。 3.2 创建一个简单的文本文件我们先创建一个简单的文本文件，用来测试Hadoop的功能。你可以使用以下命令： bash echo "Hello, Hadoop!" > test.txt 然后，我们将这个文件上传到HDFS中： bash hadoop fs -put test.txt /user/hadoop/ 这里的/user/hadoop/是HDFS上的一个目录路径。 3.3 查看文件的副本分布上传完成后，我们可以检查一下这个文件的副本分布情况。使用以下命令： bash hadoop fsck /user/hadoop/test.txt -files -blocks -locations 这段命令会输出类似如下的结果： /user/hadoop/test.txt 128 bytes, 1 block(s): OK 0. BP-123456789-192.168.1.1:50010 file:/path/to/local/file 1. BP-123456789-192.168.1.2:50010 file:/path/to/local/file 2. BP-123456789-192.168.1.3:50010 file:/path/to/local/file 从这里可以看到，我们的文件已经被复制到了三台不同的服务器上。 --- 4. 深度解读 Hadoop的副本策略在前面的步骤中，我们已经看到了Hadoop是如何将文件复制到不同节点上的。但是，你知道吗？Hadoop的副本策略其实是非常灵活的。它可以根据网络拓扑结构来决定副本的位置。例如，默认情况下，第一个副本会放在与客户端最近的节点上，第二个副本会放在另一个机架上，而第三个副本则会放在同一个机架的不同节点上。这样的策略可以最大限度地减少网络延迟，提高读取效率。当然，如果你对默认的副本策略不满意，也可以自己定制。比如，如果你想让所有副本都放在同一个机架内，可以通过修改dfs.replication.policy参数来实现。 --- 5. 总结与展望通过今天的讨论，我们了解了Hadoop是如何通过HDFS实现文件的跨硬件复制的。虽然这个功能看似简单，但它背后蕴含着复杂的设计理念和技术细节。正是这些设计，才使得Hadoop成为了一个强大的大数据处理工具。最后，我想说的是，学习新技术的过程就像探险一样，充满了未知和挑战。嘿，谁还没遇到过点麻烦事儿呢？有时候一头雾水，感觉前路茫茫，但这不正是探索的开始嘛！别急着放弃，熬过去你会发现，那些让人头疼的问题其实藏着不少小惊喜，等你拨开云雾时，成就感绝对让你觉得值了！希望这篇文章能给你带来一些启发，也希望你能亲自尝试一下Hadoop的实际操作，感受一下它的魅力！好了，今天的分享就到这里啦！如果你有任何疑问或者想法，欢迎随时留言交流。让我们一起探索更多有趣的技术吧！

2025-03-26 16:15:40

冬日暖阳

转载文章

[转载]详解Class类文件的结构（上）

...单位的二进制流，各个数据项目严格按照顺序紧凑地排列在Class文件之中，中间没有添加任何分隔符，Class文件中存储的内容几乎全部是程序运行的必要数据，没有空隙存在。当遇到需要占用8位字节以上空间的数据项时，就按照高位在前的方式分割成若干个8位字节进行存储。 Class文件格式采用类似于C语言结构体的伪结构来存储数据，这种伪结构只有两种数据类型：无符号数和表。无符号数属于基本的数据类型，以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节、8个字节的无符号数，无符号数可以来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。表是由多个无符号数或者其他表作为数据项构成的复合数据类型，所有表都习惯性的以“_info”结尾。表用于描述有层次关系的复合结构的数据，整个Class文件本质上就是一张表，它的数据项构成如下图。 2.魔数（Magic Number）每一个Class文件的头4个字节成为魔数（Magic Number），它的唯一作用是确定这个文件是否是一个能被虚拟机接收的Class文件。很多文件存储标准中都是用魔数来进行身份识别，比如gif、png、jpeg等都有魔数。使用魔数主要是来识别文件的格式，相比于通过文件后缀名识别，这种方式准确性更高，因为文件后缀名可以随便更改，但更改二进制文件内容的却很少。Class类文件的魔数是Oxcafebabe，cafe babe？咖啡宝贝？至于为什么是这个，这个名字在java语言诞生之初就已经确定了，它象征着著名咖啡品牌Peet's Coffee中深受欢迎的Baristas咖啡，Java的商标logo也源于此。 3.文件版本（Version）在魔数后面的4个字节就是Class文件的版本号，第5和第6个字节是次版本号（Minor Version），第7和第8个字节是主版本号（Major Version）。Java的版本号是从45开始的，JDK1.1之后的每个JDK大版本发布主版本号向上加1（JDK1.0~1.1使用的版本号是45.0~45.3），比如我这里是十六进制的Ox0034，也就是十进制的52，所以说明该class文件可以被JDK1.8及以上的虚拟机执行，否则低版本虚拟机执行会报java.lang.UnsupportedClassVersionError错误。 4.常量池（Constant Pool）在主版本号紧接着的就是常量池的入口，它是Class文件结构中与其他项目关联最多的数据类型，也是占用空间最大的数据之一。常量池的容量由后2个字节指定，比如这里我的是Ox001d，即十进制的29，这就表示常量池中有29项常量，而常量池的索引是从1开始的，这一点需要特殊记忆，因为程序员习惯性的计数法是从0开始的，而这里不一样，所以我这里常量池的索引范围是1~29。设计者将第0项常量空出来是有目的的，这样可以满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义。通过javap -v命令反编译出class文件之后，我们可以看到常量池的内容常量池中主要存放两大类常量：字面量和符号引用。比如文本字符、声明为final的常量值就属于字面量，而符号引用则包含下面三类常量：类和接口的全限名字段的名称和描述符方法的名称和描述符在之前的文章（详谈类加载的全过程）中有详细讲到，在加载类过程的第二大阶段连接的第三个阶段解析的时候，会将常量池中的符号引用替换为直接引用。相信很多人在开始了解那里的时候也是一头雾水，作者我也是，当我了解到常量池的构成的时候才明白真正意思。Java代码在编译的时候，是在虚拟机加载Class文件的时候才会动态链接，也就是说Class文件中不会保存各个方法、字段的最终内存布局信息，因此这些字段、方法的符号引用不经过运行期转换的话无法获得真正的内存入口地址，也就无法直接被虚拟机使用。当虚拟机运行时，需要从常量池获得对应的符号引用，再在类创建时或运行时解析、翻译到具体的内存地址之中。常量池中每一项常量都是一张表，这里我只找到了JDK1.7之前的常量池项目类型表，见下图。常量池项目类型表：常量池常量项的结构总表：比如我这里测试的class文件第一项常量，它的标志位是Ox0a，即十进制10，即表示tag为10的常量项，查表发现是CONSTANT_Methodref_info类型，和上面反编译之后的到的第一个常量是一致的，Methodref表示类中方法的符号引用。查上面《常量池常量项的结构总表》可以看到Methodref中含有3个项目，第一个tag就是上述的Ox0a，那么第二个项目就是Ox0006，第三个项目就是Ox000f，分别指向的CONSTANT_Class_info索引项和CONSTANT_NameAndType_info索引项为6和15，那么反编译的结果该项常量指向的应该是6和15，查看上面反编译的图应证我们的推测是对的。后面的常量项就以此类推。这里需要特殊说明一下utf8常量项的内容，这里我以第29项常量项解释，也就是最后一项常量项。查《常量池常量项的结构总表》可以看到utf8项有三个内容：tag、length、bytes。tag表示常量项类型，这里是Ox01，表示是CONSTANT_Utf8_info类型，紧接着的是长度length，这里是Ox0015，即十进制21，那么再紧接着的21个字节都表示该项常量项的具体内容。特别注意length表示的最大值是65535，所以Java程序中仅能接收小于等于64KB英文字符的变量和变量名，否则将无法编译。 5.访问标志（Access Flags）在常量池结束后，紧接着的两个字节代表访问标志（Access Flags），该标志用于识别一些类或者接口层次的访问信息，其中包括：Class是类还是接口、是否定义为public、是否定义为abstract类型、类是否被声明为final等。访问标志表标志位一共有16个，但是并不是所有的都用到，上表只列举了其中8个，没有使用的标志位统统置为0，access_flags只有2个字节表示，但是有这么多标志位怎么计算而来的呢？它是由标志位为true的标志位值取或运算而来，比如这里我演示的class文件是一个类并且是public的，所以对应的ACC_PUBLIC和ACC_SIPER标志应该置为true，其余标志不满足则为false，那么access_flags的计算过程就是：Ox0001 | Ox0020 = Ox0021 篇幅原因，未完待续...... 参考文献：《深入理解Java虚拟机》 END 本篇文章为转载内容。原文链接：https://javar.blog.csdn.net/article/details/97532925。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-09 17:46:36

645

转载

转载文章

[转载]Linux时间校准（ntpdate及NTP客户端代码校准示例）

...关键作用。同时，在数据中心和云环境中，Google等科技巨头正在研究和部署新型的时间同步技术，如White Rabbit，这是一种基于光纤传输的亚纳秒级精确时钟同步方案，能够有效提升大规模集群环境下的时间同步性能。另外，针对网络安全领域，由于不准确的时间同步可能导致诸如证书验证失效等问题，全球各地的网络安全专家正呼吁加强对NTP服务器的安全管理，以防止恶意攻击者通过篡改ntp服务来影响系统时间进而发动攻击。最近的一项案例显示，某大型企业因为未妥善配置NTP服务，导致其内部网络出现了严重的时间偏差，引发了数据同步混乱和安全隐患。综上所述，时间同步技术不仅关乎计算机系统的正常运行，也对新兴技术的发展及网络安全防护起着至关重要的作用。无论是从技术研发前沿还是日常运维实践，深入理解并正确运用NTP及其他高精度时间同步协议都是不可或缺的一环。

2023-03-01 12:56:47

112

转载

转载文章

[转载]c++ 智能指针的问题_窥见C++11智能指针

...如果数组的元素是复杂数据类型时，我们还需要在其析构函数中正确释放内存。真正的智能指针：shared_ptr auto_ptr和unique_ptr都有或多或少的缺陷，因此C++11还推出了shared_ptr，这也是目前工程内使用最多最广泛的智能指针，他使用引用计数（感觉有参考Objective-C的嫌疑），实现对同一块内存可以有多个引用，在最后一个引用被释放时，指向的内存才释放，这也是和unique_ptr最大的区别。另外，使用shared_ptr过程中有几点需要注意：构造shared_ptr的方法，如下示例代码所示，我们尽量使用shared_ptr构造函数或者make_shared的方式创建shared_ptr，禁止使用裸指针赋值的方式，这样会shared_ptr难于管理指针的生命周期。 // 使用裸指针赋值构造，不推荐，裸指针被释放后，shared_ptr就野了，不能完全控制裸指针的生命周期，失去了智能指针价值int p = new int(10);shared_ptr<int>sp = p;delete p; // sp将成为野指针，使用sp将crash// 将裸指针作为匿名指针传入构造函数，一般做法，让shared_ptr接管裸指针的生命周期，更安全shared_ptr<int>sp1(new int(10));// 使用make_shared，推荐做法，更符合工厂模式，可以连代码中的所有new，更高效；方法的参数是用来初始化模板类shared_ptr<int>sp2 = make_shared<int>(10); 禁止使用指向shared_ptr的裸指针，也就是智能指针的指针，这听起来就很奇怪，但开发中我们还需要注意，使用shared_ptr的指针指向一个shared_ptr时，引用计数并不会加一，操作shared_ptr的指针很容易就发生野指针异常。 shared_ptr<int>sp = make_shared<int>(10);cout << sp.use_count() << endl; //输出1shared_ptr<int> sp1 = &sp;cout << (sp1).use_count() << endl; //输出依然是1(sp1).reset(); //sp成为野指针cout << sp << endl; //crash 使用shared_ptr创建动态数组，在介绍unique_ptr时我们就讲过创建动态数组，而shared_ptr同样可以做到，不过稍微复杂一点，如下代码所示，除了要显示指定析构方法外（因为默认是T的析构函数，不是T[]），另外对外的数据类型依然是shared_ptr<T>，非常有迷惑性，看不出来是数组，最后不能直接使用下标读写数组，要先get()获取裸指针才可以使用下标。所以，不推荐使用shared_ptr来创建动态数组，尽量使用unique_ptr，这可是unique_ptr为数不多的优势了。 template <typename T>shared_ptr<T> make_shared_array(size_t size) {return shared_ptr<T>(new T[size], default_delete<T[]>());}shared_ptr<int>sp = make_shared_array(10); //看上去是shared<int>类型，实际上是数组sp.get()[0] = 100; //不能直接使用下标读写数组元素，需要通过get()方法获取裸指针后再操作用shared_ptr实现多态，在我们使用裸指针时，实现多态就免不了定义虚函数，那么用shared_ptr时也不例外，不过有一处是可以省下的，就是析构函数我们不需要定义为虚函数了，如下面代码所示： class A {public:~A() {cout << "dealloc A" << endl;} };class B : public A {public:~B() {cout << "dealloc B" << endl;} };int main(int argc, const char argv[]) {A a = new B();delete a; //只打印dealloc Ashared_ptr<A>spa = make_shared(); //析构spa是会先打印dealloc B，再打印dealloc Areturn 0;} 循环引用，笔者最先接触引用计数的语言就是Objective-C，而OC中最常出现的内存问题就是循环引用，如下面代码所示，A中引用B，B中引用A，spa和spb的强引用计数永远大于等于1，所以直到程序退出前都不会被退出，这种情况有时候在正常的业务逻辑中是不可避免的，而解决循环引用的方法最有效就是改用weak_ptr，具体可见下一章。 class A {public:shared_ptr b;};class B {public:shared_ptr<A> a;};int main(int argc, const char argv[]) {shared_ptr<A> spa = make_shared<A>();shared_ptr spb = make_shared();spa->b = spb;spb->a = spa;return 0;} //main函数退出后，spa和spb强引用计数依然为1，无法释放刚柔并济：weak_ptr 正如上一章提到，使用shared_ptr过程中有可能会出现循环引用，关键原因是使用shared_ptr引用一个指针时会导致强引用计数+1，从此该指针的生命周期就会取决于该shared_ptr的生命周期，然而，有些情况我们一个类A里面只是想引用一下另外一个类B的对象，类B对象的创建不在类A，因此类A也无需管理类B对象的释放，这个时候weak_ptr就应运而生了，使用shared_ptr赋值给一个weak_ptr不会增加强引用计数（strong_count），取而代之的是增加一个弱引用计数（weak_count），而弱引用计数不会影响到指针的生命周期，这就解开了循环引用，上一章最后的代码使用weak_ptr可改造为如下代码。 class A {public:shared_ptr b;};class B {public:weak_ptr<A> a;};int main(int argc, const char argv[]) {shared_ptr<A> spa = make_shared<A>();shared_ptr spb = make_shared();spa->b = spb; //spb强引用计数为2，弱引用计数为1spb->a = spa; //spa强引用计数为1，弱引用计数为2return 0;} //main函数退出后，spa先释放，spb再释放，循环解开了使用weak_ptr也有需要注意的点，因为既然weak_ptr不负责裸指针的生命周期，那么weak_ptr也无法直接操作裸指针，我们需要先转化为shared_ptr，这就和OC的Strong-Weak Dance有点像了，具体操作如下：shared_ptr<int> spa = make_shared<int>(10);weak_ptr<int> spb = spa; //weak_ptr无法直接使用裸指针创建if (!spb.expired()) { //weak_ptr最好判断是否过期，使用expired或use_count方法，前者更快spb.lock() += 10; //调用weak_ptr转化为shared_ptr后再操作裸指针}cout << spa << endl; //20 智能指针原理看到这里，智能指针的用法基本介绍完了，后面笔者来粗浅地分析一下为什么智能指针可以有效帮我们管理裸指针的生命周期。使用栈对象管理堆对象在C++中，内存会分为三部分，堆、栈和静态存储区，静态存储区会存放全局变量和静态变量，在程序加载时就初始化，而堆是由程序员自行分配，自行释放的，例如我们使用裸指针分配的内存；而最后栈是系统帮我们分配的，所以也会帮我们自动回收。因此，智能指针就是利用这一性质，通过一个栈上的对象（shared_ptr或unique_ptr）来管理一个堆上的对象（裸指针），在shared_ptr或unique_ptr的析构函数中判断当前裸指针的引用计数情况来决定是否释放裸指针。 shared_ptr引用计数的原理一开始笔者以为引用计数是放在shared_ptr这个模板类中，但是细想了一下，如果这样将shared_ptr赋值给另一个shared_ptr时，是怎么做到两个shared_ptr的引用计数同时加1呢，让等号两边的shared_ptr中的引用计数同时加1？不对，如果还有第二个shared_ptr再赋值给第三个shared_ptr那怎么办呢？或许通过下面的类图便清楚个中奥秘。 [ boost中shared_ptr与weak_ptr类图 ] 我们重点关注shared_ptr<T>的类图，它就是我们可以直接操作的类，这里面包含裸指针T，还有一个shared_count的对象，而shared_count对象还不是最终的引用计数，它只是包含了一个指向sp_counted_base的指针，这应该就是真正存放引用计数的地方，包括强应用计数和弱引用计数，而且shared_count中包含的是sp_counted_base的指针，不是对象，这也就意味着假如shared_ptr<T> a = b，那么a和b底层pi_指针指向的是同一个sp_counted_base对象，这就很容易做到多个shared_ptr的引用计数永远保持一致了。多线程安全本章所说的线程安全有两种情况：多个线程操作多个不同的shared_ptr对象 C++11中声明了shared_ptr的计数操作具有原子性，不管是赋值导致计数增加还是释放导致计数减少，都是原子性的，这个可以参考sp_counted_base的源码，因此，基于这个特性，假如有多个shared_ptr共同管理一个裸指针，那么多个线程分别通过不同的shared_ptr进行操作是线程安全的。多个线程操作同一个shared_ptr对象同样的道理，既然C++11只负责sp_counted_base的原子性，那么shared_ptr本身就没有保证线程安全了，加入两个线程同时访问同一个shared_ptr对象，一个进行释放（reset），另一个读取裸指针的值，那么最后的结果就不确定了，很有可能发生野指针访问crash。作者：腾讯技术工程 https://mp.weixin.qq.com/s?__biz=MjM5ODYwMjI2MA==&mid=2649743462&idx=1&sn=c9d94ddc25449c6a0052dc48392a33c2&utm_source=tuicool&utm_medium=referralmp.weixin.qq.com 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_31467557/article/details/113049179。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-24 18:25:46

141

转载

Hadoop

HDFS读取速度慢？分析网络延迟、数据本地性与磁盘I/O优化原因

...人抓狂！作为一个对大数据技术充满热情的技术宅男（或者宅女），这种问题简直就像一道数学题里的“未知数”一样困扰着我。今天，我就想跟大家聊聊这个话题，希望能找到一些解决办法。一、背景介绍 HDFS为什么重要？首先，让我们简单回顾一下HDFS是什么。HDFS（Hadoop分布式文件系统）就像是Hadoop这个大家族里的“顶梁柱”之一，它专门用来管理海量的数据，就像一个超级大的仓库，能把成千上万的数据文件整整齐齐地存放在不同的电脑上，还能保证它们既安全又容易取用。简单来说，就是把一个大文件分成很多小块，然后把这些小块分散存储在不同的服务器上。这么做的好处嘛，简直太明显了！就算哪台机器突然“罢工”了，数据也能稳稳地保住，完全不会丢。而且呢，还能同时对这些数据进行处理，效率杠杠的！但是，任何技术都有它的局限性。HDFS虽然功能强大，但在实际应用中也可能会遇到各种问题，比如读取速度慢。这可能是由于网络延迟、磁盘I/O瓶颈或者其他因素造成的。那么，具体有哪些原因会导致HDFS读取速度变慢呢？接下来，我们就来一一分析。二、可能的原因及初步排查 1. 网络延迟过高想象一下，你正在家里看电影，突然发现画面卡顿了，这是因为你的网络连接出了问题。同样地，在HDFS中，如果网络延迟过高，也会导致读取速度变慢。比如说，假如你的数据节点散落在天南海北的各种数据中心里，那数据跑来跑去就得花更多时间，就像你在城市两端都有家一样，来回折腾肯定比在同一个小区里串门费劲得多。示例代码： java Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path filePath = new Path("/user/hadoop/input/file.txt"); FSDataInputStream in = null; try { in = fs.open(filePath); byte[] buffer = new byte[1024]; int bytesRead = in.read(buffer); while (bytesRead != -1) { bytesRead = in.read(buffer); } } catch (IOException e) { e.printStackTrace(); } finally { if (in != null) { try { in.close(); } catch (IOException e) { e.printStackTrace(); } } } 这段代码展示了如何从HDFS中读取文件。如果你发现每次执行这段代码时都需要花费很长时间，那么很可能是网络延迟的问题。 2. 数据本地性不足还记得小时候玩过的接力赛吗？如果接力棒总是从一个人传到另一个人再传回来，效率肯定不高。这就跟生活中的事儿一样啊，在HDFS里头，要是数据没分配到离客户端最近的那个数据节点上，那不是干等着嘛，多浪费时间呀！解决方案：可以通过调整副本策略来改善数据本地性。比如说，默认设置下，HDFS会把文件的备份分散存到集群里的不同机器上。不过呢，如果你想让这个过程变得更高效或者更适合自己的需求，完全可以去调整那个叫dfs.replication的参数！ xml dfs.replication 3 3. 磁盘I/O瓶颈磁盘读写速度是影响HDFS性能的一个重要因素。要是你的服务器用的是那些老掉牙的机械硬盘，那读文件的速度肯定就慢得像乌龟爬了。实验验证：为了测试磁盘I/O的影响，可以尝试将一部分数据迁移到SSD上进行对比实验。好啦，想象一下，你手头有一堆日志文件要对付。先把它们丢到普通的老硬盘（HDD）里待着，然后又挪到固态硬盘（SSD）上，看看读取速度变了多少。是不是感觉像在玩拼图游戏，只不过这次是在折腾文件呢？三、进阶优化技巧经过前面的分析，我们可以得出结论：要提高HDFS的读取速度，不仅仅需要关注硬件层面的问题，还需要从软件配置上下功夫。以下是一些更高级别的优化建议： 1. 增加带宽带宽就像是高速公路的车道数量，车道越多，车辆通行就越顺畅。对于HDFS来说，增加带宽意味着可以同时传输更多的数据块。实际操作：联系你的网络管理员，询问是否有可能升级现有的网络基础设施，比如更换更快的交换机或者部署新的光纤线路。 2. 调整副本策略默认情况下，HDFS会将每个文件的三个副本均匀分布在整个集群中。然而，在某些特殊场景下，这种做法并不一定是最优解。比如说，你家APP平时就爱扎堆在那几个服务器节点上干活儿，那就可以把副本都放一块儿，这样它们串门聊天、传文件啥的就方便多了，也不用跑太远浪费时间啦！配置修改： xml dfs.block.local-path-access.enabled true 3. 使用缓存机制缓存就像冰箱里的剩饭，拿出来就能直接吃，不用重新加热。HDFS也有类似的机制，叫做“DataNode Cache”。打开这个功能之后啊，那些经常用到的数据就会被暂时存到内存里，这样下次再用的时候就嗖的一下快多了！启用步骤： bash hadoop dfsadmin -setSpaceQuota 100g /cachedir hadoop dfs -cache /inputfile /cachedir 四、总结与展望通过今天的讨论，我相信大家都对HDFS读取速度慢的原因有了更深的理解。其实，无论是网络延迟、数据本地性还是磁盘I/O瓶颈，都不是不可克服的障碍。其实吧，只要咱们肯花点心思去琢磨、去试试，肯定能找出个适合自己情况的办法。最后，我想说的是，作为一名技术人员，我们应该始终保持好奇心和探索精神。不要害怕失败，也不要急于求成，因为每一次挫折都是一次成长的机会。希望这篇文章能给大家带来启发，让我们一起努力，让Hadoop变得更加高效可靠吧！ --- 以上就是我对“HDFS读取速度慢”的全部看法和建议。如果你还有其他想法或者遇到类似的问题，请随时留言交流。咱们共同进步，一起探索大数据世界的奥秘！

2025-05-04 16:24:39

103

月影清风

转载文章

[转载]docker镜像详解 docker命令详解

...ion 为了将零星的数据整合起来，我们提出了镜像层（image layer）这个概念。下面的这张图描述了一个镜像层，通过图片我们能够发现一个层并不仅仅包含文件系统的改变，它还能包含了其他重要信息。元数据（metadata）就是关于这个层的额外信息，它不仅能够让Docker获取运行和构建时的信息，还包括父层的层次信息。需要注意，只读层和读写层都包含元数据。除此之外，每一层都包括了一个指向父层的指针。如果一个层没有这个指针，说明它处于最底层。 Metadata Location: 我发现在我自己的主机上，镜像层（image layer）的元数据被保存在名为”json”的文件中，比如说： /var/lib/docker/graph/e809f156dc985.../json e809f156dc985...就是这层的id 一个容器的元数据好像是被分成了很多文件，但或多或少能够在/var/lib/docker/containers/<id>目录下找到，<id>就是一个可读层的id。这个目录下的文件大多是运行时的数据，比如说网络，日志等等。全局理解（Tying It All Together）现在，让我们结合上面提到的实现细节来理解Docker的命令。 docker create <image-id> docker create 命令为指定的镜像（image）添加了一个可读写层，构成了一个新的容器。注意，这个容器并没有运行。 docker start <container-id> Docker start命令为容器文件系统创建了一个进程隔离空间。注意，每一个容器只能够有一个进程隔离空间。 docker run <image-id> 看到这个命令，读者通常会有一个疑问：docker start 和 docker run命令有什么区别。从图片可以看出，docker run 命令先是利用镜像创建了一个容器，然后运行这个容器。这个命令非常的方便，并且隐藏了两个命令的细节，但从另一方面来看，这容易让用户产生误解。题外话：继续我们之前有关于Git的话题，我认为docker run命令类似于git pull命令。git pull命令就是git fetch 和 git merge两个命令的组合，同样的，docker run就是docker create和docker start两个命令的组合。 docker ps docker ps 命令会列出所有运行中的容器。这隐藏了非运行态容器的存在，如果想要找出这些容器，我们需要使用下面这个命令。 docker ps –a docker ps –a命令会列出所有的容器，不管是运行的，还是停止的。 docker images docker images命令会列出了所有顶层（top-level）镜像。实际上，在这里我们没有办法区分一个镜像和一个只读层，所以我们提出了top-level 镜像。只有创建容器时使用的镜像或者是直接pull下来的镜像能被称为顶层（top-level）镜像，并且每一个顶层镜像下面都隐藏了多个镜像层。 docker images –a docker images –a命令列出了所有的镜像，也可以说是列出了所有的可读层。如果你想要查看某一个image-id下的所有层，可以使用docker history来查看。 docker stop <container-id> docker stop命令会向运行中的容器发送一个SIGTERM的信号，然后停止所有的进程。 docker kill <container-id> docker kill 命令向所有运行在容器中的进程发送了一个不友好的SIGKILL信号。 docker pause <container-id> docker stop和docker kill命令会发送UNIX的信号给运行中的进程，docker pause命令则不一样，它利用了cgroups的特性将运行中的进程空间暂停。具体的内部原理你可以在这里找到：https://www.kernel.org/doc/Doc ... m.txt，但是这种方式的不足之处在于发送一个SIGTSTP信号对于进程来说不够简单易懂，以至于不能够让所有进程暂停。 docker rm <container-id> docker rm命令会移除构成容器的可读写层。注意，这个命令只能对非运行态容器执行。 docker rmi <image-id> docker rmi 命令会移除构成镜像的一个只读层。你只能够使用docker rmi来移除最顶层（top level layer）（也可以说是镜像），你也可以使用-f参数来强制删除中间的只读层。 docker commit <container-id> docker commit命令将容器的可读写层转换为一个只读层，这样就把一个容器转换成了不可变的镜像。 docker build docker build命令非常有趣，它会反复的执行多个命令。我们从上图可以看到，build命令根据Dockerfile文件中的FROM指令获取到镜像，然后重复地1）run（create和start）、2）修改、3）commit。在循环中的每一步都会生成一个新的层，因此许多新的层会被创建。 docker exec <running-container-id> docker exec 命令会在运行中的容器执行一个新进程。 docker inspect <container-id> or <image-id> docker inspect命令会提取出容器或者镜像最顶层的元数据。 docker save <image-id> docker save命令会创建一个镜像的压缩文件，这个文件能够在另外一个主机的Docker上使用。和export命令不同，这个命令为每一个层都保存了它们的元数据。这个命令只能对镜像生效。 docker export <container-id> docker export命令创建一个tar文件，并且移除了元数据和不必要的层，将多个层整合成了一个层，只保存了当前统一视角看到的内容（译者注：expoxt后的容器再import到Docker中，通过docker images –tree命令只能看到一个镜像；而save后的镜像则不同，它能够看到这个镜像的历史镜像）。 docker history <image-id> docker history命令递归地输出指定镜像的历史镜像。参考： http://www.cnblogs.com/bethal/p/5942369.html 本篇文章为转载内容。原文链接：https://blog.csdn.net/u010098331/article/details/53485539。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-26 15:47:20

538

转载

转载文章

[转载]libnids分析（9）---nids.h注释

... / 表示 IP 数据包异常 / NIDS_WARN_TCP, / 表示 TCP 数据包异常 / NIDS_WARN_UDP, / 表示 UDP 数据包异常 / NIDS_WARN_SCAN / 表示有扫描攻击发生 / }; enum { NIDS_WARN_UNDEFINED = 0, / 表示未定义 / NIDS_WARN_IP_OVERSIZED, / 表示 IP 数据包超长 / NIDS_WARN_IP_INVLIST, / 表示无效的碎片队列 / NIDS_WARN_IP_OVERLAP, / 表示发生重叠 / NIDS_WARN_IP_HDR, / 表示无效 IP首部 ,IP 数据包发生异常 / NIDS_WARN_IP_SRR, / 表示源路由 IP数据包 / NIDS_WARN_TCP_TOOMUCH, / 表示 TCP 数据个数太多 , 因为在Libnids 中在同一时刻捕获的TCP 个数最大值为 TCP 连接参数的哈西表长度的 3/4/ NIDS_WARN_TCP_HDR, / 表示无效 TCP首部 ,TCP 数据包发生异常 / NIDS_WARN_TCP_BIGQUEUE, / 表示 TCP 接受的队列数据过多 / NIDS_WARN_TCP_BADFLAGS / 表示错误标记 / }; /Libnids 状态描述的是连接的逻辑状态, 真正的 TCP 连接状态有 11种 . TCP_ESTABLISHED TCP 连接建立 , 开始传输数据 TCP_SYN_SEND 主动打开 TCP_SYN_RECV 接受 SYN TCP_FIN_WAIT1 TCP_FIN_WAIT2 TCP_TIME_WAIT TCP_CLOSE TCP_CLOSE_WAIT TCP_LAST_ACK TCP_LISTEN TCP_CLOSING / define NIDS_JUST_EST 1 / 表示 TCP 连接建立 , 在此状态下就可以决定是否对此TCP 连接进行数据分析 , 可以决定是否捕获 TCP客户端接收的数据 ,TCP 服务端接收的数据 ,TCP 客户端接收的紧急数据或者TCP 客户端接收的紧急数据 / define NIDS_DATA 2 / 表示接收数据的状态 ,在这个状态可以判断是否有新的数据到达 ,如果有就可以把数据存储起来 , 可以在这个状态之中来分析 TCP 传输的数据 , 此数据就存储在half_stream 数据接口的缓存之中/ define NIDS_CLOSE 3 / 表示 TCP 连接正常关闭 / define NIDS_RESET 4 / 表是 TCP 连接被重置关闭 / define NIDS_TIMED_OUT 5 / 表示由于超时 TCP连接被关闭 / define NIDS_EXITING 6 / 表示 Libnids正在退出 , 在这个状态下可以最后一次使用存储在 half_stream 数据结构中的缓存数据 / / 校验和 / define NIDS_DO_CHKSUM 0 / 表示告诉 Libnids要计算校验和 / define NIDS_DONT_CHKSUM 1 / 表示告诉 Libnids不要计算校验和 / struct tuple4 / 描述一个地址端口对 , 它表示发送发IP 和端口以及接收方 IP 和端口 , 适用 TCP,UDP/ { u_short source; / 源 IP 地址的端口号/ u_short dest; / 目的 IP 地址的端口号/ u_int saddr; / 源 IP 地址 / u_int daddr; / 目的 IP 地址 / }; struct half_stream / 描述在 TCP 连接中一端的所有信息, 可以是客户端 , 也可以是服务端 / { char state; / 表示套接字的状态 , 也就是TCP 的状态 / char collect; / 可以表示有数据到达 , 此数据存放在data 成员中 , 也可以表示不存储此数据到 data中 , 此数据忽略 . 如果大于0 就存储 , 否则就忽略 / char collect_urg; / 可以表示有紧急数据到达 , 此数据就存放在urgdata 中 , 也可以表示不存储此数据到 urgdata中 , 此速数据忽略 . 如果大于0 就存储 , 否则就忽略 / char data; / 用户存储正常接受到的数据 / int offset; / 表示存储在 data 中数据的第一个字节的偏移量/ int count; / 表示从 TCP 连接开始已经存储到data 中的数据的字节数 / int count_new; / 有多少新的数据存储到 data 中, 如果为 0, 则表示没有新的数据到达 / int bufsize; int rmem_alloc; int urg_count; / 用来存储紧急数据 / u_int acked; u_int seq; u_int ack_seq; u_int first_data_seq; u_char urgdata; //存储紧急数据 u_char count_new_urg; / 表示有新的紧急数据到达 , 如果为0 表示没有新的紧急数据 / u_char urg_seen; //新的urg数据，不是以前重复的数据 u_int urg_ptr;/指向urg在流中的位置/ u_short window; u_char ts_on; u_char wscale_on; u_int curr_ts; u_int wscale; struct skbuff list; struct skbuff listtail; }; struct tcp_stream / 描述一个 TCP 连接的所有信息/ { struct tuple4 addr; char nids_state; struct lurker_node listeners; struct half_stream client; / 表示客户端信息 / struct half_stream server; / 表示服务端信息 / struct tcp_stream next_node; struct tcp_stream prev_node; int hash_index; struct tcp_stream next_time; struct tcp_stream prev_time; int read; struct tcp_stream next_free; }; struct nids_prm / 描述了 Libnids 的一些全局参数信息/ { int n_tcp_streams; / 表示哈西表大小 , 此哈西表用来存放tcp_stream 数据结构 , 默认值 1040.在同一时刻 Libnids 捕获的 TCP 数据包的最大个数必须是此参数值的3/4/ int n_hosts; / 表示哈西表的大小 , 此哈西表用来存储IP 碎片信息的 , 默认值为 256/ char device; / 表示网络接口 ,Libnids 将在此网络接口上捕获数据, 默认值为 NULL. 这样 Libnids将使用 pcap_lookupdev来查找可以用的网络接口 . 如果其值为 all, 表示捕获所有网络接口的数据/ char filename; / 表示用来存储网络数据的捕获文件 , 此文件的类型必须与 Libpcap 类型一致 , 如果设置了文件, 与此同时就应该设置 device 为 NULL,默认值为 NULL/ int sk_buff_size; / 表示的是数据接口 sk_buff 的大小 .sk_buff 是Linux 内核中一个重要的数据结构, 是用来进行数据包排队操作的 , 默认值为 168/ int dev_addon; / 表示在数据结构 sk_buff 中用于网络接口上信息的字节数. 如果是 -1( 默认值 ),那么 Libnids 会根据不同的网络接口进行修正 / void (syslog) (); / 是一个函数指针 , 默认值为nids_syslog() 函数 . 在 syslog函数中可以检测入侵攻击 , 如网络扫描攻击 , 也可以检测一些异常情况, 如无效 TCP 标记 / int syslog_level; / 表示日志等级 , 默认值是LOG_ALERT/ int scan_num_hosts; / 表示一个哈西表的大小 ,( 此哈西表用来存储端口扫描信息) 表示 Libnids 将要检测的同时扫描的端口数据 . 如果其值为 0,Libnids将不提供端口扫描功能 . 默认值 256/ int scan_delay; / 表示在扫描检测中 , 俩端口扫描的间隔时间, 以毫秒来计算 , 缺省值为 3000/ int scan_num_ports; / 表示相同源地址必须扫描的 TCP 端口数目 , 默认值为10/ void (no_mem) (char ); / 是一个函数指针 , 当Libnids 发生内存溢出时被调用/ int (ip_filter) (); / 是一个函数指针 , 此函数可以用来分析IP 数据包 , 当有 IP 数据包到达时 , 此函数就被调用. 如果此函数返回非零值 , 此数据包就被处理 ;如果返回零 , 此 IP 数据包就被丢弃. 默认值为 nids_ip_filter 函数 , 总是返回 1./ char pcap_filter; / 表示过滤规则 , 即Libpcap 的过滤规则 , 默认值为 NULL,表示捕获所有数据包 . 可以在此设置过滤规则 , 只捕获感兴趣的开发包/ int promisc; / 表示网卡模式 , 如果是非零, 就把此网卡设置为混杂模式 ; 否则 , 设为非混杂模式 . 默认值为1/ int one_loop_less; / 初始值为 0/ int pcap_timeout; / 表示捕获数据返回的时间 , 以毫秒计算. 实际上它表示的就是 Libpcap 函数中的 pcap_open_live函数的 timeout 参数 , 默认值 1024/ }; / 返回值 : 调用成功返回 1,失败返回 0 参数 : 无功能 : 对 Libnids 初始化, 这是所有设计基于 Libnids 的程序最开始调用的函数 . 它的主要内容包括打开网络接口 , 打开文件 , 编译过滤规则 , 判断网络链路层类型, 进行必要的初始化工作 / int nids_init (void); / 返回值 : 无参数 : 回调函数名字功能 : 注册一个能够检测所有 IP 数据包的回调函数, 包括 IP 碎片 .e.g nids_register_ip_frag(ip_frag_function); void ip_frag_function(struct ip a_packet,int len) a_packet 表示接收的IP 数据包 len 表示接收的数据包长度此回调函数可以检测所有的IP 数据包 , 包括 IP 碎片 / void nids_register_ip_frag (void ()); // / 返回值 : 无参数 : 回调函数名字功能 : 注册一个回调函数 , 此回调函数可以接收正常的IP 数据包 .e.g nids_register_ip_frag(ip_frag_function); void ip_frag_function(struct ip a_packet) a_packet 表示接收的IP 数据包此回调函数可以接收正常的IP 数据包 , 并在此函数中对捕获数到的 IP数据包进行分析 . / void nids_register_ip (void ()); // / 返回值 : 无参数 : 回调函数功能 : 注册一个 TCP 连接的回调函数. 回调函数的类型定义如下 : void tcp_callback(struct tcp_stream ns,void param) ns 表示一个TCP 连接的所有信息 , param 表示要传递的参数信息 , 可以指向一个 TCP连接的私有数据此回调函数接收的TCP 数据存放在 half_stream 的缓存中 , 应该马上取出来 ,一旦此回调函数返回 , 此数据缓存中存储的数据就不存在了 .half_stream 成员 offset描述了被丢弃的数据字节数 . 如果不想马上取出来 , 而是等到存储一定数量的数据之后再取出来, 那么可以使用函数nids_discard(struct tcp_stream ns, int num_bytes)来处理 . 这样回调函数返回时 ,Libnids 将丢弃缓存数据之前的 num_bytes 字节的数据 .如果不调用 nids_discard()函数 , 那么缓存数据的字节应该为 count_new 字节 . 一般情况下, 缓存中的数据应该是count-offset 字节 / void nids_register_tcp (void ()); / 返回值 : 无参数 : 回调函数功能 : 注册一个分析 UDP 协议的回调函数, 回调函数的类型定义如下 : void udp_callback(struct tuple4 addr,char buf,int len,struct ip iph) addr 表示地址端口信息buf 表示 UDP 协议负载的数据内容 len表是 UDP 负载数据的长度 iph 表示一个IP 数据包 , 包括 IP 首部 ,UDP 首部以及UDP 负载内容 / void nids_register_udp (void ()); / 返回值 : 无参数 : 表示一个 TCP 连接功能 : 终止 TCP 连接 . 它实际上是调用 Libnet的函数进行构造数据包 , 然后发送出去 / void nids_killtcp (struct tcp_stream ); / 返回值 : 无参数 : 参数 1 一个 TCP 连接参数 2 个数功能 : 丢弃参数 2 字节 TCP 数据 , 用于存储更多的数据 / void nids_discard (struct tcp_stream , int); / 返回值 : 无参数 : 无功能 : 运行 Libnids, 进入循环捕获数据包状态. 它实际上是调用 Libpcap 函数 pcap_loop()来循环捕获数据包 / void nids_run (void); / 返回值 : 调用成功返回文件描述符 ,失败返回 -1 参数 : 无功能 : 获得文件描述符号 / int nids_getfd (void); / 返回值 : 调用成功返回个数 ,失败返回负数参数 : 表示捕获数据包的个数功能 : 调用 Libpcap 中的捕获数据包函数pcap_dispatch() / int nids_dispatch (int); / 返回值 : 调用成功返回 1,失败返回 0 参数 : 无功能 : 调用 Libpcap 中的捕获数据包函数pcap_next() / int nids_next (void); extern struct nids_prm nids_params; /libnids.c定以了一个全部变量 , 其定义和初始值在 nids_params/ extern char nids_warnings[]; extern char nids_errbuf[]; extern struct pcap_pkthdr nids_last_pcap_header; struct nids_chksum_ctl { / 描述的是计算校验和 , 用于决定是否计算校验和/ u_int netaddr; / 表示地址 / u_int mask; / 表示掩码 / u_int action; / 表示动作 , 如果是NIDS_DO_CHKSUM, 表示计算校验和; 如果是 NIDS_DONT_CHKSUM, 表示不计算校验和 / u_int reserved; / 保留未用 / }; / 返回值 : 无参数 : 参数 1 表示 nids_chksum_ctl 列表参数 2 表示列表中的个数功能 : 决定是否计算校验和 . 它是根据数据结构nids_chksum_ctl 中的action 进行决定的 , 如果所要计算的对象不在列表中 , 则必须都要计算校验和 / extern void nids_register_chksum_ctl(struct nids_chksum_ctl , int); endif / _NIDS_NIDS_H / 本篇文章为转载内容。原文链接：https://blog.csdn.net/xieqb/article/details/7681968。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-08 17:36:31

306

转载

Docker

Docker+Portainer+Rancher+Traefik：服务器管理工具容器化与可视化管理实践

...l路径下，同时设置数据库连接信息。是不是比传统的安装方式简洁多了？不过，单独使用Docker虽然强大，但对于不熟悉命令行的人来说还是有点门槛。这时候就需要一些辅助工具来帮助我们更好地管理和调度容器了。 --- 3. Portainer 可视化管理Docker的好帮手 Portainer绝对是我最近发现的一颗“宝藏”。它的界面非常直观，几乎不需要学习成本。不管是想看看现有的容器啥情况，还是想启动新的容器，甚至连网络和卷的管理，都只需要动动鼠标拖一拖、点一点就行啦！比如，如果你想快速创建一个新的MySQL容器，只需要打开Portainer的Web界面，点击“Add Container”，然后填写几个基本信息即可： yaml image: mysql:5.7 name: my-mysql ports: - "3306:3306" volumes: - /data/mysql:/var/lib/mysql environment: MYSQL_ROOT_PASSWORD: rootpassword 这段YAML配置文件描述了一个MySQL容器的基本参数。Portainer会自动帮你解析并生成对应的Docker命令。是不是超方便？另外，Portainer还有一个特别棒的功能——实时监控。你打开页面就能看到每个“小房子”（就是容器）里用掉的CPU和内存情况，而且还能像穿越空间一样，去访问别的机器上跑着的那些“小房子”（Docker实例）。这种功能对于运维人员来说简直是福音！ --- 4. Rancher 企业级的容器编排利器如果你是一个团队协作的开发者，或者正在运营一个大规模的服务集群，那么Rancher可能是你的最佳选择。它不仅仅是一个Docker管理工具，更是一个完整的容器编排平台。 Rancher的核心优势在于它的“多集群管理”能力。想象一下，你的公司有好几台服务器，分别放在地球上的不同角落，有的在美国，有的在欧洲，还有的在中国。每台服务器上都跑着各种各样的服务，比如网站、数据库啥的。这时候，Rancher就派上用场了！它就像一个超级贴心的小管家，让你不用到处切换界面，在一个地方就能轻松搞定所有服务器和服务的管理工作，省时又省力！举个例子，如果你想在Rancher中添加一个新的节点，只需要几步操作即可完成： 1. 登录Rancher控制台。 2. 点击“Add Cluster”按钮。 3. 输入目标节点的信息（IP地址、SSH密钥等）。 4. 等待几分钟，Rancher会自动为你安装必要的组件。一旦节点加入成功，你就可以直接在这个界面上部署应用了。比如，用Kubernetes部署一个Redis集群： bash kubectl create deployment redis --image=redis:alpine kubectl expose deployment redis --type=LoadBalancer --port=6379 虽然这条命令看起来很简单，但它背后实际上涉及到了复杂的调度逻辑和网络配置。而Rancher把这些复杂的事情封装得很好，让我们可以专注于业务本身。 --- 5. Traefik 反向代理与负载均衡的最佳拍档最后要介绍的是Traefik，这是一个轻量级的反向代理工具，专门用来处理HTTP请求的转发和负载均衡。它最厉害的地方啊，就是能跟Docker完美地融为一体，还能根据容器上的标签，自动调整路由规则呢！比如说，你有两个服务分别监听在8080和8081端口，现在想通过一个域名访问它们。只需要给这两个容器加上相应的标签： yaml labels: - "traefik.enable=true" - "traefik.http.routers.service1.rule=Host(service1.example.com)" - "traefik.http.services.service1.loadbalancer.server.port=8080" - "traefik.http.routers.service2.rule=Host(service2.example.com)" - "traefik.http.services.service2.loadbalancer.server.port=8081" 这样一来，当用户访问service1.example.com时，Traefik会自动将请求转发到监听8080端口的容器；而访问service2.example.com则会指向8081端口。这种方式不仅高效，还极大地减少了配置的工作量。 --- 6. 总结找到最适合自己的工具好了，到这里咱们已经聊了不少关于服务器管理工具的话题。从Docker到Portainer，再到Rancher和Traefik，每一种工具都有其独特的优势和适用场景。我的建议是，先根据自己的需求确定重点。要是你只想弄个小玩意儿，图个省事儿快点搞起来，那用Docker配个Portainer就完全够用了。但要是你们团队一起干活儿，或者要做大范围的部署，那Rancher这种专业的“老司机工具”就得安排上啦！当然啦，技术的世界永远没有绝对的答案。其实啊，很多时候你会发现，最适合你的工具不一定是最火的那个，而是那个最合你心意、用起来最顺手的。就像穿鞋一样，别人觉得好看的根本不合脚，而那双不起眼的小众款却让你走得又稳又舒服！所以啊，在用这些工具的时候，别光顾着看，得多动手试试，边用边记下自己的感受和想法，这样你才能真的搞懂它们到底有啥门道！好了，今天的分享就到这里啦！如果你还有什么问题或者想法，欢迎随时留言交流哦～咱们下次再见啦！

2025-04-16 16:05:13

月影清风_

Sqoop

Sqoop在数据迁移中因透明性不足导致作业失败的案例分析

...Sqoop作业在特定数据处理透明性下失败一、Sqoop初体验为什么我选择了它？嗨，朋友们！作为一个热爱折腾数据的技术爱好者，最近我在尝试用Sqoop来完成一些数据迁移任务。哈哈，Sqoop这个名字一听就觉得挺酷的，对不？它就像个超级厉害的“中间人”，一边连着Hadoop那个大数据的世界，另一边又搭在传统的数据库上，两边都能玩得转！说到Sqoop，它的主要功能就是从关系型数据库中抽取数据并导入到Hadoop生态系统中，或者反过来把Hadoop中的数据导出到关系型数据库里。对我来说，这简直就是个救星啊！毕竟我天天都要跟一堆 structured data（结构化数据）打交道，没有它，我的日子能过得下去才怪呢！不过呢，事情并没有想象中那么顺利。话说有一次我用 Sqoop 做数据迁移的时候，发现了个让人挠头的问题——只要碰到某些特别的数据处理任务，作业就突然“罢工”了，也不知道是啥原因。这事儿可把我给整郁闷了，我都觉得自己的水平挺过关的了，没想到被一个看起来超简单的题目给绊住了，真是有点糗啊！示例代码： bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --target-dir /user/hadoop/employees 这段代码看起来挺正常的，但我后来发现，当表中的数据量过大或者存在一些复杂的约束条件时，Sqoop就表现得不太友好。 --- 二、Sqoop作业失败的背后接下来，让我们一起深入探讨一下这个问题。说实话，刚开始接触Sqoop那会儿，我对它是怎么工作的压根儿没弄明白，稀里糊涂的。我以为只要配置好连接信息，然后指定源表和目标路径就行了。但实际上，Sqoop并不是这么简单的工具。当我第一次遇到作业失败的情况时，内心是崩溃的。屏幕上显示的错误信息密密麻麻，但仔细一看，其实都是些常见的问题。打个比方啊，Sqoop这家伙一碰到一些特别的符号，比如空格或者换行符，就容易“翻车”，直接给你整出点问题来。还有呢，有时候因为网络卡了一下，延迟太高，Sqoop就跟服务器说拜拜了，连接就这么断了，挺烦人的。有一次，我在尝试将一张包含大量JSON字段的表导出到HDFS时，Sqoop直接报错了。我当时就在心里嘀咕：“为啥别的工具处理起来轻轻松松的事儿，到Sqoop这儿就变得这么棘手呢？”后来，我一咬牙，开始翻遍各种资料，想着一定要找出个解决办法来。思考与尝试：经过一番研究，我发现Sqoop默认情况下并不会对数据进行深度解析，这意味着如果数据本身存在问题，Sqoop可能无法正确处理。所以，为了验证这个假设，我又做了一次测试。 bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table problematic_table \ --fields-terminated-by '\t' \ --lines-terminated-by '\n' 这次我特意指定了分隔符和换行符，希望能避免之前遇到的那些麻烦。嘿，没想到这次作业居然被我搞定了！中间经历了不少波折，不过好在最后算是弄懂了个中奥秘，也算没白费功夫。 --- 三、透明性的重要性 Sqoop到底懂不懂我的需求？说到Sqoop的透明性，我觉得这是一个非常重要的概念。所谓的透明性嘛，简单来说，就是Sqoop能不能明白咱们的心思，然后老老实实地按咱们想的去干活儿，不添乱、不出错！显然，在我遇到的这些问题中，Sqoop的表现并不能让人满意。举个例子来说，假设你有一个包含多列的大表，其中某些列的数据类型比较复杂（例如数组、嵌套对象等）。在这种情况下，Sqoop可能会因为无法正确识别这些数据类型而失败。更糟糕的是，它并不会给出明确的提示，而是默默地报错，让你一头雾水。为了更好地应对这种情况，我在后续的工作中加入了更多的调试步骤。比如说啊，你可以先用describe这个命令去看看表的结构，确保所有的字段都乖乖地被正确识别了；接着呢，再用--check-column这个选项去瞅一眼，看看有没有重复的记录藏在里面。这样一来，虽然增加了工作量，但至少能减少不必要的麻烦。示例代码： bash sqoop job --create my_job \ -- import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --check-column id \ --incremental append \ --last-value 0 这段代码展示了如何创建一个增量作业，用于定期更新目标目录中的数据。通过这种方式，可以有效避免一次性加载过多数据带来的性能瓶颈。 --- 四、总结与展望与Sqoop共舞总的来说，尽管Sqoop在某些场景下表现得不尽人意，但它依然是一个强大的工具。通过不断学习和实践，我相信自己能够更加熟练地驾驭它。未来的计划里，我特别想试试一些更酷的功能，比如说用Sqoop直接搞出Avro文件，或者把Spark整进来做分布式计算，感觉会超级带劲！最后，我想说的是，技术这条路从来都不是一帆风顺的。遇到困难并不可怕，可怕的是我们因此放弃努力。正如那句话所说：“失败乃成功之母。”只要保持好奇心和求知欲，总有一天我们会找到属于自己的答案。如果你也有类似的经历，欢迎随时交流！我们一起进步，一起成长！ --- 希望这篇文章对你有所帮助，如果有任何疑问或者想要了解更多细节，请随时告诉我哦！

2025-03-22 15:39:31

风中飘零

转载文章

[转载]做了几年程序员，某天居然发现自己没学过数据结构。。。

...。简介学习编程，数据结构是你必须要掌握的基础知识，那么数据结构到底是什么呢？根据百度百科的介绍，数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。听听这是人话么，我帮你们翻译一下，其实数据结构就是用来描述计算机里存储数据的一种数学模型，因为计算机里要存储很多乱七八糟的数据，所以也需要不同的数据结构来描述。本文思维导图为什么要学数据结构了解了基本概念之后，接下来我们再来看看，为什么我们要学习数据结构呢？在许多类型的程序的设计中，数据结构的选择是一个基本的设计考虑因素。许多大型系统的构造经验表明，系统实现的困难程度和系统构造的质量都严重的依赖于是否选择了最优的数据结构。许多时候，确定了数据结构后，算法就容易得到了。有些时候事情也会反过来，我们根据特定算法来选择数据结构与之适应。不论哪种情况，选择合适的数据结构都是非常重要的。选择了数据结构，算法也随之确定，是数据而不是算法是系统构造的关键因素。这种洞见导致了许多种软件设计方法和程序设计语言的出现，面向对象的程序设计语言就是其中之一。也就是说，选定数据结构往往是解决问题的核心，比如我们做一道算法题，往往就要先确定数据结构，再根据这个数据结构去思考怎么解题。如果没有数据结构的基础知识，也就没有谈算法的意义了，很多时候即使你会使用一些封装好的编程api，但你却不知道其背后的实现原理，比如hashmap，linkedlist这些Java里的集合类，实际上都是JDK封装好的基础数据结构。如何学习数据结构第一次接触我第一次接触数据结构这门课还是4年前，那这时候我在准备考研，专业课考的就是数据结构与算法，作为一个非科班的小白，对这个东西可以说是一窍不通。这个时候的我只有一点点c语言的基础，基本上可以忽略不计，所以小白同学也可以按照这个思路进行学习。数据结构基本上是考研的必考科目，所以我一开始使用的是考研的复习书籍，《天勤数据结构》和《王道数据结构》这两个家的书都是专门为计算机考研服务的，可以直接百度，这两本书对于我这种小白来说居然都是可以看懂的，所以，用来入门也是ok的。入门学习阶段最早的时候我并没有直接看书，而是先打算先看视频，因为视频更好理解呀，找视频的办法就是百度，于是当时找到的最好资源就是《郝斌的数据结构》这个视频应该是很早之前录制的了，但是对于小白来说是够用的，特别基础，讲的很仔细。从最开始的数组、线性表，再讲到栈和队列，以及后面更复杂的二叉树、图、哈希表，大概有几十个视频，那个时候正值暑假，我按照每天一个视频的进度看完了，看的时候还得时不时地实践一下，更有助于理解。看完了这个系列的视频之后，我又转战开始啃书了，视频里讲的都是数据结构的基础，而书上除了基础之外，还有一些算法题目，比如你学完了线性表和链表之后，书上就会有相关的算法题，比如数组的元素置换，链表的逆置等等，这些在日后看来很容易的题目，当时把我难哭了。好在大部分题目是有讲解的，看完讲解之后还能安抚一下我受伤的心灵。记住这本书，我在考研之前翻了至少有三四遍。强化学习阶段完成了第一波视频+书籍的学习之后，我们应该已经对数据结构有了初步的了解了，对一些简单的数据结构算法也应该有所了解了，比如栈的入栈和出栈，队列的进队和出队，二叉树的先序遍历和后续遍历、层次遍历，图的最短路径算法，深度优先遍历等等。有了一定的基础之后，我们需要对哪方面进行强化学习呢？那就要看你学习数据结构的目的是什么了，比如你学习数据结构是为了能做算法题，那么接下来你应该重点去学习算法方面的知识，后续我们也将有一篇新的文章来讲怎么学习算法，敬请期待。当然，我当时主要是复习考研，所以还是针对专业课的历年真题来复习，像我们的卷子中就考察了很多关于哈希表、最短路径算法、KMP算法、赫夫曼算法以及最短路径算法的应用。对于考卷上的一些知识点，我觉得掌握的并不是很好，于是又买了《王道数据结构》以及一些并没有什么卵用的书回来看，再次强化了基础。并且，由于我们的复试通常会考察一些比较经典的算法问题，所以我又花了很多时间去学习这些算法题，这些题目并非数据结构的基础算法，所以在之前的书和视频中可能找不到答案。于是我又在网上搜到了另一个系列视频《小甲鱼的数据结构视频》里面除了讲解数据结构之外，还讲解了更多经典的算法题，比如八皇后问题，汉诺塔问题，马踏棋盘，旅行商问题等，这些问题对于新手来说真的是很头大的，使用视频学习确实效果更佳。实践阶段纸上得来终觉浅，绝知此事要躬行。众所周知，算法题和数学题一样，需要多加练习，而且考研的时候必须要手写算法，于是我就经常在纸上写（抄）算法，你还别说，就算是抄，多抄几次也有助于理解。很多基础的算法，比如层次遍历，深度优先遍历和广度优先遍历，多写几遍更有助理解，再比如稍微复杂一点的迪杰斯特拉算法，不多写几遍你可真记不住。除了在纸上写之外，更好的办法自然是在电脑上敲了，写Java的使用Java写，写C++ 的用C++ 写，总之用自己擅长的语言实现就好，尴尬的是我当时只会c，所以就只好老老实实地用devc++写简单的c语言程序了。至此，我们也算是学会了数据结构的基础知识了，至少知道每个数据结构的特性，会写常见的数据结构算法，甚至偶尔还能掏出一个八皇后出来。推荐资源书籍《天勤数据结构》《王道数据结构》如果你要考研的话，这两本书可不要错过严蔚敏《数据结构C语言版》这本书是大学本科计算机专业常用的教科书，年代久远，可以看看，官方也有配套的教学视频《大话数据结构》官方教材大家都懂的，比较不接地气，这本书对于很多新手来说是更适合入门的书籍。《数据结构与算法Java版》如果你是学Java的，想有一本Java语言描述的数据结构书籍，可以试试这本，但是这本书显然比较复杂，不适合入门使用。视频《郝斌数据结构》这个视频上文有提到过，年代比较久远，但是入门足够了。《小甲鱼数据结构与算法》这个视频比较新，更加全面，有很多关于经典算法的教程，作者也入驻了B站，有兴趣也可以到B站看他的视频。总结关于数据结构的学习，我们就讲到这里了，如果还有什么疑问也可以到我公众号里找我探讨，虽然我们提到了算法，但是这里只关注一些基础的数据结构算法，后续会有关于“怎么学算法“的文章推出，敬请期待。本篇文章为转载内容。原文链接：https://blog.csdn.net/a724888/article/details/104586757。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-12 23:35:52

133

转载

Hadoop

Hadoop支持文件跨访问控制协议迁移解析

...，朋友们！如果你对大数据处理感兴趣，那你一定听说过Hadoop这个名字。嘿，作为一个码农，我跟Hadoop的初次见面真的把我惊呆了！它的功能太牛了，感觉就像发现了一个全新的世界，简直太酷了吧！简单说呢，Hadoop就是一个开源的“大数据管家”，专门负责存东西、弄数据，而且不管数据多到啥程度，它都能应付得漂漂亮亮的！它就像是一个超级仓库，可以轻松应对各种规模的数据任务。为什么Hadoop这么受欢迎呢？因为它解决了传统数据库在处理大规模数据时的瓶颈问题。比如说啊，你在一家电商公司当数据分析师，每天的工作就是跟上亿条用户的点击、浏览、下单这些行为记录打交道，简直就像在海量的信息海洋里淘宝一样！如果用传统的数据库，可能早就崩溃了。但Hadoop不一样，它可以将这些数据分散到多个服务器上进行并行处理，效率杠杠的！不过，Hadoop的魅力远不止于此。嘿，大家好！今天我想跟你们分享一个关于Hadoop的超棒功能——它居然能让你在不同的访问控制协议之间轻松切换文件！是不是听着就很带感？哎呀，是不是觉得这事听着有点绕？别慌，我这就用大白话给你说道说道，保证你一听就明白！ --- 二、什么是跨访问控制协议迁移？首先，我们得明白什么是访问控制协议。简单说，就是规定谁可以访问你的数据以及他们能做些什么的规则。好比说啊，你有个公共文件柜，你想让一些人只能打开看看里面的东西，啥都不能动；但另外一些人呢，不仅能看，还能随便改，甚至直接把东西清空或者拿走。这就是访问控制协议的作用。那么，“跨访问控制协议迁移”又是什么意思呢？想象一下，你有两个不同的系统，它们各自有自己的访问控制规则。比如说，一个是Linux那边的ACL（访问控制列表）系统，另一个则是Windows里的NTFS权限系统，两者各有各的玩法。现在，你要把文件从一个系统迁移到另一个系统，而且你还想保留原来的访问控制设置。这就需要用到跨访问控制协议迁移的技术了。为什么要关心这个功能呢？因为现实世界中，企业往往会有多种操作系统和存储环境。要是你对文件的权限管理不当，那可就麻烦了，要么重要数据被泄露出去，要么一不小心就把东西给搞砸了。而Hadoop通过其强大的灵活性，完美地解决了这个问题。 --- 三、Hadoop如何实现跨访问控制协议迁移？接下来，让我们来看看Hadoop是如何做到这一点的。其实，这主要依赖于Hadoop的分布式文件系统（HDFS）和它的API库。为了更好地理解，我们可以一步步来分析。 3.1 HDFS的基本概念 HDFS是Hadoop的核心组件之一，它是用来存储大量数据的分布式文件系统。这就像是一个超大号的硬盘，不过它有点特别，不是集中在一个地方存东西，而是把数据切成小块，分散到不同的“小房间”里去。这样做的好处是即使某个节点坏了，也不会影响整个系统的运行。 HDFS还提供了一套丰富的接口，允许开发者自定义文件的操作行为。这就为实现跨访问控制协议迁移提供了可能性。 3.2 实现步骤实现跨访问控制协议迁移大致分为以下几个步骤：（1）读取源系统的访问控制信息第一步是获取源系统的访问控制信息。比如，如果你正在从Linux系统迁移到Windows系统，你需要先读取Linux上的ACL配置。 java // 示例代码：读取Linux ACL import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; public class AccessControlReader { public static void main(String[] args) throws IOException { Path path = new Path("/path/to/source/file"); FileSystem fs = FileSystem.get(new Configuration()); // 获取ACL信息 String acl = fs.getAclStatus(path).toString(); System.out.println("Source ACL: " + acl); } } 这段代码展示了如何使用Hadoop API读取Linux系统的ACL信息。可以看到，Hadoop已经为我们封装好了相关的API，调用起来非常方便。（2）转换为目标系统的格式接下来，我们需要将读取到的访问控制信息转换为目标系统的格式。比如，将Linux的ACL转换为Windows的NTFS权限。 java // 示例代码：模拟ACL到NTFS的转换 public class AclToNtfsConverter { public static void convert(String linuxAcl) { // 这里可以编写具体的转换逻辑 System.out.println("Converting ACL to NTFS: " + linuxAcl); } } 虽然这里只是一个简单的打印函数，但实际上你可以根据实际需求编写复杂的转换算法。（3）应用到目标系统最后一步是将转换后的权限应用到目标系统上。这一步同样可以通过Hadoop提供的API来完成。 java // 示例代码：应用NTFS权限 public class NtfsPermissionApplier { public static void applyPermissions(Path targetPath, String ntfsPermissions) { try { // 模拟应用权限的过程 System.out.println("Applying NTFS permissions to " + targetPath.toString() + ": " + ntfsPermissions); } catch (Exception e) { e.printStackTrace(); } } } 通过这三个步骤，我们就完成了从源系统到目标系统的访问控制协议迁移。 --- 四、实战演练一个完整的案例为了让大家更直观地理解，我准备了一个完整的案例。好啦，想象一下，我们现在要干的事儿就是把一个文件从一台Linux服务器搬去Windows服务器，而且还得保证这个文件在新家里的“门禁权限”跟原来一模一样，不能搞错！ 4.1 准备工作首先，确保你的开发环境中已经安装了Hadoop，并且配置好相关的依赖库。此外，还需要准备两台机器，一台装有Linux系统，另一台装有Windows系统。 4.2 编写代码接下来，我们编写代码来实现迁移过程。首先是读取Linux系统的ACL信息。 java // 读取Linux ACL Path sourcePath = new Path("/source/file.txt"); FileSystem linuxFs = FileSystem.get(new Configuration()); String linuxAcl = linuxFs.getAclStatus(sourcePath).toString(); System.out.println("Linux ACL: " + linuxAcl); 然后，我们将这些ACL信息转换为NTFS格式。 java // 模拟ACL到NTFS的转换 AclToNtfsConverter.convert(linuxAcl); 最后，将转换后的权限应用到Windows系统上。 java // 应用NTFS权限 Path targetPath = new Path("\\\\windows-server\\file.txt"); NtfsPermissionApplier.applyPermissions(targetPath, "Full Control"); 4.3 执行结果执行完上述代码后，你会发现文件已经被成功迁移到了Windows系统，并且保留了原有的访问控制设置。是不是很神奇？ --- 五、总结与展望通过这篇文章，我相信你对Hadoop支持文件的跨访问控制协议迁移有了更深的理解。Hadoop不仅是一个强大的工具，更是一种思维方式的转变。它就像个聪明的老师，不仅教我们怎么用分布式的思路去搞定问题，还时不时敲打我们：嘿，别忘了数据的安全和规矩可不能丢啊！未来，随着技术的发展，Hadoop的功能会越来越强大。我希望你能继续探索更多有趣的话题，一起在这个充满挑战的世界里不断前行！加油吧，程序员们！

2025-04-29 15:54:59

风轻云淡

Redis

基于Redis的分布式锁互斥性与可靠性实现及命名空间与原子性保障

...你有个超大的储物间（数据库或者其他服务），里面塞满了各种好玩意儿（数据），想拿啥就能拿啥！嘿，想象一下，现在有一群小毛贼（服务实例）都盯上了你的那些值钱的小宝贝，可不能让他们随便进来顺手牵羊啊！所以呢，你就得准备一把“神奇的钥匙”（锁），谁要是想进去拿东西，就必须先拿到这把钥匙才行。没有钥匙？不好意思，请自觉退散吧！为什么要用分布式锁呢？因为在线上系统里，多台机器可能会同时操作同一个资源，比如抢购商品这种场景。如果没有锁机制的话，就可能出现重复下单、库存超卖等问题。分布式锁嘛，简单说就是抢车位的游戏规则——在同一时间里，只能有一个家伙抢到那个“资源位”，别的家伙就只能乖乖排队等着轮到自己啦！不过说起来容易做起来难啊，尤其是在分布式环境下，网络延迟、机器宕机等问题会带来各种意想不到的情况。嘿，今天咱们就来唠唠，在Redis这个超级工具箱里，怎么才能整出个靠谱的分布式锁！ --- 2. Redis为什么适合用来做分布式锁？嘿，说到Redis，相信很多小伙伴都对它不陌生吧？Redis是一个基于内存的高性能键值存储系统，速度贼快，而且支持多种数据结构，比如字符串、哈希表、列表等等。最重要的是，它提供了原子性的操作指令，比如SETNX（Set if Not Exists），这让我们能够轻松地实现分布式锁！让我给你们讲个小故事：有一次我尝试用数据库来做分布式锁，结果发现性能特别差劲，查询锁状态的SQL语句每次都要扫描整个表，效率低得让人抓狂。换了Redis之后，简直像开了挂一样，整个系统都丝滑得不行！Redis这玩意儿不光跑得快，还自带一堆黑科技，像什么过期时间、消息订阅啥的，这些功能简直就是搞分布式锁的神器啊！所以，如果你也在纠结选什么工具来做分布式锁，强烈推荐试试Redis！接下来我会结合实际案例给你们展示具体的操作步骤。 --- 3. 实现分布式锁的基本思路首先，我们要明确分布式锁需要满足哪些条件： 1. 互斥性同一时刻只能有一个客户端持有锁。 2. 可靠性即使某个客户端崩溃了，锁也必须自动释放，避免死锁。 3. 公平性排队等待的客户端应该按照请求顺序获取锁。 4. 可重入性（可选）允许同一个客户端多次获取同一个锁。现在我们就来一步步实现这些功能。示例代码 1：最基本的分布式锁实现 python import redis import time def acquire_lock(redis_client, lock_key, timeout=10): 尝试加锁，设置过期时间为timeout秒 result = redis_client.set(lock_key, "locked", nx=True, ex=timeout) return bool(result) def release_lock(redis_client, lock_key): 使用Lua脚本来保证解锁的安全性 script = """ if redis.call("get", KEYS[1]) == ARGV[1] then return redis.call("del", KEYS[1]) else return 0 end """ redis_client.eval(script, keys=[lock_key], args=["locked"]) 这段代码展示了最基础的分布式锁实现方式。我们用set命令设置了两个参数：一个是NX，意思是“只在key不存在的时候才创建”，这样就能避免重复创建；另一个是EX，给这个锁加了个过期时间，相当于设了个倒计时，万一客户端挂了或者出问题了，锁也能自动释放，就不会一直卡在那里变成死锁啦。最后，解锁的时候我们用了Lua脚本，这样可以保证操作的原子性。 --- 4. 如何解决锁的隔离性问题？诶，说到这里，问题来了——如果两个不同的业务逻辑都需要用到同一个锁怎么办？比如订单系统和积分系统都想操作同一个用户的数据，这时候就需要考虑锁的隔离性了。换句话说，我们需要确保不同业务逻辑之间的锁不会互相干扰。示例代码 2：基于命名空间的隔离策略 python def acquire_namespace_lock(redis_client, namespace, lock_name, timeout=10): 构造带命名空间的锁名称 lock_key = f"{namespace}:{lock_name}" result = redis_client.set(lock_key, "locked", nx=True, ex=timeout) return bool(result) def release_namespace_lock(redis_client, namespace, lock_name): lock_key = f"{namespace}:{lock_name}" script = """ if redis.call("get", KEYS[1]) == ARGV[1] then return redis.call("del", KEYS[1]) else return 0 end """ redis_client.eval(script, keys=[lock_key], args=["locked"]) 在这个版本中，我们在锁的名字前面加上了命名空间前缀，比如orders:place_order和points:update_score。这样一来，不同业务逻辑就可以使用独立的锁，避免相互影响。 --- 5. 进阶如何处理锁竞争与性能优化？当然啦，现实中的分布式锁并不会总是那么顺利，有时候会出现大量请求同时争抢同一个锁的情况。这时我们可能需要引入队列机制或者批量处理的方式来降低系统的压力。示例代码 3：使用Redis的List模拟队列 python def enqueue_request(redis_client, queue_key, request_data): redis_client.rpush(queue_key, request_data) def dequeue_request(redis_client, queue_key): return redis_client.lpop(queue_key) def process_queue(redis_client, lock_key, queue_key): while True: 先尝试获取锁 if not acquire_lock(redis_client, lock_key): time.sleep(0.1) 等待一段时间再重试 continue 获取队列中的第一个请求并处理 request = dequeue_request(redis_client, queue_key) if request: handle_request(request) 释放锁 release_lock(redis_client, lock_key) 这段代码展示了如何利用Redis的List结构来管理请求队列。想象一下，好多用户一起抢同一个东西，场面肯定乱哄哄的对吧？这时候，咱们就让他们老老实实排成一队，然后派一个专门的小哥挨个儿去处理他们的请求。这样一来，大家就不会互相“打架”了，事情也能更顺利地办妥。 --- 6. 总结与反思兄弟们，通过今天的讨论，我相信大家都对如何在Redis中实现分布式锁有了更深刻的理解了吧？虽然Redis本身已经足够强大，但我们仍然需要根据实际需求对其进行适当的扩展和优化。比如刚才提到的命名空间隔离、队列机制等，这些都是非常实用的小技巧。不过呢，我也希望大家能记住一点——技术永远不是一成不变的。业务越做越大，技术也日新月异的，咱们得不停地充电，学点新鲜玩意儿，试试新招数才行啊！就像今天的分布式锁一样，也许明天就会有更高效、更优雅的解决方案出现。所以，保持好奇心，勇于探索未知领域，这才是程序员最大的乐趣所在！好了，今天就聊到这里啦，祝大家在编程的路上越走越远！如果有任何疑问或者想法，欢迎随时找我交流哦~

2025-04-22 16:00:29

寂静森林

ElasticSearch

ElasticSearch排障：磁盘空间不足导致节点宕机，集群健康受损，扩容+配置优化恢复日志分析系统

...一切看起来都很顺利，数据导入、索引创建啥的都没问题。但当我尝试对某些节点进行操作时，突然蹦出了这么一行错误： org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [SERVICE_UNAVAILABLE/2/no active shards]; 当时我心里那个急啊！赶紧去查文档，发现这是NodeNotActiveException的表现之一。简单说吧，就好比某个关键的小哥突然“罢工”了，可能是因为它内存不够用，或者网络断了啥的，结果整个团队的工作都乱套了，没法正常运转了。我当时就纳闷了：“这不是应该自动恢复吗？为啥还要报错呢？”后来才明白，虽然ElasticSearch确实有自我修复机制，但有时候我们需要手动干预才能让它恢复正常。 --- 2. 理解背后的逻辑为什么会出现这种问题？在深入了解之前，我觉得有必要先搞清楚这个异常的根本原因。其实NodeNotActiveException并不是什么特别复杂的概念，它主要出现在以下几种情况： - 节点宕机：某个节点由于硬件故障或者网络问题离线了。 - 磁盘空间不足：如果某个节点的磁盘满了，ElasticSearch会自动将其标记为不可用。 - 配置错误：比如分配给节点的资源不够，导致其无法启动。对于我来说，问题出在第二个点上——磁盘空间不足。我当时为了省钱，给服务器分配的空间少得可怜，结果没多久就发现磁盘直接爆满，把自己都吓了一跳！于是ElasticSearch很生气，直接把该节点踢出了集群。 --- 3. 解决方案一扩容磁盘空间既然问题找到了，那就动手解决吧！首先，我决定先扩展磁盘容量。这一步其实很简单，只要登录服务器，增加磁盘大小就行。具体步骤如下： bash 查看当前磁盘状态 df -h 扩展磁盘（假设你已经购买了额外的存储） sudo growpart /dev/xvda 1 sudo resize2fs /dev/xvda1 完成后记得重启ElasticSearch服务： bash sudo systemctl restart elasticsearch 重启之后，神奇的事情发生了——我的节点重新上线了！不过这里有个小技巧分享给大家：如果你不确定扩容是否成功，可以通过以下命令检查磁盘使用情况： bash df -h 看到磁盘空间变大了，心里顿时舒坦了不少。 --- 4. 解决方案二调整ElasticSearch配置当然啦，仅仅扩容还不够，还需要优化ElasticSearch的配置文件。特别是那些容易导致内存不足或磁盘占用过高的参数，比如indices.memory.index_buffer_size和indices.store.throttle.max_bytes_per_sec。修改后的配置文件大概长这样： yaml cluster.routing.allocation.disk.threshold_enabled: true cluster.routing.allocation.disk.watermark.low: 85% cluster.routing.allocation.disk.watermark.high: 90% cluster.routing.allocation.disk.watermark.flood_stage: 95% cluster.info.update.interval: 30s 这些设置的意思是告诉ElasticSearch，当磁盘使用率达到85%时开始警告，达到90%时限制写入，超过95%时完全停止操作。这样可以有效避免再次出现类似的问题。 --- 5. 实战演练代码中的应对策略除了调整配置，我们还可以通过编写脚本来监控和处理NodeNotActiveException。比如，下面这段Java代码展示了如何捕获异常并记录日志： java import org.elasticsearch.client.RestHighLevelClient; import org.elasticsearch.client.RestClient; import org.elasticsearch.client.indices.CreateIndexRequest; import org.elasticsearch.client.indices.CreateIndexResponse; public class ElasticSearchExample { public static void main(String[] args) { RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http"))); try { CreateIndexRequest request = new CreateIndexRequest("test_index"); CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT); System.out.println("Index created: " + response.isAcknowledged()); } catch (Exception e) { if (e instanceof ClusterBlockException) { System.err.println("Cluster block detected: " + e.getMessage()); } else { System.err.println("Unexpected error: " + e.getMessage()); } } finally { try { client.close(); } catch (IOException ex) { System.err.println("Failed to close client: " + ex.getMessage()); } } } } 这段代码的作用是在创建索引时捕获可能发生的异常，并根据异常类型采取不同的处理方式。如果遇到ClusterBlockException，我们可以选择延迟重试或者其他补偿措施。 --- 6. 总结与反思成长路上的一课通过这次经历，我深刻体会到，作为一名开发者，不仅要掌握技术细节，还要学会从实际问题出发，找到最优解。NodeNotActiveException这个错误看着不起眼，但其实背后有不少门道呢！比如说，你的服务器硬件是不是有点吃不消了？集群那边有没有啥小毛病没及时发现？还有啊，咱们平时运维的时候是不是也有点松懈了？这些都是得好好琢磨的地方！最后，我想说的是，技术学习的过程就像爬山一样，有时候会遇到陡峭的山坡，但只要坚持下去，总能看到美丽的风景。希望这篇文章能给大家带来一些启发和帮助！如果还有其他疑问，欢迎随时交流哦~

2025-03-14 15:40:13

林中小径

转载文章

[转载]练习：《斗鱼视频》m3u8流视频采集下载+思路+Python

...calhost',数据库地址'DB_NAME':'douyu',数据库名称''DB_TABLE':'douyu'数据库表}MongoDB初始化client = pymongo.MongoClient(config['DB_URL'])mango_db = client[config['DB_NAME']]MongoDB存储def save_to_mango(result):if mango_db[config['DB_TABLE']].insert_one({'vid':result}):print('成功存储到MangoDB')return Truereturn FalseMongoDB验证重复def check_to_mongo(vid):count = mango_db[config['DB_TABLE']].find({'vid':vid}).count()if count==0:return Falsereturn True删除文件def del_file(page):if os.path.exists(page): 删除文件，可使用以下两种方法。os.remove(page) os.unlink(my_file)else:print('no such file:%s' % page)循环列表删除文件def loop_del_file(arr):for item in arr:del_file(item)请求器def get_content_requests(url):headers = {}headers['user-agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'headers['cookie'] = 'dy_did=07f83a57d1d2e22942e0883200001501; acf_did=07f83a57d1d2e22942e0883200001501; Hm_lvt_e99aee90ec1b2106afe7ec3b199020a7=1556514266,1557050422,1557208315; acf_auth=; acf_auth_wl=; acf_uid=; acf_nickname=; acf_username=; acf_own_room=; acf_groupid=; acf_notification=; acf_phonestatus=; _dys_lastPageCode=page_video,page_video; Hm_lpvt_e99aee90ec1b2106afe7ec3b199020a7=1557209469; _dys_refer_action_code=click_author_video_cate2'try:req_content = requests.get(url,headers = headers)if req_content.status_code == 200:return req_contentprint('请求失败：',url)return Noneexcept:print('请求失败：', url)return None把时间换算成秒def str_to_int(time):try:time_array = time.split(':')time_int = (int(time_array[0])60)+int(time_array[1])return time_intexcept:print('~~~~~计算视频时间失败~~~~~')return None提取需要采集的数据def get_list(html,type = 1):data = []try:list_json = json.loads(str(html))for om in list_json['data']['list']:gtime = str_to_int(om['video_str_duration'])if gtime > config['TIME_START'] and gtime < config['TIME_ENT']:if type == 2:data.append({'title': om['title'], 'vid': om['url'].split('show/')[1]})else:data.append({'title': om['title'], 'vid': om['hash_id']})return dataexcept:print('~~~~~数据提取失败~~~~~')return None解析playlist.m3u8def get_ts_list(m3u8):data = []try:html_m3u8_json = json.loads(m3u8)m3u8_text = get_content_requests(html_m3u8_json['data']['video_url'])m3u8_vurl =html_m3u8_json['data']['video_url'].split('playlist.m3u8?')[0]if m3u8_text:get_text = re.findall(',\n(.?).ts(.?)\n',m3u8_text.text,re.S)for item in get_text:data.append(m3u8_vurl+item[0]+'.ts'+item[1])return datareturn Noneexcept:print('~~~~~解析playlist.m3u8失败~~~~~')return None 杀死moviepy产生的特定进程def killProcess(): 处理python程序在运行中出现的异常和错误try: pids方法查看系统全部进程pids = psutil.pids()for pid in pids: Process方法查看单个进程p = psutil.Process(pid) print('pid-%s,pname-%s' % (pid, p.name())) 进程名if p.name() == 'ffmpeg-win64-v4.1.exe': 关闭任务 /f是强制执行，/im对应程序名cmd = 'taskkill /f /im ffmpeg-win64-v4.1.exe 2>nul 1>null' python调用Shell脚本执行cmd命令os.system(cmd)except:pass下载.ts文件def download_ts(m3u8_list,name):try:if not os.path.exists(config['FILE_PATH']):os.makedirs(config['FILE_PATH'])if not os.path.exists(config['TS_PATH']):os.makedirs(config['TS_PATH'])if os.path.exists(config['FILE_PATH']+name+'.mp4'):name = name+'_'+str(int(time.time()))print('开始下载：',name)L = []R = []for p in m3u8_list:ts_find = get_content_requests(p)file_ts = '{0}{1}.ts'.format(config['TS_PATH'],md5(ts_find.content).hexdigest())with open(file_ts,'wb') as f:f.write(ts_find.content)R.append(file_ts)hebing = VideoFileClip(file_ts)L.append(hebing)killProcess()print('下载完成：',file_ts)mp4file = '{0}{1}.mp4'.format(config['FILE_PATH'],name)final_clip = concatenate_videoclips(L)final_clip.to_videofile(mp4file, fps=24, remove_temp=True)killProcess()loop_del_file(R)print('\n下载完成：',name)print('')return Trueexcept:print('~~~~~合成.ts文件失败~~~~~')return None下载视频列表def list_get_kong(list_json):for item in list_json:y = Trueif config['CHECKID']:if check_to_mongo(item['vid']):print('~~~~~检测到重复项~~~~~')y = Falseif y:get_show_html = get_content_requests('https://vmobile.douyu.com/video/getInfo?vid=' + item['vid'])if get_show_html:m3u8_list = get_ts_list(get_show_html.text)if m3u8_list:download = download_ts(m3u8_list, item['title'])if download: save_to_mango(item['vid'])time.sleep(config['TIME_GE'])控制器def main(page):if config['TYPE']==1:print('~~~~~按用户ID采集~~~~~')listurl = 'https://v.douyu.com/video/author/getAuthorVideoListByNew?up_id={0}&cate2_id=0&limit=30&page={1}'.format(config['UID'],page)get_list_html = get_content_requests(listurl)if get_list_html:list_json = get_list(get_list_html.text,1)if list_json:list_get_kong(list_json)else:print('~~~~~按列表ID采集~~~~~')listurl = 'https://v.douyu.com/video/video/listData?page={1}&cate2Id={0}&action=new'.format(config['CID'],page)get_list_html = get_content_requests(listurl)if get_list_html:list_json = get_list(get_list_html.text,2)if list_json:list_get_kong(list_json)初始化if __name__=='__main__':if config['POOL']:groups = [x for x in range(config['PAGE_START'],config['PAGE_END']+1)]pool = Pool()pool.map(main, groups)else:for item in range(config['PAGE_START'],config['PAGE_END']+1):main(item)print('~~~~~已经完成【所有操作】~~~~~') 总结：众所周知，BiliBili是一个学习的网站！本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_35875470/article/details/89857445。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-18 11:34:00

119

转载

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...m();// 1K的数据缓冲byte[] bs = new byte[1024];// 读取到的数据长度int len;// 输出的文件流File sf=new File(savePath);int randomNo=(int)(Math.random()1000000);String filename=urlPath.substring(urlPath.lastIndexOf("/")+1,urlPath.length());//获取服务器上图片的名称filename=new java.text.SimpleDateFormat("yyyy-MM-dd-HH-mm-ss").format(new Date())+randomNo+filename;//时间+随机数防止重复OutputStream os = new FileOutputStream(sf.getPath()+"\\"+filename);// 开始读取while ((len = is.read(bs)) != -1) {os.write(bs, 0, len);}// 完毕，关闭所有链接os.close();is.close();} 写好后，我们再完善一下JsouPic中的getPic方法。 public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}File desktop = Download.getDesktop();Download.checkPath(desktop.getPath() + "\\images\\" + kind);//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");Download.download(elements1.attr("src"), desktop.getPath() + "\\images\\" + kind);} }} } 在Download类中，我添加了checkPath方法，用于判断目录是否存在，不存在就创建一个。 public static void checkPath(String savePath) throws Exception {File file = new File(savePath);if (!file.exists()){file.mkdirs();} } 最后在mainapp包内创建PullPic类，并添加主方法。 package com.asahi.mainapp;import com.asahi.common.Kind;import com.asahi.common.PrintLog;import com.asahi.utils.JsoupPic;import java.util.Scanner;public class PullPic {public static void main(String[] args) throws Exception {new PullPic().downloadPic();}public void downloadPic() throws Exception {System.out.println("启动程序>>\n请输入所爬取的分类：");Scanner scanner = new Scanner(System.in);String kind = scanner.next();while(!Kind.contains(kind)){System.out.println("分类不存在，请重新输入：");kind = scanner.next();}System.out.println("分类输入正确！");System.out.println("开始下载>>");JsoupPic.getPic(kind);} } 三、成果展示最终的运行结果如下：最终的代码已上传到我的github中，点击“我的github”进行查看。在学习Java爬虫的过程中，我收获了很多，一开始做的时候确实遇到了很多困难，这次写的获取图片也是最基础的，还可以继续深入。本来我想写一个通过多线程来获取图片来着，也尝试着去写了一下，越写越跑偏，暂时先放着不处理吧，等以后有时间再来弄，我想问题应该不大，只是考虑的东西有很多。希望大家多多指点不足，有哪些需要改进的地方，我也好多学习学习๑乛◡乛๑。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_39693281/article/details/108463868。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-12 10:26:04

130

转载

转载文章

[转载]Linux安装mariaDB以及修改Mariadb存储路径

...riadb 3.登录数据库，查看字符编码mysql -uroot -p输入 \s 查看编码 7. mysql常用命 desc 查看表结构create database 数据库名create table 表名查看如何创建db的show create database 库名查看如何创建table结构的show create table 表名; 修改mysql的密码set password = PASSWORD('redhat'); 创建mysql的普通用户，默认权限非常低create user zhang@'%' identified by '123456'; 查询mysql数据库中的用户信息use mysql;select host,user,password from user; 7. 给用户添加权限命令对所有库和所有表授权所有权限grant all privileges on . to 账户@主机名给zhang用户授予所有权限grant all privileges on . to zhang@'%'; 刷新授权表flush privileges; 8. 给用户添加权限命令给zhangsan用户授予所有权限grant all privileges on . to zhangsan@'%'; 给与root权限授予远程登录的命令 'centos这是密码随意设置grant all privileges on . to root@'%' identified by '123456'; 此时可以在windows登录linux的数据库连接服务器的mysqlmysql -uyining -p -h 服务器的地址 9. 数据备份与恢复导出当前数据库的所有db,到一个文件中1.mysqldump -u root -p --all-databases > /data/AllMysql.dump2.登录mysql 导入数据mysql -u root -p> source /data/AllMysql.dump3.通过命令导入数据在登录时候，导入数据文件，一样可以写入数据mysql -uroot -p < /data/AllMysql.dump 10. 修改Mariadb存储路径 10.1 首先确定MariaDB数据库能正常运行，确定正常后关闭服务 systemctl stop mariadb 10.2 建立要更改数据存放的目录，如：我这单独分了一个区/data存放MariaDB的数据 mkdir /data/mysql_data chown -R mysql:mysql /data/mysql_data 10.3 复制默认数据存放文件夹到/data/mysql_data cp -a /var/lib/mysql /data/mysql_data 10.4 修改/etc/my.cnf.d/server.cnf vim /etc/my.cnf.d/server.cnf 在[mysqld]标签下添加如下内容 datadir=/data/mysql_data/mysqlsocket=/var/lib/mysql/mysql.sockdefault-character-set=utf8character_set_server=utf8slow_query_log=onslow_query_log_file=/data/mysql_data/slow_query_log.loglong_query_time=2 10.5 配置MariaDB慢查询 touch /data/mysql_data/slow_query_log.logchown mysql:mysql /data/mysql_data/slow_query_log.log 10.6 重启数据库 systemctl start mariadb 10.7 注意： 1、配置文件my.cnf存在，但是修改的并不是my.cnf，而是/etc/my.cnf.d/server.cnf； 2、并没有更改mysql.sock的路径配置； 3、没有修改/etc/init.d/mysql中的内容； 4、没有修改mysql_safe中的内容； 5、增加了数据库的慢查询配置。 11. Mariadb主从复制 11.1 主从库初始化这条命令可以初始化mysql，删除匿名用户，设置root密码等等....mysql_secure_installation1.输入当前密码，初次安装后是没有密码的，直接回车2.询问是否使用 'unix_socket' 进行身份验证: n3.为 root 设置密码：y4.输入 root 的新密码: root5.确认输入 root 的新密码: root6.是否移除匿名用户，这个随意，建议删除： y7.拒绝用户远程登录，这个建议开启：n8.删除 test 库，可以保留：n9.重新加载权限表：y 11.2 修改主库配置 [root@mster mysql] grep -Ev "^$|^" /etc/my.cnf.d/server.cnf[server][mysqld]character-set-server=utf8collation-server=utf8_general_ciserver_id = 13 一组主从组里的每个id必须是唯一值。推荐用ip位数log-bin= mysql-bin 二进制日志，后面指定存放位置。如果只是指定名字，默认存放在/var/lib/mysql下lower_case_table_names=1 不区分大小写binlog-format=ROW 二进制日志文件格式log-slave-updates=True slave更新是否记入日志sync-master-info=1 值为1确保信息不会丢失slave-parallel-threads=3 同时启动多少个复制线程，最多与要复制的数据库数量相等即可binlog-checksum=CRC32 效验码master-verify-checksum=1 启动主服务器效验slave-sql-verify-checksum=1 启动从服务器效验[galera][embedded][mariadb][mariadb-10.6][root@mster-k8s mysql] 11.2 修改从库配置 [mysqld]character-set-server=utf8collation-server=utf8_general_ciserver_id=14log-bin= mysql-bin log-bin是二进制文件relay_log = relay-bin 中继日志, 后面指定存放位置。如果只是指定名字，默认存放在/var/lib/mysql下lower_case_table_names=1 11.3 重启主库和从库服务 systemctl restart mariad 11.4 master节点配置 MariaDB [huawei]> grant replication slave, replication client on . to 'liu'@'%' identified by '123456';Query OK, 0 rows affected (0.001 sec)MariaDB [huawei]> show master status;+------------------+----------+--------------+------------------+| File | Position | Binlog_Do_DB | Binlog_Ignore_DB |+------------------+----------+--------------+------------------+| mysql-bin.000001 | 4990 | | |+------------------+----------+--------------+------------------+1 row in set (0.000 sec)MariaDB [huawei]> select binlog_gtid_pos('mysql-bin.000001', 4990 );+-------------------------------------------+| binlog_gtid_pos('mysql-bin.000001', 4990) |+-------------------------------------------+| 0-13-80 |+-------------------------------------------+1 row in set (0.000 sec)MariaDB [huawei]> flush privileges; 11.5 slave节点配置 MariaDB [(none)]> set global gtid_slave_pos='0-13-80';Query OK, 0 rows affected (0.004 sec)MariaDB [(none)]> change master to master_host='101.34.141.216',master_user='liu',master_password='123456',master_use_gtid=slave_pos;Query OK, 0 rows affected (0.008 sec)MariaDB [(none)]> start slave;Query OK, 0 rows affected (0.005 sec)MariaDB [(none)]> 11.6 验证salve状态 MariaDB [(none)]> show slave status\G 1. row Slave_IO_State: Waiting for master to send eventMaster_Host: 101.34.141.216Master_User: liuMaster_Port: 3306Connect_Retry: 60Master_Log_File: mysql-bin.000001Read_Master_Log_Pos: 13260Relay_Log_File: relay-bin.000002Relay_Log_Pos: 10246Relay_Master_Log_File: mysql-bin.000001Slave_IO_Running: YesSlave_SQL_Running: YesReplicate_Do_DB: Replicate_Ignore_DB: Replicate_Do_Table: Replicate_Ignore_Table: Replicate_Wild_Do_Table: Replicate_Wild_Ignore_Table: Last_Errno: 0Last_Error: Skip_Counter: 0Exec_Master_Log_Pos: 13260Relay_Log_Space: 10549Until_Condition: NoneUntil_Log_File: Until_Log_Pos: 0Master_SSL_Allowed: NoMaster_SSL_CA_File: 本篇文章为转载内容。原文链接：https://blog.csdn.net/l363130002/article/details/126121255。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-12 10:11:01

310

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

find /path -type f -mtime +30 - 在指定路径下查找过去30天未修改过的文件。