...联系我们，我们将第一时间进行核实并删除相应内容。改编自微信公众号：前端js动力节点。 webpack这个单词，我们可以拆开来读：web、pack。 pack是啥意思？打包，对吧？所以webpack的核心就是打包，将所有的资源全部打包压成一个个模块，就像酱紫滴：我们这节课重点讲一下css的打包。有同学就犯嘀咕了：你说js打包我还能理解，而css打包是个什么卵？css还用打包？开什么国际玩笑？这种质疑不无道理。因为从传统观点来看，css生下来就是个二等公民。js开始也是个二流货色，但经过这几年的努力，人家已经洗白白成了白富美；而css呢，好容易折腾到css3，虽然整了容，变的漂亮了些，但仍不登大雅之堂，不受人待见。大家都是二等公民出身，为啥你js能起来，我就不行？css心中一万头草泥马奔过，难道这就是命运的安排？人贵在有自知之明。当人生遇到低谷，最重要的是反思自己，而不是跟个怨妇一样抱怨。 css为啥无法成为白富美？首先，可能是因其语法简单，没有什么挑战性；其次，大家也不怎么重视css的规范性。在传统模式下，css都是一股脑写在一个大文件里，然后加载到网页的，这样就直接导致了管理上的混乱：在css增量开发时，要时刻注意命名空间问题；到了调试阶段，又不得不依赖谷歌控制台或firebug的元素定位，有时父类的某个属性影响了子类，导致修改子类样式无法达到预期。。。。自从有了react和vue，css的灵魂得到了救赎。这两种框架均提出组件化编程的思想，也就是将html，css，js均凝聚成一个不可分割的小部件，留出对外通信的接口，然后灵活组合使用，譬如下图所示：这样一来，css就有了打包的可能性。打包的好处是： css也有了模块化，可以不用再关心命名空间问题，只需专心将这个部件渲染好，出了问题也更容易定位追踪。知其然知其所以然，我们搞懂了为啥css要打包的道理，下面就可以愉快而主动的学习了。仔细权衡了一下，这里我并不打算引入react或vue讲解，因为这样会增加大家理解上的负担。学习新东西，最忌讳的就是学了这个又牵扯到那个，结果精力分散重点转移，到最后很可能一个都没搞懂，还增加了自己的挫败感。为了简单起见，我们仍旧沿用前面那个案例做讲解，先把这个webpack玩转再说。咱们看一下具体玩法。首先还是安装插件，这里我们需要两个工具： npm install style-loadernpm install css-loader 原料有了，我们做一下测试文件做测试。我们首先新建一个style.css文件，目录结构如下： style.css: .content {color: red;} 很简单，就是一个样式类。然后我们改一下helloworld.js文件。 helloworld.js: // 引入css模块var styles = require('../style.css');// 输出模块module.exports = () => {// 这里使用了箭头函数，还有let和const关键字哦～～let content = "Hello ";const NAME = "ES6";var div = document.createElement('div');div.setAttribute('class', styles.content); // 使用样式类div.innerHTML = content + NAME;return div;}; 注意，这里跟我们平时写的有点不一样。我们在建一个dom节点时，指定了一个样式类。但是这个样式类，是以包的形式存在的，也就是一个模块。综合起来看我们这个helloworld.js模块，是不是把html，css和js凝聚成了一个小整体了呢？我知道你已经迫不及待的想看结果了，好吧，咱们赶紧写一下配置文件跑起来吧~~ webpack.config.js: var path = require('path');module.exports = {entry: './src/index.js',output: {path: path.resolve(__dirname, 'dist'),filename: 'bundle.js'},module: {rules: [{test: /\.js$/,exclude: /node_modules/,loader: 'babel-loader',options: {presets: ['env']} }, {test: /\.css$/,loader: 'style-loader!css-loader?modules'}]} }; 说明： style-loader和css-loader是工具名称。 !感叹号是分割符，表示两个工具都参与处理。 ?问号，其实跟url的问号一样，就是后面要跟参数的意思。而modules这个参数呢，就是将css打包成模块。跟js打包是一样的，你不必再担心不同模块具有相同类名时造成的问题了。我们运行一下：（我这次特地没在局部安装webpack-cli，发现可以运行，因为我昨天在全局安装了webpack-cli，之所以要在全局安装而单独局部安装不行，可能跟package.json有关，因为这里都没有用到package.json）。如果不报错，我们打开浏览器，看一下index.html：我们看到，样式已然生效了，但是我们打开控制台，看到class的名称并非是我们写的样式类.content,而是生成了新名称，这就说明webpack的编译生效了。我们打开bundle.js看一下，css其实已经被打包编译到了bundle.js文件里：（太长，截了一部分）我们看到，css打包后，存在形态已经变成了js。这没有什么可奇怪的，只有这样才能使用包的形式做管理，css本身，是无法达到这样的目的的，所以，它还是二等公民。。。。本篇文章为转载内容。原文链接：https://blog.csdn.net/DreamFJ/article/details/81700004。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-13 11:42:35

转载

转载文章

[转载]武汉校园招聘记录

...联系我们，我们将第一时间进行核实并删除相应内容。本周，跟随人事部同事，参加了公司在武汉的校园招聘会。这是公司第3次在武汉进行校园招聘，吸取了前两次的经验，本次校招安排在国庆前进行，在时间上抢先其它公司，采用了“宣讲、直接做题、筛选、技术面试、人事面试”方式。整个过程持续2.5天：第1天，上午华中科大宣讲、做题，下午武大宣讲、做题，晚上筛选。第2天技术面试。第3天上午人事面试。以下是一些经历记录。 1. 笔试、筛选流程有待改进宣讲后，直接笔试，然后笔试和简历一起提交，晚上根据试题和简历初步筛选，整个过程出现几个较大问题：没有地方做题。宣讲时不知道确切人数，很多同学都是站着，之后做题找不到地方，有的同学直接就在膝盖上完成了。在武大更是严重，人数较多，临时找做题的会议室，导致很多同学延迟半小时才开始答题，非常影响学生的答题心情。试卷不够。同样因为宣讲不知道确切人数，拍脑袋一个方向打印了几十份试卷，结果有的无人问津，如DSP方向；有的则没有试卷，如软件工程师；一些同学发挥才智，直接写答案在自带的空白稿纸上。这也非常影响学生的答题心情。筛选时间不足。晚上要根据试题和简历筛选出面试人选，并通知到。只有3个小时时间，2百多简历，平均1份不到1分钟，连逐题评分都没有时间。筛选只能跑马观花，看看卷面、答题内容、学校等，个人觉得这种筛选方式非常草率，容易漏掉不善于书写、或发挥不好的其他学校学生。面试中，就有2位同学认为试题答得很好，要求面试。已将向人事部反应，推荐参考其他公司的，先投简历，初步筛选后，再确定笔试人数，然后再筛选，面试。虽然会多花1天时间，但做题、筛选会更有效率和质量。回复本年度招聘流程就这样了，后续再改进。 2. 与企业职位要求符合度低与进入面试的学生交谈，主要了解一下课题、自己做的内容，以及与公司职位相关的能力准备。交谈中，发现很多同学对符合职位的特点不能有效突出，从课题项目，转向企业工程化的要求也准备不足。以下是一些问题记录：课题目的描述不清。一些同学对自己课题的背景、目的、意义描述不清楚，只知道是老师让做的，就去做了。其实硕士期间纯粹研究课题时间只有1年多(2年硕士更少)，都要研究出实用东西不太可能，但至少要对自己做的事情有一个系统认识。成人学习过程，只有知道“为什么”，才能学得明白。课题中自己负责的事情描述不具体。简历中描述的课题常规都很大，不大可能是一个人完成。那就有分模块，模块之间有接口、有通信协议什么的。自己做的这一块，起什么作用，上下游都是干啥的，等等。如果自圆其说都办不到，后续工作任务也会存在问题。不能突出匹配企业职位的要求。以软件工程师为例，简历上写熟悉面向对象、精通C++，只能说出多态、继承几个名词，用过vector、string；学习C和C++除了谭老的书，就很少自己看其他的；想从事软件工程师，连“新手圣经”代码大全没有听说过。在面试的20多人中，没有一个人拿着笔记本来演示他写的程序，我们都是干说。对比较适合的人，我都建议他们先看看代码大全、设计模式，不管是否来我们公司。其实，一个真正对某件事情感兴趣的同学，他会主动去找资源，深入理解，不会等到应聘的时候再抱佛脚，找借口。 3. 招聘是体力活外出前就有些感冒，招聘过程中，拿带子断掉的易拉宝宣传盒子，提数斤重的简历试题，在酒店昏暗灯光中阅卷，坐在椅子中一天且不停地说话，做5小时高铁。。。最后感觉都是机械式的动作，实在是体力活，感冒在武汉有加重倾向，回到深圳后，在草窝中睡了一天，第2天就好了一半。离开武汉5年多了，本次去武汉招聘，趁着晚上休息时刻，去拜访老师和室友。好久不去，武汉修了环城路，打车都找不到地方，只能到附近的金三利酒店，再重温上学的路。在老师家品尝了招牌的红烧武昌鱼，木耳鸡翅膀，见识老师几十年的工作成果奖励。去室友家，他家公子见到生人就不停的哭，呵呵。回到酒店想一想，时间不在了，记忆模糊了，唯有文字记录之。节后，我们还要继续后续的校园招聘。（北京、哈尔滨校园招聘记录）本篇文章为转载内容。原文链接：https://blog.csdn.net/zhouyulu/article/details/8033464。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-02-02 13:16:24

524

转载

转载文章

[转载]【金猿技术展】SSNG多源数据处理技术——运营商手机信令处理系统及平台

...联系我们，我们将第一时间进行核实并删除相应内容。联通智慧足迹技术本项目由联通智慧足迹投递并参与“数据猿年度金猿策划活动——2021大数据产业创新技术突破榜单及奖项”评选。数据智能产业创新服务媒体 ——聚焦数智 · 改变商业中国联通智慧足迹开发的SSNG多源数据处理平台，是完全自研的新一代面向行为集成的位置数据处理系统。平台沉淀海量信令处理过程中的长期经验，着力解决影响数据输出质量的核心堵点，可兼容类似信令的多种LBS数据源接入并实现自动化、标准化输出数据结果。技术说明 SSNG多源数据处理平台技术创新部分包括：行为矩阵：将离散的驻留信息，转化为用户的时空矩阵，通过机器学习模式识别，提取出用户的LBS行为特征。行为集成：将用户的行为矩阵，结合搜集沉淀的土地利用&地物POI数据，为用户的驻留、出行信息赋予具体的目的，便于后续的场景化分析。人车匹配：结合车联网LBS数据，将轨迹重合度高的“人-车”用户对，通过轨迹伴随算法识别出来，可用于判断用户的车辆保有情况。路径拟合：解决信令数据定位不连续和受限基站布设密度等问题，引入路网拓扑数据，将用户出行链还原至真实道路上，并确定流向及关键转折点，以便于判断出行方式。出行洞察：利用信令数据、基站数据，匹配地铁网络、高铁网络，通过机器学习算法，判定用户出行时使用的出行方式。基于SSNG多源数据处理平台，可实现的技术突破包括： 1）全国长时序人口流动监测技术针对运营商信令数据以及spark分布式计算平台的特点，独创了处理运营商信令数据的双层计算框架，填补了分布式机器学习方法处理运营商信令数据的空白，实现了大规模高效治理运营商大数据的愿景；研发了人口流动与现代大数据技术相结合的宏观监测仿真模型。基于以上技术构建了就业、交通、疫情、春运等一系列场景模型，并开发了响应决策平台，实现了对我国人口就业、流动及疫情影响的全域实时监测。 2）全国长时序人口流动预测技术即人口流动的大尺度OD预测技术，研发了人口跨区域流动OD预测模型，解决了信令大数据在量化模拟大尺度人口流动中的技术难题，形成了对全国人口流动在日、周、月不同时间段和社区、乡镇、县市不同地理尺度进行预测的先进技术，实现了2020年新冠疫情后全国返城返岗和2021年全国春节期间人口流动的高精度预测。 3）实时人口监测实时人口监测是通过对用户手机信令进行实时处理、计算和分析，得出指定区域的实时人口数量、特征和迁徙情况。包括区域人口密度、人口数量、人口结构、人口来源、人口画像、人口迁徙、职住分析、人口预测等信息。 4）超强数据处理及AI能力引入Bitmap大数据处理算法及Pilosa数据库集群，采用实时流式计算，集成Kafka、redis、RabbitMQ等分布式大数据处理组件，搭建自有信令大数据处理平台，使用百亿计算go-kite架构，实现毫秒级响应，实时批量处理数据达500000条 /秒，每天可处理1000亿条数据。集成AI分析能力（A/B轨），有效避免了运营商数据采集及传输过程中的时延及中断情况，大幅提高数据结果的实时性。已获专利情况：专利名称专利号出行统计方法、装置、计算机设备和可读存储介质 ZL 2020 1 0908424.3 信令数据匹配方法、装置及电子设备 ZL 2019 1 1298869.8 轨道交通用户识别方法和装置 ZL 2019 1 0755903.3 公共聚集事件识别方法、装置、计算机设备及存储介质 ZL 2020 1 1191917.6 广域高铁基站识别方法、装置、服务器及存储介质 ZL 2020 1 1325543.2 相关荣誉： 2021地理信息科技进步奖一等奖、中国测绘学会科技进步奖特等奖、2021数博会领先科技成果奖、兼容系统创新应用大赛大数据专项赛优秀奖。开发团队 ·带队负责人：陶周天公司CTO，北京大学理学学士。长期任职于微软等世界500强企业，曾任上市公司优炫软件VP，具备丰富的IT架构、数据安全、数据分析建模、机器学习、项目管理经验。牵头组织突破多个技术难题（人地匹配、人车匹配、室内基站优化、行为集成AI等），研发一系列技术专利。 ·团队其他重要成员：刘祖军高级算法工程师，美国爱荷华大学计算机科学本硕，曾任职于美国俄亥俄州立大学研究院。 ·隶属机构：智慧足迹智慧足迹数据科技有限公司是中国联通控股，京东科技参股的专业大数据及智能科技公司。公司依托中国联通卓越的数据资源和5G能力，京东科技强大的人工智能、物联网等技术和“产业X科技”能力，聚焦“人口+”大数据，连接人-物-企，成为全域数据智能科技领先服务商。公司以P·A·Dt为核心能力，面向数字政府、智慧城市、企业数字化转型广大市场主体，专注经济治理、社会治理和企业数字化服务，构建“人口+”七大多源数据主题库，提供“人口+” 就业、经济、消费、民生、城市、企业等大数据产品平台，服务支撑国家治理现代化和国家战略，推动经济社会发展。目前，公司已服务国家二十多个部委及众多省市政府、300+城市规划、知名企业和高校等智库、国有及股份制银行等数百家头部客户，已建成全球最强大的手机信令处理平台，是中国就业、城规、统计等领域大数据领先服务商。相关评价新一代SSNG多源大数据处理平台，提升了手机信令数据在空间数据计算的精度，信令处理结果对室内场景更具敏锐性，在区域范围的职住人群空间分布更加接近实际情况。 ——某央企大数据部技术负责人新一代SSNG多源大数据处理平台，可处理实时及历史信令数据，应对不同客户应用场景。并且根据长时间序列历史数据实现人口预测，为提高数据精度可对接室内基站数据，从而提供更加准确的人员定位。 ——某企业政府事业部总监提示：了解更多相关内容，点击文末左下角“阅读原文”链接可直达该机构官网。《2021企业数智化转型升级服务全景图/产业图谱1.0版》《2021中国数据智能产业图谱3.0升级版》《2021中国企业数智化转型升级发展研究报告》《2021中国数据智能产业发展研究报告》 ❷ 创新服务企业榜 ❸ 创新服务产品榜 ❸ 最具投资价值榜 ❺ 创新技术突破榜 ☆条漫:《看过大佬们发的朋友圈之后，我相信：明天会更好！》联系数据猿北京区负责人:Summer 电话：18500447861(微信) 邮箱：summer@datayuan.cn 全国区负责人:Yaphet 电话：18600591561(微信) 邮箱：yaphet@datayuan.cn 本篇文章为转载内容。原文链接：https://blog.csdn.net/YMPzUELX3AIAp7Q/article/details/122314407。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-01 09:57:01

343

转载

HBase

HBase集群性能检查：吞吐量、延迟与GC时间优化及负载均衡调整

吞吐量 , 指单位时间内HBase集群能够处理的请求数量，通常以每秒处理的请求数（QPS）来衡量。在文章中，吞吐量是评估HBase集群性能的重要指标之一，它反映了系统的数据处理能力。高吞吐量意味着系统能够在短时间内处理更多的请求，这对于需要处理大规模并发访问的应用场景尤为重要。例如，在电商网站的促销活动期间，用户可能会同时发起大量的查询请求，此时就需要HBase集群具备较高的吞吐量来保证系统的稳定运行。延迟 , 指HBase集群完成一次操作所需的时间，通常以毫秒（ms）为单位。在文章中，延迟是另一个重要的性能指标，它直接影响到用户的使用体验。低延迟意味着系统能够快速响应用户的请求，这对于需要实时交互的应用场景至关重要。例如，在股票交易系统中，投资者需要实时查看最新的市场行情，任何超过几秒钟的延迟都可能导致决策失误。因此，优化HBase集群的延迟是提高系统性能的关键环节之一。 Region分布 , 指HBase中数据分区（Region）在各个RegionServer之间的分配情况。在文章中，Region分布不均会导致部分RegionServer承担过多的负载，从而影响整个集群的性能。合理的Region分布应该使每个RegionServer上的负载相对均衡，这样可以避免出现某些节点过载而其他节点闲置的情况。为了实现这一点，HBase提供了负载均衡机制，可以通过手动或自动的方式调整Region的分布。例如，当检测到某个RegionServer的压力过大时，系统会自动将部分Region迁移到其他负载较轻的节点上，从而达到负载均衡的目的。

2025-04-14 16:00:01

落叶归根

Kibana

Kibana中设置数据保留策略：索引生命周期与滚动操作详解

...存了太多无用的数据，导致查询速度慢得像乌龟爬……这些问题是不是让你头疼？别担心，Kibana可以帮助我们轻松管理数据，而数据保留策略就是其中的重要一环。其实，数据保留策略的核心思想很简单：只保留必要的数据，删除那些不再需要的垃圾信息。这不仅能够节省宝贵的存储资源，还能提高系统的运行效率。所以，今天咱们就来深入探讨一下，如何在Kibana中搞定这个事儿！ --- 2. 数据保留策略是什么？为什么要用它？ 2.1 什么是数据保留策略？简单来说，数据保留策略就是定义数据的生命周期。比如说，“只留最近30天的记录”，或者是“超过一年的就自动清掉”。你可以根据业务需求灵活设置这些规则。 2.2 为什么我们需要它？想象一下，如果你是一家电商平台的数据分析师，每天都会生成大量的日志文件。这些日志里可能包含了用户的购买记录、浏览行为等重要信息。不过呢，日子一长啊，那些早期的日志就变得没啥分析的意义了，反而是白白占着磁盘空间，挺浪费的。这时候，数据保留策略就能帮你解决这个问题。再比如，如果你是一家医院的IT管理员，医疗设备产生的监控数据可能每秒都在增加。要是不赶紧把那些旧数据清理掉，系统非但会变得越来越卡，还可能出大问题，甚至直接“翻车”！所以，合理规划数据的生命周期是非常必要的。 --- 3. 如何在Kibana中设置数据保留策略？接下来，咱们进入正题——具体操作步骤。相信我，这并不复杂，只要跟着我的节奏走，你一定能学会！ 3.1 第一步：创建索引模式首先，我们需要确保你的数据已经被正确地存储到Elasticsearch中，并且可以通过Kibana访问。如果还没有创建索引模式，可以按照以下步骤操作： bash 登录Kibana界面 1. 点击左侧菜单栏中的“Management”。 2. 找到“Stack Management”部分，点击“Index Patterns”。 3. 点击“Create index pattern”按钮。 4. 输入你的索引名称（例如 "logstash-"），然后点击“Next step”。 5. 选择时间字段（通常是@timestamp），点击“Create index pattern”完成配置。 > 思考点：这里的关键在于选择合适的索引名称和时间字段。如果你的时间字段命名不规范，后续可能会导致数据无法正确筛选哦！ 3.2 第二步：设置索引生命周期策略接下来，我们要为索引创建生命周期策略。这是Kibana中最核心的部分，直接决定了数据的保留方式。示例代码： javascript PUT _ilm/policy/my_policy { "policy": { "phases": { "hot": { "actions": { "rollover": { "max_size": "50gb", "max_age": "30d" } } }, "delete": { "min_age": "1y", "actions": { "delete": {} } } } } } 这段代码的意思是： - 热阶段（Hot Phase）：当索引大小达到50GB或者超过30天时，触发滚动操作。 - 删除阶段（Delete Phase）：超过1年后，自动删除该索引。 > 小贴士：这里的max_size和max_age可以根据你的实际需求调整。比如，如果你的服务器内存较小，可以将max_size调低一点。 3.3 第三步：将策略应用到索引设置好生命周期策略后，我们需要将其绑定到具体的索引上。具体步骤如下： bash POST /my-index/_settings { "index.lifecycle.name": "my_policy", "index.lifecycle.rollover_alias": "my_index" } 这段代码的作用是将之前创建的my_policy策略应用到名为my-index的索引上。同时，通过rollover_alias指定滚动索引的别名。 --- 4. 实战案例数据保留策略的实际效果为了让大家更直观地理解数据保留策略的效果，我特意准备了一个小案例。假设你是一名电商公司的运维工程师，每天都会收到大量的订单日志，格式如下： json { "order_id": "123456789", "status": "success", "timestamp": "2023-09-01T10:00:00Z" } 现在，你想对这些日志进行生命周期管理，具体要求如下： - 最近3个月的数据需要保留。 - 超过3个月的数据自动归档到冷存储。 - 超过1年的数据完全删除。实现方案： 1. 创建索引模式，命名为orders-。 2. 定义生命周期策略 javascript PUT _ilm/policy/orders_policy { "policy": { "phases": { "hot": { "actions": { "rollover": { "max_size": "10gb", "max_age": "3m" } } }, "warm": { "actions": { "freeze": {} } }, "delete": { "min_age": "1y", "actions": { "delete": {} } } } } } 3. 将策略绑定到索引 bash POST /orders-/_settings { "index.lifecycle.name": "orders_policy", "index.lifecycle.rollover_alias": "orders" } 运行以上代码后，你会发现： - 每隔3个月，新的订单日志会被滚动到一个新的索引中。 - 超过3个月的旧数据会被冻结，存入冷存储。 - 超过1年的数据会被彻底删除，释放存储空间。 --- 5. 总结与展望通过今天的分享，相信大家对如何在Kibana中设置数据保留策略有了更深的理解。虽然设置过程看似繁琐，但实际上只需要几步就能搞定。而且啊，要是咱们好好用数据保留这招，不仅能让系统跑得更快、更顺畅，还能帮咱们把那些藏在数据里的宝贝疙瘩给挖出来，多好呀！最后，我想说的是，技术学习是一个不断探索的过程。如果你在实践中遇到问题，不妨多查阅官方文档或者向社区求助。毕竟，我们每个人都是技术路上的探索者，一起努力才能走得更远！好了，今天的分享就到这里啦！如果你觉得这篇文章有用，记得点赞支持哦~咱们下次再见！

2025-04-30 16:26:33

风轻云淡

MySQL

MySQL错误日志中Too many open files解决实录：定位+配置+运维经验+调试优化

...每天面对着各种各样的问题，而当看到MySQL的日志文件里充满了大量的错误信息时，我的第一反应通常是——“天啊！这是什么情况？”尤其是在半夜加班的时候，这种感觉尤其强烈。不过，作为一名资深的技术人，我很快意识到，慌张解决不了任何问题。咱们先别急着慌，坐下来好好琢磨琢磨这些错误到底是啥意思，到底是咋冒出来的，然后想想接下来该怎么处理才好。于是，我开始仔细阅读日志内容，并尝试重现这些错误。比如，最近我在维护的一个生产环境下的MySQL服务器上，突然发现日志里出现了大量这样的错误信息： [ERROR] InnoDB: Operating system error number 24 in a file operation. 这让我有点懵，因为我之前从未遇到过类似的错误。所以，我决定深入研究一下这个问题，看看能不能找到解决方案。 --- 2. 错误日志解读从表面现象到本质原因首先，我需要弄清楚这个错误到底意味着什么。我翻了翻官方文档，又逛了逛一些社区论坛，感觉这错误八成跟操作系统里的文件操作有关系。具体来说，错误号24在Linux系统中表示“Too many open files”（打开的文件太多）。这让我立刻联想到，可能是因为MySQL的某些进程打开了过多的文件句柄，导致操作系统限制了它进一步的操作。为了验证这一点，我执行了一个简单的命令来检查当前系统的文件描述符限制： bash ulimit -n 结果显示默认值为1024。这意味着每个进程最多只能同时打开1024个文件。说实话，咱们的MySQL实例现在正忙着应付一大堆同时连进来的需求，还得折腾临时表呢。这么一看，那个限制就跟挠痒痒似的——太不够用了！接下来，我查看了MySQL的配置文件my.cnf，发现确实没有显式设置文件描述符的上限。于是，我修改了配置文件，将open_files_limit参数调整为更大的值： ini [mysqld] open_files_limit=65535 然后重启了MySQL服务，再次检查日志，果然，错误消失了！ --- 3. 实践中的代码调试与优化当然，仅仅解决问题还不够，我还想进一步优化整个系统的性能。于是，我编写了一些脚本来监控MySQL的运行状态，特别是文件描述符的使用情况。以下是一个简单的Python脚本，用于统计MySQL当前使用的文件描述符数量： python import psutil import subprocess def get_mysql_open_files(): 获取所有MySQL进程ID mysql_pids = [] result = subprocess.run(['pgrep', 'mysqld'], capture_output=True, text=True) for line in result.stdout.splitlines(): mysql_pids.append(int(line)) total_open_files = 0 for pid in mysql_pids: try: proc = psutil.Process(pid) open_files = len(proc.open_files()) print(f"Process {pid} has opened {open_files} files.") total_open_files += open_files except Exception as e: print(f"Error checking process {pid}: {e}") print(f"Total open files by MySQL processes: {total_open_files}") if __name__ == "__main__": get_mysql_open_files() 运行这个脚本后，我发现某些特定的查询会导致文件描述符迅速增加。经过分析，这些问题主要出现在涉及大文件读写的场景中。所以呢，我觉得咱们开发的小伙伴们得好好捯饬捯饬这些查询语句啦！比如说，能不能少建那些没用的临时表啊？再比如，能不能换个更快的存储引擎啥的？反正就是得让这个程序跑得更顺畅些，别老是卡在那里干瞪眼不是？ --- 4. 总结与反思从问题中学到的东西回顾这次经历，我深刻体会到，处理数据库问题时，不能仅凭直觉行事，而是要结合实际数据和技术手段，逐步排查问题的根本原因。同时，我也认识到，预防胜于治疗。如果能在日常运维中提前做好监控和预警，就可以避免很多突发状况。最后，我想分享一点个人感悟：技术之路永无止境，每一次遇到难题都是一次成长的机会。说实话，有时候真的会觉得头大，甚至怀疑自己是不是走错了路。但我觉得啊，这就好比在黑暗里找钥匙，你得不停地摸索、试错才行。只要别轻易放弃，一直在学、一直在练，总有一天你会发现，“！原来它在这儿呢！”就跟我在处理这个MySQL报错的时候似的，最后不光把问题搞定了，还顺带学了不少实用的招儿呢！如果你也遇到了类似的情况，不妨试试上面提到的方法，也许能帮到你！

2025-04-17 16:17:44

109

山涧溪流_

RabbitMQ

RabbitMQ实战中因API版本问题导致消息丢失的排查与修复

...了过时的API版本，导致功能缺失或错误——RabbitMQ实战中的那些坑 1. 初识RabbitMQ 从“消息队列小白”到“菜鸟程序员” 作为一个刚接触分布式系统的菜鸟程序员，我第一次听说RabbitMQ的时候，内心是充满期待的。它可是鼎鼎大名的“全球最受欢迎的开源消息中介”，不仅稳得一批，还能用各种编程语言来玩转它。当时我觉得：“哇，这不就是传说中的‘消息传递神器’吗？” 于是，我开始着手研究如何搭建一个简单的RabbitMQ服务，并尝试用Python写了一个发送和接收消息的小程序。一切看起来都挺顺的，结果有一天，我突然发现代码竟然挂了！更气人的是，问题出在用的API版本太老旧，导致一些功能直接歇菜了。我当时就懵了：“啥？API版本还能影响功能？这玩意儿不是应该兼容所有旧版本的嘛？”但事实告诉我，这个世界没有免费的午餐，尤其是涉及到软件开发的时候。 --- 2. 问题重现为什么我的代码突然崩溃了？事情要从几个月前说起。那时候，我刚刚完成了一个基于RabbitMQ的消息推送系统。为了赶紧把东西推出去，我就没太细看依赖库的版本，直接装了最新的 pika（就是 RabbitMQ 官方推荐的那个 Python 客户端库）。一切都很完美，测试通过后，我兴高采烈地部署到了生产环境。然而好景不长，几天后同事反馈说，有些消息无法正常到达消费者端。我赶紧登录服务器检查日志，发现报错信息指向了channel.basic_publish()方法。具体错误是： AttributeError: 'Channel' object has no attribute 'basic_publish' 我当时的第一反应是：“卧槽，这是什么鬼？basic_publish明明在文档里写了啊！”于是我翻阅了官方文档，发现确实存在一个叫做basic_publish的方法，但它属于早期版本的API。经过一番痛苦的排查，我才意识到问题出在了版本差异上。原来，在较新的pika版本中，basic_publish已经被替换成了basic_publish_exchange，并且参数顺序也发生了变化。而我的代码依然按照旧版本的写法来调用，自然就挂掉了。 --- 3. 深度剖析过时API的危害与应对之道这件事让我深刻认识到，RabbitMQ虽然强大，但也需要开发者时刻保持警惕。特别是当你依赖第三方库时，稍不留神就可能踩进“版本陷阱”。以下几点是我总结出来的教训：（1）永远不要忽视版本更新带来的变化很多开发者习惯于直接复制粘贴网上的代码示例，却很少去验证这些代码是否适用于当前版本。你可能不知道，有时候就算方法名一样，背后的逻辑变了，结果可能会差很多。比如说啊，在RabbitMQ的3.x版本里，你用channel.queue_declare()这个方法的时候，它返回的东西就像是个装满数据的盒子，但这个盒子是那种普通的字典格式的。可到了4.x版本呢，这玩意儿就有点变了味儿，返回的不再是那个简单的字典盒子了，而是一个“高级定制版”的对象实例，感觉像是升级成了一个有专属身份的小家伙。因此，每次引入新工具之前，一定要先查阅官方文档，确认其最新的API规范。要是不太确定，不妨试试跑一下官方给的例程代码，看看有没有啥奇怪的表现。（2）版本锁定的重要性为了避免类似的问题再次发生，我在后续项目中采取了严格的版本管理策略。例如，在requirements.txt文件中明确指定依赖库的具体版本号，而不是使用通配符（如>=）。这样做的好处是，即使未来出现了更高级别的版本，也不会意外破坏现有功能。下面是一段示例代码，展示了如何在pip中固定pika的版本为1.2.0： python requirements.txt pika==1.2.0 当然，这种方法也有缺点，那就是升级依赖时可能会比较麻烦。不过嘛，要是咱们团队人不多，但手头的项目特别讲究稳当性，那这个方法绝对值得一试！ --- 4. 实战演练修复旧代码，拥抱新世界既然明白了问题所在，接下来就是动手解决问题了。嘿，为了让大家更清楚地知道怎么把旧版的API换成新版的，我打算用一段代码来给大家做个示范，保证一看就懂！假设我们有一个简单的RabbitMQ生产者程序，如下所示： python import pika connection = pika.BlockingConnection(pika.ConnectionParameters('localhost')) channel = connection.channel() channel.queue_declare(queue='hello') channel.basic_publish(exchange='', routing_key='hello', body='Hello World!') print(" [x] Sent 'Hello World!'") connection.close() 如果你直接运行这段代码，很可能会遇到如下警告： DeprecationWarning: This method will be removed in future releases. Please use the equivalent method on the Channel class. 这是因为queue_declare方法现在已经被重新设计为返回一个包含元数据的对象，而不是单纯的字典。我们需要将其修改为如下形式： python import pika connection = pika.BlockingConnection(pika.ConnectionParameters('localhost')) channel = connection.channel() result = channel.queue_declare(queue='', exclusive=True) queue_name = result.method.queue channel.basic_publish(exchange='', routing_key=queue_name, body='Hello World!') print(" [x] Sent 'Hello World!'") connection.close() 可以看到，这里新增了一行代码来获取队列名称，同时调整了routing_key参数的赋值方式。这种改动虽然简单，但却能显著提升程序的健壮性和可读性。 --- 5. 总结与展望从失败中学习，向成功迈进回想起这次经历，我既感到懊恼又觉得幸运。真后悔啊，当时要是多花点时间去了解API的新变化，就不会在这上面浪费那么多精力了。不过话说回来，这次小挫折也让我学到了教训，以后会更注意避免类似的错误，而且也会更加重视代码的质量。最后想对大家说一句：技术的世界瞬息万变，没有人能够永远站在最前沿。但只要保持好奇心和学习热情，我们就一定能找到通往成功的道路。毕竟，正如那句经典的话所说：“失败乃成功之母。”只要勇敢面对挑战，总有一天你会发现，那些曾经让你头疼不已的问题，其实都是成长路上不可或缺的一部分。希望这篇文章对你有所帮助！如果你也有类似的经历或者见解，欢迎随时交流哦~

2025-03-12 16:12:28

105

岁月如歌

转载文章

[转载]英特尔oneAPI——异构计算学习总结

...联系我们，我们将第一时间进行核实并删除相应内容。英特尔oneAPI——异构计算学习总结 oneAPI编程模型多架构编程面临的挑战 SYCL DPC++ 编译和运行DPC++程序编程实例实现矢量加法 queue类 Parallel kernel 通用的并行编程模板 Host Accessor 矢量相加源代码统一共享内存 (Unified Shared Memory USM) USM语法数据依赖 wait() depends_on in_order queue property 练习1：事件依赖练习2：事件依赖 UMS实验 oneAPI编程模型 oneAPI编程模型提供了一个全面、统一的开发人员工具组合，可用于各种硬件设备，其中包括跨多个工作负载领域的一系列性能库。这些库包括面向各目标架构而定制化代码的函数，因此相同的函数调用可为各种支持的架构提供优化的性能。DPC++基于行业标准和开放规范，旨在鼓励生态系统的协作和创新。多架构编程面临的挑战在以数据为中心的环境中，专用工作负载的数量不断增长。专用负载通常因为没有通用的编程语言或API而需要使用不同的语言和库进行编程，这就需要维护各自独立的代码库。由于跨平台的工具支持不一致，因此开发人员必须学习和使用一整套不同的工具。单独投入精力给每种硬件平台开发软件。 oneAPI则可以利用一种统一的编程模型以及支持并行性的库，支持包括CPU、GPU、FPGA等硬件等同于原生高级语言的开发性能，并且可以与现有的HPC编程模型交互。 SYCL SYCL支持C++数据并行编程，SYCL和OpenCL一样都是由Khronos Group管理的，SYCL是建立在OpenCL之上的跨平台抽象层，支持用C++用单源语言方式编写用于异构处理器的与设备无关的代码。 DPC++ DPC++(Data Parallel C++)是一种单源语言，可以将主机代码和异构加速器内核写在同一个文件当中，在主机中调用DPC++程序，计算由加速器执行。DPC++代码简洁且效率高，并且是开源的。现有的CUDA应用、Fortran应用、OpenCL应用都可以用不同方式很方便地迁移到DPC++当中。下图显示了原来使用不同架构的HPC开发人员的一些推荐的转换方法。编译和运行DPC++程序编译和运行DPC++程序主要包括三步：初始化环境变量编译DPC++源代码运行程序例如本地运行，在本地系统上安装英特尔基础工具套件，使用以下命令编译和运行DPC++程序。 source /opt/intel/inteloneapi/setvars.shdpcpp simple.cpp -o simple./simple 编程实例实现矢量加法以下实例描述了使用DPC++实现矢量加法的过程和源代码。 queue类 queue类用来提交给SYCL执行的命令组，是将作业提交到运算设备的一种机制，多个queue可以映射到同一个设备。 Parallel kernel Parallel kernel允许代码并行执行，对于一个不具有相关性的循环数据操作，可以用Parallel kernel并行实现在C++代码中的循环实现 for(int i=0; i < 1024; i++){a[i] = b[i] + c[i];}); 在Parallel kernel中的并行实现 h.parallel_for(range<1>(1024), [=](id<1> i){A[i] = B[i] + C[i];}); 通用的并行编程模板 h.parallel_for(range<1>(1024), [=](id<1> i){// CODE THAT RUNS ON DEVICE }); range用来生成一个迭代序列，1为步长，在循环体中，i表示索引。 Host Accessor Host Accessor是使用主机缓冲区访问目标的访问器，它使访问的数据可以在主机上使用。通过构建Host Accessor可以将数据同步回主机，除此之外还可以通过销毁缓冲区将数据同步回主机。 buf是存储数据的缓冲区。 host_accessor b(buf,read_only); 除此之外还可以将buf设置为局部变量，当系统超出buf生存期，buf被销毁，数据也将转移到主机中。矢量相加源代码根据上面的知识，这里展示了利用DPC++实现矢量相加的代码。 //第一行在jupyter中指明了该cpp文件的保存位置%%writefile lab/vector_add.cppinclude <CL/sycl.hpp>using namespace sycl;int main() {const int N = 256;// 初始化两个队列并打印std::vector<int> vector1(N, 10);std::cout<<"\nInput Vector1: "; for (int i = 0; i < N; i++) std::cout << vector1[i] << " ";std::vector<int> vector2(N, 20);std::cout<<"\nInput Vector2: "; for (int i = 0; i < N; i++) std::cout << vector2[i] << " ";// 创建缓存区buffer vector1_buffer(vector1);buffer vector2_buffer(vector2);// 提交矢量相加任务queue q;q.submit([&](handler &h) {// 为缓存区创建访问器accessor vector1_accessor (vector1_buffer,h);accessor vector2_accessor (vector2_buffer,h);h.parallel_for(range<1>(N), [=](id<1> index) {vector1_accessor[index] += vector2_accessor[index];});});// 创建主机访问器将设备中数据拷贝到主机当中host_accessor h_a(vector1_buffer,read_only);std::cout<<"\nOutput Values: ";for (int i = 0; i < N; i++) std::cout<< vector1[i] << " ";std::cout<<"\n";return 0;} 运行结果统一共享内存 (Unified Shared Memory USM) 统一共享内存是一种基于指针的方法，是将CPU内存和GPU内存进行统一的虚拟化方法，对于C++来说，指针操作内存是很常规的方式，USM也可以最大限度的减少C++移植到DPC++的代价。下图显示了非USM(左)和USM(右)的程序员开发视角。类型函数调用说明在主机上可访问在设备上可访问设备 malloc_device 在设备上分配（显式）否是主机 malloc_host 在主机上分配（隐式）是是共享 malloc_shared 分配可以在主机和设备之间迁移（隐式）是是 USM语法初始化： int data = malloc_shared<int>(N, q); int data = static_cast<int >(malloc_shared(N sizeof(int), q)); 释放 free(data,q); 使用共享内存之后，程序将自动在主机和运算设备之间隐式移动数据。数据依赖使用USM时，要注意数据之间的依赖关系以及事件之间的依赖关系，如果两个线程同时修改同一个内存区，将产生不可预测的结果。我们可以使用不同的选项管理数据依赖关系：内核任务中的 wait() 使用 depends_on 方法使用 in_queue 队列属性 wait() q.submit([&](handler &h) {h.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 2; });}).wait(); // <--- wait() will make sure that task is complete before continuingq.submit([&](handler &h) {h.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 3; });}); depends_on auto e = q.submit([&](handler &h) { // <--- e is event for kernel taskh.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 2; });});q.submit([&](handler &h) {h.depends_on(e); // <--- waits until event e is completeh.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 3; });}); in_order queue property queue q(property_list{property::queue::in_order()}); // <--- this will make sure all the task with q are executed sequentially 练习1：事件依赖以下代码使用 USM，并有三个提交到设备的内核。每个内核修改相同的数据阵列。三个队列之间没有数据依赖关系为每个队列提交添加 wait() 在第二个和第三个内核任务中实施 depends_on() 方法使用 in_order 队列属性，而非常规队列： queue q{property::queue::in_order()}; %%writefile lab/usm_data.cppinclude <CL/sycl.hpp>using namespace sycl;static const int N = 256;int main() {queue q{property::queue::in_order()};//用队列限制执行顺序std::cout << "Device : " << q.get_device().get_info<info::device::name>() << "\n";int data = static_cast<int >(malloc_shared(N sizeof(int), q));for (int i = 0; i < N; i++) data[i] = 10;q.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 2; });q.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 3; });q.parallel_for(range<1>(N), [=](id<1> i) { data[i] += 5; });q.wait();//wait阻塞进程for (int i = 0; i < N; i++) std::cout << data[i] << " ";std::cout << "\n";free(data, q);return 0;} 执行结果练习2：事件依赖以下代码使用 USM，并有三个提交到设备的内核。前两个内核修改了两个不同的内存对象，第三个内核对前两个内核具有依赖性。三个队列之间没有数据依赖关系 %%writefile lab/usm_data2.cppinclude <CL/sycl.hpp>using namespace sycl;static const int N = 1024;int main() {queue q;std::cout << "Device : " << q.get_device().get_info<info::device::name>() << "\n";//设备选择int data1 = malloc_shared<int>(N, q);int data2 = malloc_shared<int>(N, q);for (int i = 0; i < N; i++) {data1[i] = 10;data2[i] = 10;}auto e1 = q.parallel_for(range<1>(N), [=](id<1> i) { data1[i] += 2; });auto e2 = q.parallel_for(range<1>(N), [=](id<1> i) { data2[i] += 3; });//e1,e2指向两个事件内核q.parallel_for(range<1>(N),{e1,e2}, [=](id<1> i) { data1[i] += data2[i]; }).wait();//depend on e1,e2for (int i = 0; i < N; i++) std::cout << data1[i] << " ";std::cout << "\n";free(data1, q);free(data2, q);return 0;} 运行结果 UMS实验在主机中初始化两个vector，初始数据为25和49，在设备中初始化两个vector，将主机中的数据拷贝到设备当中，在设备当中并行计算原始数据的根号值，然后将data1_device和data2_device的数值相加，最后将数据拷贝回主机当中，检验最后相加的和是否是12，程序结束前将内存释放。 %%writefile lab/usm_lab.cppinclude <CL/sycl.hpp>include <cmath>using namespace sycl;static const int N = 1024;int main() {queue q;std::cout << "Device : " << q.get_device().get_info<info::device::name>() << "\n";//intialize 2 arrays on hostint data1 = static_cast<int >(malloc(N sizeof(int)));int data2 = static_cast<int >(malloc(N sizeof(int)));for (int i = 0; i < N; i++) {data1[i] = 25;data2[i] = 49;}// STEP 1 : Create USM device allocation for data1 and data2int data1_device = static_cast<int >(malloc_device(N sizeof(int),q));int data2_device = static_cast<int >(malloc_device(N sizeof(int),q));// STEP 2 : Copy data1 and data2 to USM device allocationq.memcpy(data1_device, data1, sizeof(int) N).wait();q.memcpy(data2_device, data2, sizeof(int) N).wait();// STEP 3 : Write kernel code to update data1 on device with sqrt of valueauto e1 = q.parallel_for(range<1>(N), [=](id<1> i) { data1_device[i] = std::sqrt(25); });auto e2 = q.parallel_for(range<1>(N), [=](id<1> i) { data2_device[i] = std::sqrt(49); });// STEP 5 : Write kernel code to add data2 on device to data1q.parallel_for(range<1>(N),{e1,e2}, [=](id<1> i) { data1_device[i] += data2_device[i]; }).wait();// STEP 6 : Copy data1 on device to hostq.memcpy(data1, data1_device, sizeof(int) N).wait();q.memcpy(data2, data2_device, sizeof(int) N).wait();// verify resultsint fail = 0;for (int i = 0; i < N; i++) if(data1[i] != 12) {fail = 1; break;}if(fail == 1) std::cout << " FAIL"; else std::cout << " PASS";std::cout << "\n";// STEP 7 : Free USM device allocationsfree(data1_device, q);free(data1);free(data2_device, q);free(data2);// STEP 8 : Add event based kernel dependency for the Steps 2 - 6return 0;} 运行结果本篇文章为转载内容。原文链接：https://blog.csdn.net/MCKZX/article/details/127630566。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-22 10:28:50

321

转载

Go Gin

Gin结合Go语言实现高性能实时处理与简单易用的并发优化

...之前，我也纠结过一段时间。其实呢，Go语言虽然是个静态类型的编程语言，跑起来那速度杠杠的，谁用谁知道！不过呢，它的小生态也是个绕不开的话题，跟Java或者Python比起来，相关的工具、库啊，还有社区里的人气就稍微逊色那么一点点啦。嘿，我刚去瞅了瞅Gin的官网，看了几个案例之后，真是有点被圈粉了！这框架不光跑得飞快，连文档都整得明明白白的，一看就懂。还有那个社区，感觉特别热闹，大家都很积极地交流分享，这种氛围真的超棒！尤其是那种对反应速度要求特别高、分分钟得赶紧干活的场合，Gin这家伙还真挺靠谱的！ --- 二、快速入门搭建基本框架首先，我们需要安装Gin库。如果你已经安装了Go环境，那么只需运行以下命令即可： bash go get -u github.com/gin-gonic/gin 接下来，我们来写一个最简单的HTTP服务程序： go package main import ( "github.com/gin-gonic/gin" "net/http" ) func main() { r := gin.Default() r.GET("/ping", func(c gin.Context) { c.JSON(http.StatusOK, gin.H{ "message": "pong", }) }) r.Run(":8080") // 启动服务器监听8080端口 } 这段代码创建了一个Gin路由，并定义了一个GET请求路径/ping，当客户端访问这个地址时，会返回JSON格式的数据{"message": "pong"}。个人感悟刚接触这段代码的时候，我有点被惊到了——这么少的代码竟然能完成如此多的功能！当然，这也得益于Gin的设计理念：尽可能简化开发流程，让程序员专注于业务逻辑而不是框架细节。 --- 三、实时处理的核心 WebSocket支持既然我们要讨论实时处理，那么就不得不提WebSocket。WebSocket就像是一个永不掉线的“聊天热线”，能让浏览器和服务器一直保持着畅通的联系。跟传统的请求-响应模式不一样，它可以让双方随时自由地“唠嗑”，想发啥就发啥，特别适合那些需要实时互动的应用，比如聊天室里你一言我一语，或者股票行情那种分分钟都在变化的东西，用它简直太合适了！ Gin内置了对WebSocket的支持，我们可以直接通过中间件来实现这一功能。下面是一个完整的WebSocket示例： go package main import ( "log" "net/http" "github.com/gin-gonic/gin" "github.com/gorilla/websocket" ) var upgrader = websocket.Upgrader{ ReadBufferSize: 1024, WriteBufferSize: 1024, CheckOrigin: func(r http.Request) bool { return true // 允许跨域 }, } func handleWebSocket(c gin.Context) { ws, err := upgrader.Upgrade(c.Writer, c.Request, nil) if err != nil { log.Println("Failed to upgrade:", err) return } defer ws.Close() for { messageType, msg, err := ws.ReadMessage() if err != nil { log.Println("Error reading message:", err) break } log.Printf("Received: %s\n", string(msg)) err = ws.WriteMessage(messageType, msg) if err != nil { log.Println("Error writing message:", err) break } } } func main() { r := gin.Default() r.GET("/ws", handleWebSocket) r.Run(":8080") } 在这段代码中，我们利用gorilla/websocket包实现了WebSocket升级，并在handleWebSocket函数中处理了消息的读取与发送。你可以试着在浏览器里输入这个地址：ws://localhost:8080/ws，然后用JavaScript发个消息试试，看能不能马上收到服务器的回应。深入探讨说实话，刚开始写这部分代码的时候，我还担心WebSocket的兼容性问题。后来发现，只要正确设置了CheckOrigin方法，大多数现代浏览器都能正常工作。这让我更加坚定了对Gin的信心——它虽然简单，但足够强大！ --- 四、进阶技巧并发与性能优化在实际项目中，我们可能会遇到高并发的情况。为了保证系统的稳定性，我们需要合理地管理线程池和内存分配。Gin提供了一些工具可以帮助我们做到这一点。例如，我们可以使用sync.Pool来复用对象，减少垃圾回收的压力。下面是一个示例： go package main import ( "sync" "time" "github.com/gin-gonic/gin" ) var pool sync.Pool func init() { pool = &sync.Pool{ New: func() interface{} { return make([]byte, 1024) }, } } func handler(c gin.Context) { data := pool.Get().([]byte) defer pool.Put(data) copy(data, []byte("Hello World!")) time.Sleep(100 time.Millisecond) // 模拟耗时操作 c.String(http.StatusOK, string(data)) } func main() { r := gin.Default() r.GET("/", handler) r.Run(":8080") } 在这个例子中，我们定义了一个sync.Pool来存储临时数据。每次处理请求时，从池中获取缓冲区，处理完毕后再放回池中。这样可以避免频繁的内存分配和释放，从而提升性能。反思与总结其实，刚开始学习这段代码的时候，我对sync.Pool的理解还停留在表面。直到后来真正用它解决了性能瓶颈，我才意识到它的价值所在。这也让我明白，优秀的框架只是起点，关键还是要结合实际需求去探索和实践。 --- 五、未来展望 Gin与实时处理的无限可能 Gin的强大之处不仅仅在于它的易用性和灵活性，更在于它为开发者提供了广阔的想象空间。无论是构建大型分布式系统，还是打造小型实验项目，Gin都能胜任。如果你也想尝试用Gin构建实时处理系统，不妨从一个小目标开始——比如做一个简单的在线聊天室。相信我，当你第一次看到用户实时交流的画面时，那种成就感绝对会让你欲罢不能！最后的话写这篇文章的过程，其实也是我自己重新审视Gin的过程。其实这个东西吧，说白了挺简单的，但让我学到了一个本事——用最利索的办法搞定事情。希望能这篇文章也能点醒你，让你在今后的开发路上，慢慢琢磨出属于自己的那套玩法！加油吧，程序员们！

2025-04-07 16:03:11

时光倒流

Kafka

Kafka可靠性保障：持久化+分区+副本+acks确保消息不丢失

...试次数。如果网络抖动导致消息未送达，Kafka会自动重试。 - linger.ms：控制批量发送的时间间隔。默认值为0毫秒，即立即发送。 java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("acks", "all"); props.put("retries", 3); props.put("linger.ms", 5); props.put("batch.size", 16384); Producer producer = new KafkaProducer<>(props); for (int i = 0; i < 100; i++) { producer.send(new ProducerRecord<>("my-topic", Integer.toString(i), Integer.toString(i))); } producer.close(); 在这个例子中，我们设置了retries=3和linger.ms=5，这意味着即使遇到短暂的网络问题，Kafka也会尝试最多三次重试，并且会在5毫秒内累积多条消息一起发送。 4. 消费者端的可靠性保障消费者端同样需要关注可靠性问题。Kafka 有两种消费模式，一个叫 earliest，一个叫 latest。简单来说，earliest 就是从头开始补作业，把之前没看过的消息全都读一遍；而 latest 则是直接从最新的消息开始看，相当于跳过之前的存档，直接进入直播频道。 java Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("group.id", "test-group"); props.put("enable.auto.commit", "true"); props.put("auto.commit.interval.ms", "1000"); props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); KafkaConsumer consumer = new KafkaConsumer<>(props); consumer.subscribe(Arrays.asList("my-topic")); while (true) { ConsumerRecords records = consumer.poll(Duration.ofMillis(100)); for (ConsumerRecord record : records) { System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value()); } } 这段代码展示了如何订阅一个主题并持续拉取消息。注意这里启用了自动提交功能，这样就不需要手动管理偏移量了。 5. 总结与反思通过今天的讨论，我相信大家对Kafka的消息可靠性有了更深的理解。Kafka能从一堆消息队列系统里脱颖而出，靠的就是它在设计的时候就脑补了各种“灾难片”场景，比如数据爆炸、服务器宕机啥的，然后还给配齐了神器，专门对付这些麻烦事儿。然而，正如任何技术一样，Kafka也不是万能的。在实际应用中，我们还需要结合具体的业务需求来调整配置参数。比如说啊，在那种超级忙、好多请求同时涌过来的场景下，就得调整一下每次处理的任务量，别一下子搞太多，慢慢来可能更稳。但要是你干的事特别讲究速度，晚一秒钟都不行的那种，那就得想办法把发东西的时间间隔调短点，越快越好！总之，Kafka的强大之处在于它允许我们灵活地调整策略以适应不同的工作负载。希望这篇文章能帮助你在实践中更好地利用Kafka的优势！如果你有任何疑问或想法，欢迎随时交流哦~

2025-04-11 16:10:34

幽谷听泉

转载文章

[转载]运维监控之Nagios实战(三)Nagios配置文件

...联系我们，我们将第一时间进行核实并删除相应内容。 Nagios的灵魂与之精华. 全在配置文件,如果只是将服务搭建起来,那和不搭有什么区别呢. Nagios的配置文件非常多,只要其中一个配置文件出现错误，就会导致Nagios 无法正常工作。也很灵活,但只要掌握了其中的规律,就很简单了了解Nagios 的各个配置文件 1.主配置文件nagios.cfg nagios默认的配置文件比较少,并且将很主机,主机组,服务,服务组写在同一个文件中. 这样做的好处是配置文件管理比较方便,但是数据量大了之后,很难整理.所以建议将这些配置分开 cfg_file=/usr/local/nagios/etc/objects/commands.cfg cfg_file=/usr/local/nagios/etc/objects/contacts.cfg cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg cfg_file=/usr/local/nagios/etc/objects/templates.cfg cfg_file=/usr/local/nagios/etc/objects/contactgroups.cfg cfg_file=/usr/local/nagios/etc/objects/hosts.cfg cfg_file=/usr/local/nagios/etc/objects/hostgroups.cfg cfg_file=/usr/local/nagios/etc/objects/services.cfg cfg_file=/usr/local/nagios/etc/objects/servicegroups.cfg 改check_external_commands=0为check_external_commands=1.这行的作用是允许在web 界面下执行重启nagios、停止主机/服务检查等操作。把command_check_interval的值从默认的1 改成command_check_interval=15s（根据自己的情况定这个命令检查时间间隔，不要太长也不要太短）。 2.资源配置文件resource.cfg 资源文件可以保存用户自定义的宏.资源文件的一个主要用处是用于保存一些敏感的配置信息,如系统口令等不能让CGIs 程序模块获取到的东西 3.CGI配置文件cgi.cfg CGI 配置文件包含了一系列的设置,它们会影响CGIs程序模块.还有一些保存在主配置文件之中,因此CGI 程序会知道你是如何配置的Nagios并且在哪里保存了对象定义.最实际的例子就是,如果你想建立一个只有查看报警权限的用户,或者只有查看其中一些服务器或者服务状态的权限,通过修改cfi.cfg可以灵活的控制web访问端的权限. 4.主机定义文件定义你要监控的对象,这里定义的“host_name”被应用到其它的所有配置文件中，这个是我们配置Nagios 必须修改的配置文件. [root@test objects] vim hosts.cfg define host{ host_name Nagios-Server ; 设置主机的名字，该名字会出现在hostgroups.cfg 和services.cfg 中。注意，这个名字可以不是该服务器的主机名。 alias Nagios服务器 ; 别名 address 192.168.81.128 ; 主机的IP 地址 check_command check-host-alive ; 检查使用的命令，需要在命令定义文件定义，默认是定义好的。 check_interval 1 ; 检测的时间间隔 retry_interval 1 ; 检测失败后重试的时间间隔 max_check_attempts 3 ; 最大重试次数 check_period 24x7 ; 检测的时段 process_perf_data 0 retain_nonstatus_information 0 contact_groups sagroup ; 需要通知的联系组 notification_interval 30 ; 通知的时间间隔 notification_period 24x7 ; 通知的时间段 notification_options d,u,r ; 通知的选项 w—报警(warning)，u—未知(unkown) c—严重(critical)，r—从异常情况恢复正常 } define host{ host_name Nagios-Client alias Nagios客户端 address 192.168.81.129 check_command check-host-alive check_interval 1 retry_interval 1 max_check_attempts 3 check_period 24x7 process_perf_data 0 retain_nonstatus_information 0 contact_groups sagroup notification_interval 30 notification_period 24x7 notification_options d,u,r } 5.主机组定义文件主机组定义文件,可以方便的将相同功能或者在应用上相同的服务器添加到一个主机组里,在WEB 界面可以通过HOST Group 方便的查看该组主机的状态信息. 将刚才定义的两个主机加入到主机组中,针对生产环境就像把所有的MySQL 服务器加到一个MySQL主机组里,将Oracle 服务器加到一个Oracle 主机组里,方便管理和查看,可以配置多个组. [root@test objects] vim hostgroups.cfg define hostgroup { hostgroup_name Nagios-Example ; 主机组名字 alias Nagios 主机组 ; 主机组别名 members Nagios-Server,Nagios-Client ; 主机组成员，用逗号隔开 } 6.服务定义文件服务定义文件定义你需要监控的对象的服务,比如本例为检测主机是否存活,在后面会讲到如何监控其它服务,比如服务器负载、内存、磁盘等. [root@test objects] vim services.cfg define service { host_name Nagios-Server ; hosts.cfg 定义的主机名称 service_description check-host-alive ; 服务描述 check_period 24x7 ; 检测的时间段 max_check_attempts 3 ; 最大检测次数 normal_check_interval 3 retry_check_interval 2 contact_groups sagroup ; 发生故障通知的联系人组 notification_interval 10 notification_period 24x7 ; 通知的时间段 notification_options w,u,c,r check_command check-host-alive } define service { host_name Nagios-Client service_description check-host-alive check_period 24x7 max_check_attempts 3 normal_check_interval 3 retry_check_interval 2 contact_groups sagroup notification_interval 10 notification_period 24x7 notification_options w,u,c,r check_command check-host-alive } 7.服务组定义文件和主机组一样,我们可以按需将相同的服务放入一个服务组,这样有规律的分类,便于我们在WEB端查看. [root@test objects] vim servicegroups.cfg define servicegroup{ servicegroup_name Host-Alive ; 组名 alias Host Alive ; 别名设置 members Nagios-Server,check-host-alive,Nagios-Client,check-host-alive } 8.联系人定义文件定义发生故障时,需要通知的联系人信息.默认安装完成后，该配置文件已经存在,而且该文件不仅定义了联系人,也定义了联系人组,为了条理化的规划,我们把联系人定义放在contacts.cfg文件里,把联系人组放在contactgroups.cfg文件中. [root@test objects] mv contacts.cfg contacts.cfg.bak [root@test objects] vim contacts.cfg define contact{ contact_name maoxian ; 联系人的名字 alias maoxian ; 别名 service_notification_period 24x7 ; 服务报警的时间段 host_notification_period 24x7 ; 主机报警的时间段 service_notification_options w,u,c,r ; 就是在这四种情况下报警。 host_notification_options d,u,r ;同上。服务报警发消息的命令，在command.cfg 中定义。 service_notification_commands notify-service-by-email 服务报警发消息的命令，在command.cfg 中定义。 host_notification_commands notify-host-by-email email wangyx088@gmail.com ; 定义邮件地址，也就是接收报警邮件地址。 } 9.联系人组定义文件联系人组定义文件在实际应用中很有好处,我们可以把报警信息分级别,报联系人分级别存放在联系人组里面.例如：当发生一些警告信息的情况下,只发邮件给系统工程师联系人组即可,但是当发生重大问题,比如主机宕机了,可以发给领导联系人组. [root@test objects] vim contactgroups.cfg define contactgroup{ contactgroup_name sagroup ; 组名 alias Nagios Administrators ; 别名 members maoxian ; 联系人组成员 } 10.命令定义文件 commands.cfg 命令定义文件是Nagios中很重要的配置文件,所有在hosts.cfg还是services.cfg使用的命令都必须在命令定义文件中定义才能使用.默认情况下,范例配置文件已经配置好了日常需要使用的命令,所以一般不做修改. 11.时间段定义文件 timeperiods.cfg 我们在检测、通知、报警的时候都需要定义时间段,默认都是使用7x24,这也是默认配置文件里配置好的,如果你需要周六日不做检测,或者在制定的维护时间不做检测,都可以在该时间段定义文件定义好,这样固定维护的时候,就不会为大量的报警邮件或者短信烦恼 [root@test objects] cat timeperiods.cfg |grep -v "^" |grep -v "^$" 可以根据业务需求来更改 12.启动Nagios 1> 修改配置文件所有者 [root@test objects] chown -R nagios:nagios /usr/local/nagios/etc/objects/ 2> 检测配置是否正确 [root@test objects] /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg 如果配置错误,会给出相应的报错信息,可以根据信息查找,注意,如果配置文件中有不可见字符也可以导致配置错误 3> 重载Nagios [root@test objects] service nagios restart 本文出自 “毛线的linux之路” 博客，请务必保留此出处http://maoxian.blog.51cto.com/4227070/756516 本篇文章为转载内容。原文链接：https://blog.csdn.net/gzh0222/article/details/8549202。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-16 20:48:42

483

转载

转载文章

[转载]浅谈Linux内核RCU机制原理

...联系我们，我们将第一时间进行核实并删除相应内容。 RCU（Read-Copy Update）是数据同步的一种方式，在当前的Linux内核中发挥着重要的作用。RCU主要针对的数据对象是链表，目的是提高遍历读取数据的效率，为了达到目的使用RCU机制读取数据的时候不对链表进行耗时的加锁操作。这样在同一时间可以有多个线程同时读取该链表，并且允许一个线程对链表进行修改（修改的时候，需要加锁）。RCU适用于需要频繁的读取数据，而相应修改数据并不多的情景，例如在文件系统中，经常需要查找定位目录，而对目录的修改相对来说并不多，这就是RCU发挥作用的最佳场景。 Linux内核源码当中，关于RCU的文档比较齐全，你可以在 /DocumentaTIon/RCU/ 目录下找到这些文件。Paul E. McKenney 是内核中RCU源码的主要实现者，他也写了很多RCU方面的文章。今天我们就主要来说说linux内核rcu的机制详解。在RCU的实现过程中，我们主要解决以下问题：在读取过程中，另外一个线程删除了一个节点。删除线程可以把这个节点从链表中移除，但它不能直接销毁这个节点，必须等到所有的线程读取完成以后，才进行销毁操作。RCU中把这个过程称为宽限期（Grace period）。在读取过程中，另外一个线程插入了一个新节点，而读线程读到了这个节点，那么需要保证读到的这个节点是完整的。这里涉及到了发布-订阅机制（Publish-Subscribe Mechanism）。保证读取链表的完整性。新增或者删除一个节点，不至于导致遍历一个链表从中间断开。但是RCU并不保证一定能读到新增的节点或者不读到要被删除的节点。宽限期通过这个例子，方便理解这个内容。以下例子修改于Paul的文章。 struct foo {int a;char b;long c;};DEFINE_SPINLOCK（foo_mutex）;struct foo gbl_foo;void foo_read （void）{foo fp = gbl_foo;if （ fp ！= NULL ）dosomething（fp-》a， fp-》b ， fp-》c ）;}void foo_update（ foo new_fp ）{spin_lock（&foo_mutex）;foo old_fp = gbl_foo;gbl_foo = new_fp;spin_unlock（&foo_mutex）;kfee（old_fp）;} 如上的程序，是针对于全局变量gbl_foo的操作。假设以下场景。有两个线程同时运行 foo_ read和foo_update的时候，当foo_ read执行完赋值操作后，线程发生切换；此时另一个线程开始执行foo_update并执行完成。当foo_ read运行的进程切换回来后，运行dosomething 的时候，fp已经被删除，这将对系统造成危害。为了防止此类事件的发生，RCU里增加了一个新的概念叫宽限期（Grace period）。如下图所示：图中每行代表一个线程，最下面的一行是删除线程，当它执行完删除操作后，线程进入了宽限期。宽限期的意义是，在一个删除动作发生后，它必须等待所有在宽限期开始前已经开始的读线程结束，才可以进行销毁操作。这样做的原因是这些线程有可能读到了要删除的元素。图中的宽限期必须等待1和2结束；而读线程5在宽限期开始前已经结束，不需要考虑；而3，4，6也不需要考虑，因为在宽限期结束后开始后的线程不可能读到已删除的元素。为此RCU机制提供了相应的API来实现这个功能。 void foo_read（void）{rcu_read_lock（）;foo fp = gbl_foo;if （ fp ！= NULL ）dosomething（fp-》a，fp-》b，fp-》c）;rcu_read_unlock（）;}void foo_update（ foo new_fp ）{spin_lock（&foo_mutex）;foo old_fp = gbl_foo;gbl_foo = new_fp;spin_unlock（&foo_mutex）;synchronize_rcu（）;kfee（old_fp）;} 其中foo_read中增加了rcu_read_lock和rcu_read_unlock，这两个函数用来标记一个RCU读过程的开始和结束。其实作用就是帮助检测宽限期是否结束。 foo_update增加了一个函数synchronize_rcu（），调用该函数意味着一个宽限期的开始，而直到宽限期结束，该函数才会返回。我们再对比着图看一看，线程1和2，在synchronize_rcu之前可能得到了旧的gbl_foo，也就是foo_update中的old_fp，如果不等它们运行结束，就调用kfee（old_fp），极有可能造成系统崩溃。而3，4，6在synchronize_rcu之后运行，此时它们已经不可能得到old_fp，此次的kfee将不对它们产生影响。宽限期是RCU实现中最复杂的部分，原因是在提高读数据性能的同时，删除数据的性能也不能太差。订阅——发布机制当前使用的编译器大多会对代码做一定程度的优化，CPU也会对执行指令做一些优化调整，目的是提高代码的执行效率，但这样的优化，有时候会带来不期望的结果。如例： void foo_update（ foo new_fp ）{spin_lock（&foo_mutex）;foo old_fp = gbl_foo;new_fp-》a = 1;new_fp-》b = ‘b’;new_fp-》c = 100;gbl_foo = new_fp;spin_unlock（&foo_mutex）;synchronize_rcu（）;kfee（old_fp）;} 这段代码中，我们期望的是6，7，8行的代码在第10行代码之前执行。但优化后的代码并不会对执行顺序做出保证。在这种情形下，一个读线程很可能读到 new_fp，但new_fp的成员赋值还没执行完成。单独线程执行dosomething（fp-》a， fp-》b ， fp-》c ）的这个时候，就有不确定的参数传入到dosomething，极有可能造成不期望的结果，甚至程序崩溃。可以通过优化屏障来解决该问题，RCU机制对优化屏障做了包装，提供了专用的API来解决该问题。这时候，第十行不再是直接的指针赋值，而应该改为： rcu_assign_pointer（gbl_foo，new_fp）;rcu_assign_pointer的实现比较简单，如下：define rcu_assign_pointer（p， v） \__rcu_assign_pointer（（p），（v）， __rcu）define __rcu_assign_pointer（p， v， space） \do { \smp_wmb（）; \（p） = （typeof（v） __force space ）（v）; \} while （0）我们可以看到它的实现只是在赋值之前加了优化屏障 smp_wmb来确保代码的执行顺序。另外就是宏中用到的__rcu，只是作为编译过程的检测条件来使用的。在DEC Alpha CPU机器上还有一种更强悍的优化，如下所示： void foo_read（void）{rcu_read_lock（）;foo fp = gbl_foo;if （ fp ！= NULL ）dosomething（fp-》a， fp-》b ，fp-》c）;rcu_read_unlock（）;} 第六行的 fp-》a，fp-》b，fp-》c会在第3行还没执行的时候就预先判断运行，当他和foo_update同时运行的时候，可能导致传入dosomething的一部分属于旧的gbl_foo，而另外的属于新的。这样会导致运行结果的错误。为了避免该类问题，RCU还是提供了宏来解决该问题： define rcu_dereference（p） rcu_dereference_check（p， 0）define rcu_dereference_check（p， c） \__rcu_dereference_check（（p）， rcu_read_lock_held（） || （c）， __rcu）define __rcu_dereference_check（p， c， space） \（{ \typeof（p） _________p1 = （typeof（p）__force ）ACCESS_ONCE（p）; \rcu_lockdep_assert（c， “suspicious rcu_dereference_check（）” \usage”）; \rcu_dereference_sparse（p， space）; \smp_read_barrier_depends（）; \（typeof（p） __force __kernel ）（_________p1））; \}）staTIc inline int rcu_read_lock_held（void）{if （！debug_lockdep_rcu_enabled（））return 1;if （rcu_is_cpu_idle（））return 0;if （！rcu_lockdep_current_cpu_online（））return 0;return lock_is_held（&rcu_lock_map）;} 这段代码中加入了调试信息，去除调试信息，可以是以下的形式（其实这也是旧版本中的代码）： define rcu_dereference（p）（{ \typeof（p） _________p1 = p; \smp_read_barrier_depends（）; \（_________p1）; \}）在赋值后加入优化屏障smp_read_barrier_depends（）。我们之前的第四行代码改为 foo fp = rcu_dereference（gbl_foo）;，就可以防止上述问题。数据读取的完整性还是通过例子来说明这个问题：如图我们在原list中加入一个节点new到A之前，所要做的第一步是将new的指针指向A节点，第二步才是将Head的指针指向new。这样做的目的是当插入操作完成第一步的时候，对于链表的读取并不产生影响，而执行完第二步的时候，读线程如果读到new节点，也可以继续遍历链表。如果把这个过程反过来，第一步head指向new，而这时一个线程读到new，由于new的指针指向的是Null，这样将导致读线程无法读取到A，B等后续节点。从以上过程中，可以看出RCU并不保证读线程读取到new节点。如果该节点对程序产生影响，那么就需要外部调用来做相应的调整。如在文件系统中，通过RCU定位后，如果查找不到相应节点，就会进行其它形式的查找，相关内容等分析到文件系统的时候再进行叙述。我们再看一下删除一个节点的例子：如图我们希望删除B，这时候要做的就是将A的指针指向C，保持B的指针，然后删除程序将进入宽限期检测。由于B的内容并没有变更，读到B的线程仍然可以继续读取B的后续节点。B不能立即销毁，它必须等待宽限期结束后，才能进行相应销毁操作。由于A的节点已经指向了C，当宽限期开始之后所有的后续读操作通过A找到的是C，而B已经隐藏了，后续的读线程都不会读到它。这样就确保宽限期过后，删除B并不对系统造成影响。小结 RCU的原理并不复杂，应用也很简单。但代码的实现确并不是那么容易，难点都集中在了宽限期的检测上，后续分析源代码的时候，我们可以看到一些极富技巧的实现方式。本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_50662680/article/details/128449401。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-25 09:31:10

105

转载

转载文章

[转载]关于SysinternalsSuite全部工具详解

...联系我们，我们将第一时间进行核实并删除相应内容。 sysinternals的网站创立于1996年由Mark russinovich和布赖科格斯韦尔主办其先进的系统工具和技术资料.微软于 2006年7月收购sysinternals公司 . 不管你是一个IT高级工作者还是一个开发者,你都会发现sysinternals工具可以帮助您管理、故障分析和诊断你的Windows系统和应用程序. 如果您有关于如何使用这些工具的问题,请访问sysinternals论坛从其他用户和我们的团队获取解答和帮助. 该工具包括： AccessChk 　　这个工具为您显示指定至档案、登录机码或 Windows 服务的使用者或群组之存取。　　AccessEnum 　　这个简单又具有超高安全性的工具，会让您知道拥有对您系统目录、档案及登录机码的存取之对象和方式。用它来寻找您权限下的安全性漏洞。　　AdRestore 　　取消删除 Server 2003 Active Directory 物件。　　BgInfo 　　这个可完全设定的程式，会自动产生包括含有 IP 位址、电脑名称，和网路介面卡等等重要资讯的桌面背景。　　BlueScreen 　　这个萤幕保护程式不只将「蓝色萤幕」(Blue Screens) 模仿得维妙维肖，也能模仿重新开机 (需使用 CHKDSK 完成)，而且在 Windows NT 4、Windows 2000、Windows XP、Server 2003 和 Windows 9x 中皆能执行。　　CacheSet 　　CacheSet 是一种能让您使用 NT 提供的功能来控制 Cache Manager 的工作组大小。除了和 NT 所有版本相容之外，还提供原始程式码。　　检视系统时钟的解析度，同时也是计时器解析度的最大值。　　Contig 　　希望能够快速地将常用的档案进行磁碟重组吗？使用 Contig 最佳化个别档案，或是建立新的连续档案。　　Ctrl2cap 　　这是一种核心模式驱动程式，展示键盘输入筛选只在键盘类别驱动程式之上，目的是为了将大写锁定按键转换至控制按键。这个层级的筛选允许在 NT 「发现」按键之前，先进行转换和隐藏按键。包括完整的来源。此外，Ctrl2cap 还会显示如何使用 NtDisplayString() 将讯息列印至初始化的蓝色萤幕。　　DebugView 　　Sysinternals 的另一个首开先例：这个程式会拦截分别由 DbgPrint 利用装置驱动程式，和 OutputDebugString 利用 Win32 程式所做的呼叫。它能够在您的本机上或跨往际往路，在不需要作用中的侦错工具情况下，检视和录制侦错工作阶段输出。　　DiskExt 　　显示磁碟区磁碟对应。　　Diskmon 　　这个公用程式会撷取全部的硬碟活动，或是提供系统匣中的软体磁碟活动指示器的功能。　　DiskView 　　图形化磁区公用程式。　　Du 　　依目录检视磁碟使用状况。　　EFSDump 　　检视加密档案的资讯。　　Filemon 　　这个监控工具让您即时检视所有档案系统的活动。　　Handle 　　这个易於操纵的命令列公用程式能够显示档案开启的种类和使用的处理程序等更多资讯。　　Hex2dec 　　十六进位数字和十进位数字相互转换。　　Junction 　　建立 Win2K NTFS 符号连结。　　LDMDump 　　倾印逻辑磁碟管理员的磁碟上之资料库内容，其中描述 Windows 2000 动态磁碟分割。　　ListDLLs 　　列出所有目前载入的 DLL，包括载入位置和他们的版本编号。2.0 版列印载入模组的完整路径名称。　　LiveKd 　　使用 Microsoft 核心侦错工具检视即时系统。　　LoadOrder 　　检视在您 WinNT/2K 系统上载入装置的顺序。　　LogonSessions 　　列出系统上的作用中登入工作阶段。　　MoveFile 　　允许您对下一次开机进行移动和删除命令的排程。　　NTFSInfo 　　使用 NTFSInfo 检视详细的 NTFS 磁碟区资讯，包括主档案表格 (MFT) 和 MFT 区的大小和位置，还有 NTFS 中继资料档案的大小。　　PageDefrag 　　将您的分页档和登录 Hive 进行磁碟重组。　　PendMoves 　　列举档案重新命名的清单，删除下次开机将会执行的命令。　　Portmon 　　使用这个进阶的监视工具进行监视序列和平行连接埠活动。它不仅掌握所有标准的序列和平行 IOCTL，甚至会显示传送和接收的资料部份。Version 3.x 具有强大的新 UI 增强功能和进阶的筛选功能。　　Process Monitor 　　即时监控档案系统、登录、程序、执行绪和 DLL 活动。 procexp 任务管理器，这个管理器比windows自带的管理器要强大方便的很多，建议替换自带的任务管理器（本人一直用这个管理器，很不错）。此工具也有汉化版，fans可以自己搜索下载　　ProcFeatures 　　这个小应用程式会描述「实体位址扩充」的处理器和 Windows 支援，而没「没有执行」缓冲区溢位保护。　　PsExec 　　以有限的使用者权限执行处理程序。　　PsFile 　　检视远端开启档案有哪些。　　PsGetSid 　　显示电脑或使用者的 SID。　　PsInfo 　　取得有关系统的资讯。　　PsKill 　　终止本机或远端处理程序。　　PsList 　　显示处理程序和执行绪的相关资讯。　　PsLoggedOn 　　显示使用者登录至一个系统。　　PsLogList 　　倾印事件记录档的记录。　　PsPasswd 　　变更帐户密码。　　PsService 　　检视及控制服务。　　PsShutdown 　　关机及选择重新启动电脑。　　PsSuspend 　　暂停及继续处理程序。　　PsTools 　　PsTools 产品系列包括命令列公用程式，其功能有列出在本机或远端电脑上执行的处理程序、远端执行的处理程序、重新开机的电脑和倾印事件记录等等。　　RegDelNull 　　扫描并删除登录机码，这些登录机码包括了标准登录编辑工具无法删除的内嵌式 Null 字元。　　RegHide 　　建立名为 "HKEY_LOCAL_MACHINE\Software\Sysinternals\Can't touch me!\0" 并使用原生 API 的金钥，而且会在此金钥内建立一个值。　　Regjump 　　跳至您在 Regedit 中指定的登录路径。　　Regmon 　　这个监视工具让您即时看到全部的登录活动。　　RootkitRevealer 　　扫描您系统上 Rootkit 为基础的恶意程式码。　　SDelete 　　以安全的方法覆写您的机密档案，并且清除因先前使用这个 DoD 相容安全删除程式所删除档案後而释放的可用空间。包括完整的原始程式码。　　ShareEnum 　　扫描网路上档案共用并检视其安全性设定，来关闭安全性漏洞。　　Sigcheck 　　倾印档案版本资讯和验证系统上的影像皆已完成数位签章。　　Strings 　　搜寻 binaryimages 中的 ANSI 和 UNICODE 字串。　　Sync 　　将快取的资料清除至磁碟。　　 TCPView 　　作用中的通讯端命令列检视器。　　VolumeId 　　设定 FAT 或 NTFS 磁碟区 ID。　　Whois 　　看看谁拥有一个网际网路位址。　　Winobj 　　最完整的物件管理员命名空间检视器在此。　　ZoomIt 　　供萤幕上缩放和绘图的简报公用程式。转自：http://www.360doc.com/content/15/0323/06/20545288_457293504.shtml 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_33515088/article/details/80721846。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-22 15:44:41

102

转载

ElasticSearch

Elasticsearch安全性提升：SSL/TLS加密通信+用户认证+授权+日志审计

...控制而遭到公开访问，导致数百万条敏感数据被泄露。这一事件不仅引发了行业内的广泛讨论，也提醒我们，即使是最先进的技术工具，如果缺乏妥善的安全管理，仍然可能带来严重的后果。从技术层面来看，此次事件暴露出的问题主要集中在两个方面：一是缺乏有效的身份验证机制，使得任何拥有网络连接的人都可以自由访问该Elasticsearch实例；二是日志审计不足，未能及时发现异常活动。尽管这些问题看似基础，但在实际操作中却常常被忽略。特别是对于中小企业而言，在资源有限的情况下，往往优先考虑功能实现而非安全性，这种短视行为无疑增加了系统的脆弱性。为了应对类似情况的发生，专家建议企业应采取更加主动的安全策略。首先，强制实施严格的用户认证流程，例如启用双因素认证（2FA），以确保只有经过授权的人员才能访问系统。其次，定期审查和更新权限设置，避免授予不必要的访问权限。此外，加强日志监控能力同样至关重要，可以通过集成第三方SIEM（安全信息与事件管理）平台来实现对异常行为的实时预警。值得注意的是，除了技术层面的努力之外，组织文化也是不可忽视的一环。管理层需要认识到安全不仅仅是IT部门的责任，而是整个公司的共同使命。通过开展定期培训和模拟演练，增强员工的安全意识，从而构建起一道坚固的心理防线。最后，参考国际标准如ISO/IEC 27001信息安全管理体系，可以帮助企业在设计和实施安全措施时遵循统一规范。通过不断学习最新的安全趋势和技术动态，企业能够更好地保护自己的资产免受威胁。总之，面对日益复杂的网络环境，唯有保持警惕并积极行动，才能真正实现Elasticsearch乃至整个IT基础设施的安全稳定运行。

2025-05-12 15:42:52

星辰大海

转载文章

[转载]容器编排技术 -- Kubernetes 给容器和Pod分配内存资源

...联系我们，我们将第一时间进行核实并删除相应内容。容器编排技术 -- Kubernetes 给容器和Pod分配内存资源 1 Before you begin 2 创建一个命名空间 3 配置内存申请和限制 4 超出容器的内存限制 5 配置超出节点能力范围的内存申请 6 内存单位 7 如果不配置内存限制 8 内存申请和限制的原因 9 清理这篇教程指导如何给容器分配申请的内存和内存限制。我们保证让容器获得足够的内存资源，但是不允许它使用超过限制的资源。 Before you begin You need to have a Kubernetes cluster, and the kubectl command-line tool must be configured to communicate with your cluster. If you do not already have a cluster, you can create one by using Minikube. 你的集群里每个节点至少必须拥有300M的内存。这个教程里有几个步骤要求Heapster ，但是如果你没有Heapster的话，也可以完成大部分的实验，就算跳过这些Heapster 步骤，也不会有什么问题。检查看Heapster服务是否运行，执行命令： kubectl get services --namespace=kube-system 如果Heapster服务正在运行，会有如下输出： NAMESPACE NAME CLUSTER-IP EXTERNAL-IP PORT(S) AGEkube-system heapster 10.11.240.9 <none> 80/TCP 6d 创建一个命名空间创建命名空间，以便你在实验中创建的资源可以从集群的资源中隔离出来。 kubectl create namespace mem-example 配置内存申请和限制给容器配置内存申请，只要在容器的配置文件里添加resources:requests就可以了。配置限制的话，则是添加resources:limits。本实验，我们创建包含一个容器的Pod，这个容器申请100M的内存，并且内存限制设置为200M，下面是配置文件： memory-request-limit.yaml apiVersion: v1kind: Podmetadata:name: memory-demospec:containers:- name: memory-demo-ctrimage: vish/stressresources:limits:memory: "200Mi"requests:memory: "100Mi"args:- -mem-total- 150Mi- -mem-alloc-size- 10Mi- -mem-alloc-sleep- 1s 在这个配置文件里，args代码段提供了容器所需的参数。-mem-total 150Mi告诉容器尝试申请150M 的内存。创建Pod: kubectl create -f https://k8s.io/docs/tasks/configure-pod-container/memory-request-limit.yaml --namespace=mem-example 验证Pod的容器是否正常运行: kubectl get pod memory-demo --namespace=mem-example 查看Pod的详细信息: kubectl get pod memory-demo --output=yaml --namespace=mem-example 这个输出显示了Pod里的容器申请了100M的内存和200M的内存限制。 ...resources:limits:memory: 200Mirequests:memory: 100Mi... 启动proxy以便我们可以访问Heapster服务： kubectl proxy 在另外一个命令行窗口，从Heapster服务获取内存使用情况： curl http://localhost:8001/api/v1/proxy/namespaces/kube-system/services/heapster/api/v1/model/namespaces/mem-example/pods/memory-demo/metrics/memory/usage 这个输出显示了Pod正在使用162,900,000字节的内存，大概就是150M。这很明显超过了申请的100M,但是还没达到200M的限制。 {"timestamp": "2017-06-20T18:54:00Z","value": 162856960} 删除Pod: kubectl delete pod memory-demo --namespace=mem-example 超出容器的内存限制只要节点有足够的内存资源，那容器就可以使用超过其申请的内存，但是不允许容器使用超过其限制的资源。如果容器分配了超过限制的内存，这个容器将会被优先结束。如果容器持续使用超过限制的内存，这个容器就会被终结。如果一个结束的容器允许重启，kubelet就会重启他，但是会出现其他类型的运行错误。本实验，我们创建一个Pod尝试分配超过其限制的内存，下面的这个Pod的配置文档，它申请50M的内存，内存限制设置为100M。 memory-request-limit-2.yaml apiVersion: v1kind: Podmetadata:name: memory-demo-2spec:containers:- name: memory-demo-2-ctrimage: vish/stressresources:requests:memory: 50Milimits:memory: "100Mi"args:- -mem-total- 250Mi- -mem-alloc-size- 10Mi- -mem-alloc-sleep- 1s 在配置文件里的args段里，可以看到容器尝试分配250M的内存，超过了限制的100M。创建Pod: kubectl create -f https://k8s.io/docs/tasks/configure-pod-container/memory-request-limit-2.yaml --namespace=mem-example 查看Pod的详细信息: kubectl get pod memory-demo-2 --namespace=mem-example 这时候，容器可能会运行，也可能会被杀掉。如果容器还没被杀掉，重复之前的命令直至你看到这个容器被杀掉： NAME READY STATUS RESTARTS AGEmemory-demo-2 0/1 OOMKilled 1 24s 查看容器更详细的信息: kubectl get pod memory-demo-2 --output=yaml --namespace=mem-example 这个输出显示了容器被杀掉因为超出了内存限制。 lastState:terminated:containerID: docker://65183c1877aaec2e8427bc95609cc52677a454b56fcb24340dbd22917c23b10fexitCode: 137finishedAt: 2017-06-20T20:52:19Zreason: OOMKilledstartedAt: null 本实验里的容器可以自动重启，因此kubelet会再去启动它。输入多几次这个命令看看它是怎么被杀掉又被启动的： kubectl get pod memory-demo-2 --namespace=mem-example 这个输出显示了容器被杀掉，被启动，又被杀掉，又被启动的过程： stevepe@sperry-1:~/steveperry-53.github.io$ kubectl get pod memory-demo-2 --namespace=mem-exampleNAME READY STATUS RESTARTS AGEmemory-demo-2 0/1 OOMKilled 1 37sstevepe@sperry-1:~/steveperry-53.github.io$ kubectl get pod memory-demo-2 --namespace=mem-exampleNAME READY STATUS RESTARTS AGEmemory-demo-2 1/1 Running 2 40s 查看Pod的历史详细信息: kubectl describe pod memory-demo-2 --namespace=mem-example 这个输出显示了Pod一直重复着被杀掉又被启动的过程: ... Normal Created Created container with id 66a3a20aa7980e61be4922780bf9d24d1a1d8b7395c09861225b0eba1b1f8511... Warning BackOff Back-off restarting failed container 查看集群里节点的详细信息： kubectl describe nodes 输出里面记录了容器被杀掉是因为一个超出内存的状况出现： Warning OOMKilling Memory cgroup out of memory: Kill process 4481 (stress) score 1994 or sacrifice child 删除Pod: kubectl delete pod memory-demo-2 --namespace=mem-example 配置超出节点能力范围的内存申请内存的申请和限制是针对容器本身的，但是认为Pod也有容器的申请和限制是一个很有帮助的想法。 Pod申请的内存就是Pod里容器申请的内存总和，类似的，Pod的内存限制就是Pod里所有容器的内存限制的总和。 Pod的调度策略是基于请求的，只有当节点满足Pod的内存申请时，才会将Pod调度到合适的节点上。在这个实验里，我们创建一个申请超大内存的Pod，超过了集群里任何一个节点的可用内存资源。这个容器申请了1000G的内存，这个应该会超过你集群里能提供的数量。 memory-request-limit-3.yaml apiVersion: v1kind: Podmetadata:name: memory-demo-3spec:containers:- name: memory-demo-3-ctrimage: vish/stressresources:limits:memory: "1000Gi"requests:memory: "1000Gi"args:- -mem-total- 150Mi- -mem-alloc-size- 10Mi- -mem-alloc-sleep- 1s 创建Pod: kubectl create -f https://k8s.io/docs/tasks/configure-pod-container/memory-request-limit-3.yaml --namespace=mem-example 查看Pod的状态: kubectl get pod memory-demo-3 --namespace=mem-example 输出显示Pod的状态是Pending，因为Pod不会被调度到任何节点，所有它会一直保持在Pending状态下。 kubectl get pod memory-demo-3 --namespace=mem-exampleNAME READY STATUS RESTARTS AGEmemory-demo-3 0/1 Pending 0 25s 查看Pod的详细信息包括事件记录 kubectl describe pod memory-demo-3 --namespace=mem-example 这个输出显示容器不会被调度因为节点上没有足够的内存： Events:... Reason Message------ -------... FailedScheduling No nodes are available that match all of the following predicates:: Insufficient memory (3). 内存单位内存资源是以字节为单位的，可以表示为纯整数或者固定的十进制数字，后缀可以是E, P, T, G, M, K, Ei, Pi, Ti, Gi, Mi, Ki.比如，下面几种写法表示相同的数值：alue: 128974848, 129e6, 129M , 123Mi 删除Pod: kubectl delete pod memory-demo-3 --namespace=mem-example 如果不配置内存限制如果不给容器配置内存限制，那下面的任意一种情况可能会出现：容器使用内存资源没有上限，容器可以使用当前节点上所有可用的内存资源。容器所运行的命名空间有默认内存限制，容器会自动继承默认的限制。集群管理员可以使用这个文档 LimitRange来配置默认的内存限制。内存申请和限制的原因通过配置容器的内存申请和限制，你可以更加有效充分的使用集群里内存资源。配置较少的内存申请，可以让Pod跟任意被调度。设置超过内存申请的限制，可以达到以下效果： Pod可以在负载高峰时更加充分利用内存。可以将Pod的内存使用限制在比较合理的范围。清理删除命名空间，这会顺便删除命名空间里的Pod。 kubectl delete namespace mem-example 译者：NickSu86 原文链接本篇文章为转载内容。原文链接：https://blog.csdn.net/Aria_Miazzy/article/details/99694937。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-23 12:14:07

495

转载

Beego

Beego配置文件格式文本检查日志记录耐心与细心错误排查全解析

...文件格式不正确时，会导致程序无法正常启动。Beego 提供了 LoadAppConfig 和 AppConfig 等工具，方便开发者管理和操作配置文件。配置文件 , 配置文件是一种存储应用程序运行所需参数的文件，通常采用特定的格式（如 ini、json 或 yaml）。文中提到的配置文件是 Beego 框架使用的 ini 格式，包含键值对的形式定义各种配置项。例如，appname 和 port 分别定义了应用名称和监听端口号。配置文件的正确性和完整性直接影响程序的运行状态，因此需要严格检查其格式和内容。Beego 提供了专门的方法来加载和解析配置文件，确保程序能够顺利读取必要的参数。日志记录 , 日志记录是指将程序运行过程中的重要信息（如错误、警告或调试信息）保存到文件或输出到控制台的过程。文中提到的日志记录主要用于监控配置文件加载是否成功。通过使用 Beego 提供的日志模块，开发者可以设置日志的格式和级别，例如记录日期、时间和错误发生的具体位置。当配置文件加载失败时，日志会输出详细的错误信息，帮助开发者快速定位问题。这种机制对于复杂系统的维护和故障排查至关重要，能够显著提高开发效率。

2025-04-13 15:33:12

桃李春风一杯酒

转载文章

[转载]详解Class类文件的结构（上）

...联系我们，我们将第一时间进行核实并删除相应内容。前言相信搞Java开发的同学都经常会接触到Class类文件，了解了JVM虚拟机之后也会大量接触到class字节码，那么它到底是什么样的文件？内部由什么构成？虚拟机又是如何去识别它的？这篇文章就来学习一下Class类文件的结构。 ps：我在面试蚂蚁的时候被问到过这个问题！你没看错，面试也有可能会问。一、什么是Class文件 Class文件又称字节码文件，一种二进制文件，它是由某种语言经过编译而来，注意这里并不一定是Java语言，还有可能是Clojure、Groovy、JRuby、Jython、Scala等，Class文件运行在Java虚拟机上。Java虚拟机不与任何一种语言绑定，它只与Class文件这种特定的二进制文件格式所关联。虚拟机具有语言无关性，它不关心Class文件的来源是何种语言，它只关心Class文件中的内容。Java语言中的各种变量、关键字和运算符号的语义最终都是由多条字节码命名组合而成的，因此字节码命令所能提供的语义描述能力比Java语言本身更加强大。二、Class文件的结构虚拟机可以接受任何语言编译而成的Class文件，因此也给虚拟机带来了安全隐患，为了提供语言无关性的功能就必须做好安全防备措施，避免危险有害的类文件载入到虚拟机中，对虚拟机造成损害。所以在类加载的第二大阶段就是验证，这一步工作是虚拟机安全防护的关键所在，其中检查的步骤就是对class文件按照《Java虚拟机规范》规定的内容来对其进行验证。 1.总体结构 Class文件是一组以8位字节为基础单位的二进制流，各个数据项目严格按照顺序紧凑地排列在Class文件之中，中间没有添加任何分隔符，Class文件中存储的内容几乎全部是程序运行的必要数据，没有空隙存在。当遇到需要占用8位字节以上空间的数据项时，就按照高位在前的方式分割成若干个8位字节进行存储。 Class文件格式采用类似于C语言结构体的伪结构来存储数据，这种伪结构只有两种数据类型：无符号数和表。无符号数属于基本的数据类型，以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节、8个字节的无符号数，无符号数可以来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。表是由多个无符号数或者其他表作为数据项构成的复合数据类型，所有表都习惯性的以“_info”结尾。表用于描述有层次关系的复合结构的数据，整个Class文件本质上就是一张表，它的数据项构成如下图。 2.魔数（Magic Number）每一个Class文件的头4个字节成为魔数（Magic Number），它的唯一作用是确定这个文件是否是一个能被虚拟机接收的Class文件。很多文件存储标准中都是用魔数来进行身份识别，比如gif、png、jpeg等都有魔数。使用魔数主要是来识别文件的格式，相比于通过文件后缀名识别，这种方式准确性更高，因为文件后缀名可以随便更改，但更改二进制文件内容的却很少。Class类文件的魔数是Oxcafebabe，cafe babe？咖啡宝贝？至于为什么是这个，这个名字在java语言诞生之初就已经确定了，它象征着著名咖啡品牌Peet's Coffee中深受欢迎的Baristas咖啡，Java的商标logo也源于此。 3.文件版本（Version）在魔数后面的4个字节就是Class文件的版本号，第5和第6个字节是次版本号（Minor Version），第7和第8个字节是主版本号（Major Version）。Java的版本号是从45开始的，JDK1.1之后的每个JDK大版本发布主版本号向上加1（JDK1.0~1.1使用的版本号是45.0~45.3），比如我这里是十六进制的Ox0034，也就是十进制的52，所以说明该class文件可以被JDK1.8及以上的虚拟机执行，否则低版本虚拟机执行会报java.lang.UnsupportedClassVersionError错误。 4.常量池（Constant Pool）在主版本号紧接着的就是常量池的入口，它是Class文件结构中与其他项目关联最多的数据类型，也是占用空间最大的数据之一。常量池的容量由后2个字节指定，比如这里我的是Ox001d，即十进制的29，这就表示常量池中有29项常量，而常量池的索引是从1开始的，这一点需要特殊记忆，因为程序员习惯性的计数法是从0开始的，而这里不一样，所以我这里常量池的索引范围是1~29。设计者将第0项常量空出来是有目的的，这样可以满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义。通过javap -v命令反编译出class文件之后，我们可以看到常量池的内容常量池中主要存放两大类常量：字面量和符号引用。比如文本字符、声明为final的常量值就属于字面量，而符号引用则包含下面三类常量：类和接口的全限名字段的名称和描述符方法的名称和描述符在之前的文章（详谈类加载的全过程）中有详细讲到，在加载类过程的第二大阶段连接的第三个阶段解析的时候，会将常量池中的符号引用替换为直接引用。相信很多人在开始了解那里的时候也是一头雾水，作者我也是，当我了解到常量池的构成的时候才明白真正意思。Java代码在编译的时候，是在虚拟机加载Class文件的时候才会动态链接，也就是说Class文件中不会保存各个方法、字段的最终内存布局信息，因此这些字段、方法的符号引用不经过运行期转换的话无法获得真正的内存入口地址，也就无法直接被虚拟机使用。当虚拟机运行时，需要从常量池获得对应的符号引用，再在类创建时或运行时解析、翻译到具体的内存地址之中。常量池中每一项常量都是一张表，这里我只找到了JDK1.7之前的常量池项目类型表，见下图。常量池项目类型表：常量池常量项的结构总表：比如我这里测试的class文件第一项常量，它的标志位是Ox0a，即十进制10，即表示tag为10的常量项，查表发现是CONSTANT_Methodref_info类型，和上面反编译之后的到的第一个常量是一致的，Methodref表示类中方法的符号引用。查上面《常量池常量项的结构总表》可以看到Methodref中含有3个项目，第一个tag就是上述的Ox0a，那么第二个项目就是Ox0006，第三个项目就是Ox000f，分别指向的CONSTANT_Class_info索引项和CONSTANT_NameAndType_info索引项为6和15，那么反编译的结果该项常量指向的应该是6和15，查看上面反编译的图应证我们的推测是对的。后面的常量项就以此类推。这里需要特殊说明一下utf8常量项的内容，这里我以第29项常量项解释，也就是最后一项常量项。查《常量池常量项的结构总表》可以看到utf8项有三个内容：tag、length、bytes。tag表示常量项类型，这里是Ox01，表示是CONSTANT_Utf8_info类型，紧接着的是长度length，这里是Ox0015，即十进制21，那么再紧接着的21个字节都表示该项常量项的具体内容。特别注意length表示的最大值是65535，所以Java程序中仅能接收小于等于64KB英文字符的变量和变量名，否则将无法编译。 5.访问标志（Access Flags）在常量池结束后，紧接着的两个字节代表访问标志（Access Flags），该标志用于识别一些类或者接口层次的访问信息，其中包括：Class是类还是接口、是否定义为public、是否定义为abstract类型、类是否被声明为final等。访问标志表标志位一共有16个，但是并不是所有的都用到，上表只列举了其中8个，没有使用的标志位统统置为0，access_flags只有2个字节表示，但是有这么多标志位怎么计算而来的呢？它是由标志位为true的标志位值取或运算而来，比如这里我演示的class文件是一个类并且是public的，所以对应的ACC_PUBLIC和ACC_SIPER标志应该置为true，其余标志不满足则为false，那么access_flags的计算过程就是：Ox0001 | Ox0020 = Ox0021 篇幅原因，未完待续...... 参考文献：《深入理解Java虚拟机》 END 本篇文章为转载内容。原文链接：https://javar.blog.csdn.net/article/details/97532925。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-09 17:46:36

645

转载

Sqoop

Sqoop在数据迁移中因透明性不足导致作业失败的案例分析

...p来完成一些数据迁移任务。哈哈，Sqoop这个名字一听就觉得挺酷的，对不？它就像个超级厉害的“中间人”，一边连着Hadoop那个大数据的世界，另一边又搭在传统的数据库上，两边都能玩得转！说到Sqoop，它的主要功能就是从关系型数据库中抽取数据并导入到Hadoop生态系统中，或者反过来把Hadoop中的数据导出到关系型数据库里。对我来说，这简直就是个救星啊！毕竟我天天都要跟一堆 structured data（结构化数据）打交道，没有它，我的日子能过得下去才怪呢！不过呢，事情并没有想象中那么顺利。话说有一次我用 Sqoop 做数据迁移的时候，发现了个让人挠头的问题——只要碰到某些特别的数据处理任务，作业就突然“罢工”了，也不知道是啥原因。这事儿可把我给整郁闷了，我都觉得自己的水平挺过关的了，没想到被一个看起来超简单的题目给绊住了，真是有点糗啊！示例代码： bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --target-dir /user/hadoop/employees 这段代码看起来挺正常的，但我后来发现，当表中的数据量过大或者存在一些复杂的约束条件时，Sqoop就表现得不太友好。 --- 二、Sqoop作业失败的背后接下来，让我们一起深入探讨一下这个问题。说实话，刚开始接触Sqoop那会儿，我对它是怎么工作的压根儿没弄明白，稀里糊涂的。我以为只要配置好连接信息，然后指定源表和目标路径就行了。但实际上，Sqoop并不是这么简单的工具。当我第一次遇到作业失败的情况时，内心是崩溃的。屏幕上显示的错误信息密密麻麻，但仔细一看，其实都是些常见的问题。打个比方啊，Sqoop这家伙一碰到一些特别的符号，比如空格或者换行符，就容易“翻车”，直接给你整出点问题来。还有呢，有时候因为网络卡了一下，延迟太高，Sqoop就跟服务器说拜拜了，连接就这么断了，挺烦人的。有一次，我在尝试将一张包含大量JSON字段的表导出到HDFS时，Sqoop直接报错了。我当时就在心里嘀咕：“为啥别的工具处理起来轻轻松松的事儿，到Sqoop这儿就变得这么棘手呢？”后来，我一咬牙，开始翻遍各种资料，想着一定要找出个解决办法来。思考与尝试：经过一番研究，我发现Sqoop默认情况下并不会对数据进行深度解析，这意味着如果数据本身存在问题，Sqoop可能无法正确处理。所以，为了验证这个假设，我又做了一次测试。 bash sqoop import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table problematic_table \ --fields-terminated-by '\t' \ --lines-terminated-by '\n' 这次我特意指定了分隔符和换行符，希望能避免之前遇到的那些麻烦。嘿，没想到这次作业居然被我搞定了！中间经历了不少波折，不过好在最后算是弄懂了个中奥秘，也算没白费功夫。 --- 三、透明性的重要性 Sqoop到底懂不懂我的需求？说到Sqoop的透明性，我觉得这是一个非常重要的概念。所谓的透明性嘛，简单来说，就是Sqoop能不能明白咱们的心思，然后老老实实地按咱们想的去干活儿，不添乱、不出错！显然，在我遇到的这些问题中，Sqoop的表现并不能让人满意。举个例子来说，假设你有一个包含多列的大表，其中某些列的数据类型比较复杂（例如数组、嵌套对象等）。在这种情况下，Sqoop可能会因为无法正确识别这些数据类型而失败。更糟糕的是，它并不会给出明确的提示，而是默默地报错，让你一头雾水。为了更好地应对这种情况，我在后续的工作中加入了更多的调试步骤。比如说啊，你可以先用describe这个命令去看看表的结构，确保所有的字段都乖乖地被正确识别了；接着呢，再用--check-column这个选项去瞅一眼，看看有没有重复的记录藏在里面。这样一来，虽然增加了工作量，但至少能减少不必要的麻烦。示例代码： bash sqoop job --create my_job \ -- import \ --connect jdbc:mysql://localhost:3306/mydatabase \ --username root \ --password mypassword \ --table employees \ --check-column id \ --incremental append \ --last-value 0 这段代码展示了如何创建一个增量作业，用于定期更新目标目录中的数据。通过这种方式，可以有效避免一次性加载过多数据带来的性能瓶颈。 --- 四、总结与展望与Sqoop共舞总的来说，尽管Sqoop在某些场景下表现得不尽人意，但它依然是一个强大的工具。通过不断学习和实践，我相信自己能够更加熟练地驾驭它。未来的计划里，我特别想试试一些更酷的功能，比如说用Sqoop直接搞出Avro文件，或者把Spark整进来做分布式计算，感觉会超级带劲！最后，我想说的是，技术这条路从来都不是一帆风顺的。遇到困难并不可怕，可怕的是我们因此放弃努力。正如那句话所说：“失败乃成功之母。”只要保持好奇心和求知欲，总有一天我们会找到属于自己的答案。如果你也有类似的经历，欢迎随时交流！我们一起进步，一起成长！ --- 希望这篇文章对你有所帮助，如果有任何疑问或者想要了解更多细节，请随时告诉我哦！

2025-03-22 15:39:31

风中飘零

转载文章

[转载]做了几年程序员，某天居然发现自己没学过数据结构。。。

...联系我们，我们将第一时间进行核实并删除相应内容。原创声明本文作者：黄小斜转载请务必在文章开头注明出处和作者。简介学习编程，数据结构是你必须要掌握的基础知识，那么数据结构到底是什么呢？根据百度百科的介绍，数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。听听这是人话么，我帮你们翻译一下，其实数据结构就是用来描述计算机里存储数据的一种数学模型，因为计算机里要存储很多乱七八糟的数据，所以也需要不同的数据结构来描述。本文思维导图为什么要学数据结构了解了基本概念之后，接下来我们再来看看，为什么我们要学习数据结构呢？在许多类型的程序的设计中，数据结构的选择是一个基本的设计考虑因素。许多大型系统的构造经验表明，系统实现的困难程度和系统构造的质量都严重的依赖于是否选择了最优的数据结构。许多时候，确定了数据结构后，算法就容易得到了。有些时候事情也会反过来，我们根据特定算法来选择数据结构与之适应。不论哪种情况，选择合适的数据结构都是非常重要的。选择了数据结构，算法也随之确定，是数据而不是算法是系统构造的关键因素。这种洞见导致了许多种软件设计方法和程序设计语言的出现，面向对象的程序设计语言就是其中之一。也就是说，选定数据结构往往是解决问题的核心，比如我们做一道算法题，往往就要先确定数据结构，再根据这个数据结构去思考怎么解题。如果没有数据结构的基础知识，也就没有谈算法的意义了，很多时候即使你会使用一些封装好的编程api，但你却不知道其背后的实现原理，比如hashmap，linkedlist这些Java里的集合类，实际上都是JDK封装好的基础数据结构。如何学习数据结构第一次接触我第一次接触数据结构这门课还是4年前，那这时候我在准备考研，专业课考的就是数据结构与算法，作为一个非科班的小白，对这个东西可以说是一窍不通。这个时候的我只有一点点c语言的基础，基本上可以忽略不计，所以小白同学也可以按照这个思路进行学习。数据结构基本上是考研的必考科目，所以我一开始使用的是考研的复习书籍，《天勤数据结构》和《王道数据结构》这两个家的书都是专门为计算机考研服务的，可以直接百度，这两本书对于我这种小白来说居然都是可以看懂的，所以，用来入门也是ok的。入门学习阶段最早的时候我并没有直接看书，而是先打算先看视频，因为视频更好理解呀，找视频的办法就是百度，于是当时找到的最好资源就是《郝斌的数据结构》这个视频应该是很早之前录制的了，但是对于小白来说是够用的，特别基础，讲的很仔细。从最开始的数组、线性表，再讲到栈和队列，以及后面更复杂的二叉树、图、哈希表，大概有几十个视频，那个时候正值暑假，我按照每天一个视频的进度看完了，看的时候还得时不时地实践一下，更有助于理解。看完了这个系列的视频之后，我又转战开始啃书了，视频里讲的都是数据结构的基础，而书上除了基础之外，还有一些算法题目，比如你学完了线性表和链表之后，书上就会有相关的算法题，比如数组的元素置换，链表的逆置等等，这些在日后看来很容易的题目，当时把我难哭了。好在大部分题目是有讲解的，看完讲解之后还能安抚一下我受伤的心灵。记住这本书，我在考研之前翻了至少有三四遍。强化学习阶段完成了第一波视频+书籍的学习之后，我们应该已经对数据结构有了初步的了解了，对一些简单的数据结构算法也应该有所了解了，比如栈的入栈和出栈，队列的进队和出队，二叉树的先序遍历和后续遍历、层次遍历，图的最短路径算法，深度优先遍历等等。有了一定的基础之后，我们需要对哪方面进行强化学习呢？那就要看你学习数据结构的目的是什么了，比如你学习数据结构是为了能做算法题，那么接下来你应该重点去学习算法方面的知识，后续我们也将有一篇新的文章来讲怎么学习算法，敬请期待。当然，我当时主要是复习考研，所以还是针对专业课的历年真题来复习，像我们的卷子中就考察了很多关于哈希表、最短路径算法、KMP算法、赫夫曼算法以及最短路径算法的应用。对于考卷上的一些知识点，我觉得掌握的并不是很好，于是又买了《王道数据结构》以及一些并没有什么卵用的书回来看，再次强化了基础。并且，由于我们的复试通常会考察一些比较经典的算法问题，所以我又花了很多时间去学习这些算法题，这些题目并非数据结构的基础算法，所以在之前的书和视频中可能找不到答案。于是我又在网上搜到了另一个系列视频《小甲鱼的数据结构视频》里面除了讲解数据结构之外，还讲解了更多经典的算法题，比如八皇后问题，汉诺塔问题，马踏棋盘，旅行商问题等，这些问题对于新手来说真的是很头大的，使用视频学习确实效果更佳。实践阶段纸上得来终觉浅，绝知此事要躬行。众所周知，算法题和数学题一样，需要多加练习，而且考研的时候必须要手写算法，于是我就经常在纸上写（抄）算法，你还别说，就算是抄，多抄几次也有助于理解。很多基础的算法，比如层次遍历，深度优先遍历和广度优先遍历，多写几遍更有助理解，再比如稍微复杂一点的迪杰斯特拉算法，不多写几遍你可真记不住。除了在纸上写之外，更好的办法自然是在电脑上敲了，写Java的使用Java写，写C++ 的用C++ 写，总之用自己擅长的语言实现就好，尴尬的是我当时只会c，所以就只好老老实实地用devc++写简单的c语言程序了。至此，我们也算是学会了数据结构的基础知识了，至少知道每个数据结构的特性，会写常见的数据结构算法，甚至偶尔还能掏出一个八皇后出来。推荐资源书籍《天勤数据结构》《王道数据结构》如果你要考研的话，这两本书可不要错过严蔚敏《数据结构C语言版》这本书是大学本科计算机专业常用的教科书，年代久远，可以看看，官方也有配套的教学视频《大话数据结构》官方教材大家都懂的，比较不接地气，这本书对于很多新手来说是更适合入门的书籍。《数据结构与算法Java版》如果你是学Java的，想有一本Java语言描述的数据结构书籍，可以试试这本，但是这本书显然比较复杂，不适合入门使用。视频《郝斌数据结构》这个视频上文有提到过，年代比较久远，但是入门足够了。《小甲鱼数据结构与算法》这个视频比较新，更加全面，有很多关于经典算法的教程，作者也入驻了B站，有兴趣也可以到B站看他的视频。总结关于数据结构的学习，我们就讲到这里了，如果还有什么疑问也可以到我公众号里找我探讨，虽然我们提到了算法，但是这里只关注一些基础的数据结构算法，后续会有关于“怎么学算法“的文章推出，敬请期待。本篇文章为转载内容。原文链接：https://blog.csdn.net/a724888/article/details/104586757。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-12 23:35:52

134

转载

Hadoop

Hadoop支持文件跨访问控制协议迁移解析

...松应对各种规模的数据任务。为什么Hadoop这么受欢迎呢？因为它解决了传统数据库在处理大规模数据时的瓶颈问题。比如说啊，你在一家电商公司当数据分析师，每天的工作就是跟上亿条用户的点击、浏览、下单这些行为记录打交道，简直就像在海量的信息海洋里淘宝一样！如果用传统的数据库，可能早就崩溃了。但Hadoop不一样，它可以将这些数据分散到多个服务器上进行并行处理，效率杠杠的！不过，Hadoop的魅力远不止于此。嘿，大家好！今天我想跟你们分享一个关于Hadoop的超棒功能——它居然能让你在不同的访问控制协议之间轻松切换文件！是不是听着就很带感？哎呀，是不是觉得这事听着有点绕？别慌，我这就用大白话给你说道说道，保证你一听就明白！ --- 二、什么是跨访问控制协议迁移？首先，我们得明白什么是访问控制协议。简单说，就是规定谁可以访问你的数据以及他们能做些什么的规则。好比说啊，你有个公共文件柜，你想让一些人只能打开看看里面的东西，啥都不能动；但另外一些人呢，不仅能看，还能随便改，甚至直接把东西清空或者拿走。这就是访问控制协议的作用。那么，“跨访问控制协议迁移”又是什么意思呢？想象一下，你有两个不同的系统，它们各自有自己的访问控制规则。比如说，一个是Linux那边的ACL（访问控制列表）系统，另一个则是Windows里的NTFS权限系统，两者各有各的玩法。现在，你要把文件从一个系统迁移到另一个系统，而且你还想保留原来的访问控制设置。这就需要用到跨访问控制协议迁移的技术了。为什么要关心这个功能呢？因为现实世界中，企业往往会有多种操作系统和存储环境。要是你对文件的权限管理不当，那可就麻烦了，要么重要数据被泄露出去，要么一不小心就把东西给搞砸了。而Hadoop通过其强大的灵活性，完美地解决了这个问题。 --- 三、Hadoop如何实现跨访问控制协议迁移？接下来，让我们来看看Hadoop是如何做到这一点的。其实，这主要依赖于Hadoop的分布式文件系统（HDFS）和它的API库。为了更好地理解，我们可以一步步来分析。 3.1 HDFS的基本概念 HDFS是Hadoop的核心组件之一，它是用来存储大量数据的分布式文件系统。这就像是一个超大号的硬盘，不过它有点特别，不是集中在一个地方存东西，而是把数据切成小块，分散到不同的“小房间”里去。这样做的好处是即使某个节点坏了，也不会影响整个系统的运行。 HDFS还提供了一套丰富的接口，允许开发者自定义文件的操作行为。这就为实现跨访问控制协议迁移提供了可能性。 3.2 实现步骤实现跨访问控制协议迁移大致分为以下几个步骤：（1）读取源系统的访问控制信息第一步是获取源系统的访问控制信息。比如，如果你正在从Linux系统迁移到Windows系统，你需要先读取Linux上的ACL配置。 java // 示例代码：读取Linux ACL import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; public class AccessControlReader { public static void main(String[] args) throws IOException { Path path = new Path("/path/to/source/file"); FileSystem fs = FileSystem.get(new Configuration()); // 获取ACL信息 String acl = fs.getAclStatus(path).toString(); System.out.println("Source ACL: " + acl); } } 这段代码展示了如何使用Hadoop API读取Linux系统的ACL信息。可以看到，Hadoop已经为我们封装好了相关的API，调用起来非常方便。（2）转换为目标系统的格式接下来，我们需要将读取到的访问控制信息转换为目标系统的格式。比如，将Linux的ACL转换为Windows的NTFS权限。 java // 示例代码：模拟ACL到NTFS的转换 public class AclToNtfsConverter { public static void convert(String linuxAcl) { // 这里可以编写具体的转换逻辑 System.out.println("Converting ACL to NTFS: " + linuxAcl); } } 虽然这里只是一个简单的打印函数，但实际上你可以根据实际需求编写复杂的转换算法。（3）应用到目标系统最后一步是将转换后的权限应用到目标系统上。这一步同样可以通过Hadoop提供的API来完成。 java // 示例代码：应用NTFS权限 public class NtfsPermissionApplier { public static void applyPermissions(Path targetPath, String ntfsPermissions) { try { // 模拟应用权限的过程 System.out.println("Applying NTFS permissions to " + targetPath.toString() + ": " + ntfsPermissions); } catch (Exception e) { e.printStackTrace(); } } } 通过这三个步骤，我们就完成了从源系统到目标系统的访问控制协议迁移。 --- 四、实战演练一个完整的案例为了让大家更直观地理解，我准备了一个完整的案例。好啦，想象一下，我们现在要干的事儿就是把一个文件从一台Linux服务器搬去Windows服务器，而且还得保证这个文件在新家里的“门禁权限”跟原来一模一样，不能搞错！ 4.1 准备工作首先，确保你的开发环境中已经安装了Hadoop，并且配置好相关的依赖库。此外，还需要准备两台机器，一台装有Linux系统，另一台装有Windows系统。 4.2 编写代码接下来，我们编写代码来实现迁移过程。首先是读取Linux系统的ACL信息。 java // 读取Linux ACL Path sourcePath = new Path("/source/file.txt"); FileSystem linuxFs = FileSystem.get(new Configuration()); String linuxAcl = linuxFs.getAclStatus(sourcePath).toString(); System.out.println("Linux ACL: " + linuxAcl); 然后，我们将这些ACL信息转换为NTFS格式。 java // 模拟ACL到NTFS的转换 AclToNtfsConverter.convert(linuxAcl); 最后，将转换后的权限应用到Windows系统上。 java // 应用NTFS权限 Path targetPath = new Path("\\\\windows-server\\file.txt"); NtfsPermissionApplier.applyPermissions(targetPath, "Full Control"); 4.3 执行结果执行完上述代码后，你会发现文件已经被成功迁移到了Windows系统，并且保留了原有的访问控制设置。是不是很神奇？ --- 五、总结与展望通过这篇文章，我相信你对Hadoop支持文件的跨访问控制协议迁移有了更深的理解。Hadoop不仅是一个强大的工具，更是一种思维方式的转变。它就像个聪明的老师，不仅教我们怎么用分布式的思路去搞定问题，还时不时敲打我们：嘿，别忘了数据的安全和规矩可不能丢啊！未来，随着技术的发展，Hadoop的功能会越来越强大。我希望你能继续探索更多有趣的话题，一起在这个充满挑战的世界里不断前行！加油吧，程序员们！

2025-04-29 15:54:59

风轻云淡

转载文章

[转载]练习：《斗鱼视频》m3u8流视频采集下载+思路+Python

...联系我们，我们将第一时间进行核实并删除相应内容。首先感谢以下大佬提供帮助斗鱼视频下载-> https://www.jianshu.com/p/feccccb097be 批量合并处理B站视频->https://www.wandouip.com/t5i227224/ You-Get->https://you-get.org/ 思路首先打开了PC端斗鱼视频一个链接：https://v.douyu.com/show/0Q8mMY0xXDL749Ad 发现一个参数在链接中 0Q8mMY0xXDL749Ad 通过抓包发现了一个很重要的文件：playlist.m3u8 里面包含了数个 .ts 的网络地址； .ts 文件是可以播放的视频片段；发现可以通过合并 .ts 片段可以得到完整视频；出现一个问题：playlist.m3u8 怎么获取？发现：https://v.douyu.com/api/stream/getStreamUrl 可以获取 playlist.m3u8 文件地址；需要POST传入一些参数才行，发现： sign 参数是一种签名，一般通过JS生成，找了半天没有方法生成 sign 参数；通过查阅大佬文献发现：手机端的斗鱼视频有接口可以直接获取 playlist.m3u8 文件地址，成功越过 sign 签名防线；手机端斗鱼视频链接：https://vmobile.douyu.com/show/0Q8mMY0xXDL749Ad 通过抓包发现：https://vmobile.douyu.com/video/getInfo?vid=0Q8mMY0xXDL749Ad；这就解决了playlist.m3u8 文件获取问题：json[‘data’][‘video_url’] 第一个难题解决！！；综上所述，整理一下具体采集流程：获取vid = 0Q8mMY0xXDL749Ad (就是链接中的参数)；通过 https://vmobile.douyu.com/video/getInfo?vid=0Q8mMY0xXDL749Ad 获取 playlist.m3u8 文件地址；解析 playlist.m3u8 文件提取所有 .ts文件；下载所有 .ts 文件；合并 .ts 成视频文件输出； Python实现不要开启线程池，因为会有一些问题 app.py config 中可以配置 import requestsimport reimport jsonimport timeimport pymongoimport psutilfrom hashlib import md5from moviepy.editor import from multiprocessing import Pool基本配置config = {'UID':'gKpdxKRWXwaW',用户ID'CID':104,栏目ID'TYPE':1, 1=>按用户id采集列表，2=>按栏目ID采集列表'TIME_START':1,起始时间'TIME_ENT':500,结束时间'PAGE_START':1,起始页'PAGE_END':10,结束页'TIME_GE':0,每个下载间隔时间'POOL':False,是否开启线程池'CHECKID':True, True 过滤已经下载过的视频 False 不过滤'FILE_PATH':'F:/ceshi/',下载目录，【会自动创建文件夹】'TS_PATH':'F:/ceshi/download/',缓存文件目录，【会自动创建文件夹】'DB_URL':'localhost',数据库地址'DB_NAME':'douyu',数据库名称''DB_TABLE':'douyu'数据库表}MongoDB初始化client = pymongo.MongoClient(config['DB_URL'])mango_db = client[config['DB_NAME']]MongoDB存储def save_to_mango(result):if mango_db[config['DB_TABLE']].insert_one({'vid':result}):print('成功存储到MangoDB')return Truereturn FalseMongoDB验证重复def check_to_mongo(vid):count = mango_db[config['DB_TABLE']].find({'vid':vid}).count()if count==0:return Falsereturn True删除文件def del_file(page):if os.path.exists(page): 删除文件，可使用以下两种方法。os.remove(page) os.unlink(my_file)else:print('no such file:%s' % page)循环列表删除文件def loop_del_file(arr):for item in arr:del_file(item)请求器def get_content_requests(url):headers = {}headers['user-agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'headers['cookie'] = 'dy_did=07f83a57d1d2e22942e0883200001501; acf_did=07f83a57d1d2e22942e0883200001501; Hm_lvt_e99aee90ec1b2106afe7ec3b199020a7=1556514266,1557050422,1557208315; acf_auth=; acf_auth_wl=; acf_uid=; acf_nickname=; acf_username=; acf_own_room=; acf_groupid=; acf_notification=; acf_phonestatus=; _dys_lastPageCode=page_video,page_video; Hm_lpvt_e99aee90ec1b2106afe7ec3b199020a7=1557209469; _dys_refer_action_code=click_author_video_cate2'try:req_content = requests.get(url,headers = headers)if req_content.status_code == 200:return req_contentprint('请求失败：',url)return Noneexcept:print('请求失败：', url)return None把时间换算成秒def str_to_int(time):try:time_array = time.split(':')time_int = (int(time_array[0])60)+int(time_array[1])return time_intexcept:print('~~~~~计算视频时间失败~~~~~')return None提取需要采集的数据def get_list(html,type = 1):data = []try:list_json = json.loads(str(html))for om in list_json['data']['list']:gtime = str_to_int(om['video_str_duration'])if gtime > config['TIME_START'] and gtime < config['TIME_ENT']:if type == 2:data.append({'title': om['title'], 'vid': om['url'].split('show/')[1]})else:data.append({'title': om['title'], 'vid': om['hash_id']})return dataexcept:print('~~~~~数据提取失败~~~~~')return None解析playlist.m3u8def get_ts_list(m3u8):data = []try:html_m3u8_json = json.loads(m3u8)m3u8_text = get_content_requests(html_m3u8_json['data']['video_url'])m3u8_vurl =html_m3u8_json['data']['video_url'].split('playlist.m3u8?')[0]if m3u8_text:get_text = re.findall(',\n(.?).ts(.?)\n',m3u8_text.text,re.S)for item in get_text:data.append(m3u8_vurl+item[0]+'.ts'+item[1])return datareturn Noneexcept:print('~~~~~解析playlist.m3u8失败~~~~~')return None 杀死moviepy产生的特定进程def killProcess(): 处理python程序在运行中出现的异常和错误try: pids方法查看系统全部进程pids = psutil.pids()for pid in pids: Process方法查看单个进程p = psutil.Process(pid) print('pid-%s,pname-%s' % (pid, p.name())) 进程名if p.name() == 'ffmpeg-win64-v4.1.exe': 关闭任务 /f是强制执行，/im对应程序名cmd = 'taskkill /f /im ffmpeg-win64-v4.1.exe 2>nul 1>null' python调用Shell脚本执行cmd命令os.system(cmd)except:pass下载.ts文件def download_ts(m3u8_list,name):try:if not os.path.exists(config['FILE_PATH']):os.makedirs(config['FILE_PATH'])if not os.path.exists(config['TS_PATH']):os.makedirs(config['TS_PATH'])if os.path.exists(config['FILE_PATH']+name+'.mp4'):name = name+'_'+str(int(time.time()))print('开始下载：',name)L = []R = []for p in m3u8_list:ts_find = get_content_requests(p)file_ts = '{0}{1}.ts'.format(config['TS_PATH'],md5(ts_find.content).hexdigest())with open(file_ts,'wb') as f:f.write(ts_find.content)R.append(file_ts)hebing = VideoFileClip(file_ts)L.append(hebing)killProcess()print('下载完成：',file_ts)mp4file = '{0}{1}.mp4'.format(config['FILE_PATH'],name)final_clip = concatenate_videoclips(L)final_clip.to_videofile(mp4file, fps=24, remove_temp=True)killProcess()loop_del_file(R)print('\n下载完成：',name)print('')return Trueexcept:print('~~~~~合成.ts文件失败~~~~~')return None下载视频列表def list_get_kong(list_json):for item in list_json:y = Trueif config['CHECKID']:if check_to_mongo(item['vid']):print('~~~~~检测到重复项~~~~~')y = Falseif y:get_show_html = get_content_requests('https://vmobile.douyu.com/video/getInfo?vid=' + item['vid'])if get_show_html:m3u8_list = get_ts_list(get_show_html.text)if m3u8_list:download = download_ts(m3u8_list, item['title'])if download: save_to_mango(item['vid'])time.sleep(config['TIME_GE'])控制器def main(page):if config['TYPE']==1:print('~~~~~按用户ID采集~~~~~')listurl = 'https://v.douyu.com/video/author/getAuthorVideoListByNew?up_id={0}&cate2_id=0&limit=30&page={1}'.format(config['UID'],page)get_list_html = get_content_requests(listurl)if get_list_html:list_json = get_list(get_list_html.text,1)if list_json:list_get_kong(list_json)else:print('~~~~~按列表ID采集~~~~~')listurl = 'https://v.douyu.com/video/video/listData?page={1}&cate2Id={0}&action=new'.format(config['CID'],page)get_list_html = get_content_requests(listurl)if get_list_html:list_json = get_list(get_list_html.text,2)if list_json:list_get_kong(list_json)初始化if __name__=='__main__':if config['POOL']:groups = [x for x in range(config['PAGE_START'],config['PAGE_END']+1)]pool = Pool()pool.map(main, groups)else:for item in range(config['PAGE_START'],config['PAGE_END']+1):main(item)print('~~~~~已经完成【所有操作】~~~~~') 总结：众所周知，BiliBili是一个学习的网站！本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_35875470/article/details/89857445。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-18 11:34:00

119

转载

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...联系我们，我们将第一时间进行核实并删除相应内容。最近在找工作，在这个过程中我感到很迷茫，投了很多简历，被查看的却很少，其中也有到现场去面试，结果也很不理想(╥╯^╰╥)。哈哈，跑题了，我在看之前所做的项目时，在我的收藏夹中看到了以前收藏的有关爬虫的文章，点开后又重新学习了一下。下面是这两篇文章的链接 java实现网络爬虫：https://www.cnblogs.com/1996swg/p/7355577.html Jsoup教程：https://www.jianshu.com/p/fd5caaaa950d 接下来，我通过Jsoup来实现爬取彼岸桌面里面的图片进行爬虫学习！！！我用的开发工具是IDEA，jdk是1.7版本，项目结构大致如下所示：一、页面分析首先来分析一下彼岸桌面的网页的结构：我们第一个看到的是网站的域名为http://www.netbian.com/，它有如上所示的分类，我们尝试着点开一些分类去看一下他的链接。通过点击每个分类，发现不同的分类下，地址栏显示为域名后面拼接这对应分类的拼音，但在分类为王者荣耀之后的拼接的确是“s/分类拼音”。这样我们可以创建一个枚举类，将所有分类集中管理。在common包下创建一个Kind枚举类： package com.asahi.common;/ 分类的枚举/public enum Kind {RILI("rili"), DONGMAN("dongman"), FENGJING("fengjing"), MEINV("meinv"), YOUXI("youxi"), YINGSHI("yingshi"),DONGTAI("dongtai"), WEIMEI("weimei"), SHEJI("sheji"), KEAI("keai"), QICHE("qiche"), HUAHUI("huahui"),DONGWU("dongwu"), JIERI("jieri"), RENWU("renwu"), MEISHI("meishi"), SHUIGUO("shuiguo"), JIANZHU("jianzhu"),TIYU("tiyu"), JUNSHI("junshi"), FEIZHULIU("feizhuliu"), QITA("qita"), WANGZHERONGYAO("s/wangzherongyao"), HUYAN("s/huyan"), LOL("s/lol");String kind;Kind(String kind) {this.kind = kind;}public static boolean contains(String test) {for (Kind c : Kind.values()) {if (c.kind.equals(test)) {return true;} }return false;} } 这里我添加了一个比较的方法供之后判断输入的分类名是否包含在这些分类里面。接下来我们在分析分类面的展示情况，以美女分类页面为例(●´∀｀●)，最下边有分页，如果只获取这个页面的图片并不能获取所有美女图，我们还需要点击每一个分页，从分页中获取所有的图片。通过分析发现，第一页的链接是在原有链接基础上拼接“/index.htm”，从第二页之后拼接的是“/index_页号.htm”。这样我们只需要获取总页数在依次遍历拼接就可以了，现在的问题是如何获取总页数，我一开始的想法是获取分页中“共167页”这个标签后再只保留数字就可以个，但发现运行后获取不到该元素节点，经过排查了解到这个标签是通过js生成的，于是我转换了思路，通过获取最后一个页号来得到一共分了多少页 Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();Elements els = root_doc.select("main .page a");//这里els.eq(els.size() - 2的原因是后边确定按钮用的是a标签要去掉，再去掉一个“下一页”标签Integer page = Integer.parseInt(els.eq(els.size() - 2).text()); 分类页中图片所在的标签结构为：分类页面下的图片不是我们想要的，我们想要的是点击进去详细页的高清大图，所以需要获取a标签的链接，再从这个链接中获取真正想要的图片。详细页中图片所在的标签结构为：二、代码实现到这里分类页分析的差不多了，我们通过代码来进行获取图片。首先导入Jsoup的jar包：jsoup-1.12.1.jar，如果采用Maven请导入下边的依赖。 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version></dependency> 在utils创建JsoupPic类，并添加getPic方法，代码如下： public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");//获取所有图片的链接System.out.println(elements1);} }} 在分类页中有一个隐藏的问题图片：正常的图片链接都是以“/”开头，以“.htm”结尾，而每个分类下的第三张图片的链接都是“http://pic.netbian.com/”，如果不过滤的话会报如下错误：所以这里必须要判断一下: Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");//判断是否是以“/”开头if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");System.out.println(elements1);} } 到这里，页面就已经分析好了，问题基本上已经解决了，接下来我们需要将图片存到我们的系统里，这里我将图片保存到我的电脑桌面上，并按照分类来存储图片。首先是要获取桌面路径，在utils包下创建Download类，添加getDesktop方法，代码如下： public static File getDesktop(){FileSystemView fsv = FileSystemView.getFileSystemView();File path=fsv.getHomeDirectory(); return path;} 接着我们再该类中添加下载图片的方法： //urlPath为网络图片的路径，savePath为要保存的本地路径（这里指定为桌面下的images文件夹）public static void download(String urlPath,String savePath) throws Exception {// 构造URLURL url = new URL(urlPath);// 打开连接URLConnection con = url.openConnection();//设置请求超时为5scon.setConnectTimeout(51000);// 输入流InputStream is = con.getInputStream();// 1K的数据缓冲byte[] bs = new byte[1024];// 读取到的数据长度int len;// 输出的文件流File sf=new File(savePath);int randomNo=(int)(Math.random()1000000);String filename=urlPath.substring(urlPath.lastIndexOf("/")+1,urlPath.length());//获取服务器上图片的名称filename=new java.text.SimpleDateFormat("yyyy-MM-dd-HH-mm-ss").format(new Date())+randomNo+filename;//时间+随机数防止重复OutputStream os = new FileOutputStream(sf.getPath()+"\\"+filename);// 开始读取while ((len = is.read(bs)) != -1) {os.write(bs, 0, len);}// 完毕，关闭所有链接os.close();is.close();} 写好后，我们再完善一下JsouPic中的getPic方法。 public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}File desktop = Download.getDesktop();Download.checkPath(desktop.getPath() + "\\images\\" + kind);//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");Download.download(elements1.attr("src"), desktop.getPath() + "\\images\\" + kind);} }} } 在Download类中，我添加了checkPath方法，用于判断目录是否存在，不存在就创建一个。 public static void checkPath(String savePath) throws Exception {File file = new File(savePath);if (!file.exists()){file.mkdirs();} } 最后在mainapp包内创建PullPic类，并添加主方法。 package com.asahi.mainapp;import com.asahi.common.Kind;import com.asahi.common.PrintLog;import com.asahi.utils.JsoupPic;import java.util.Scanner;public class PullPic {public static void main(String[] args) throws Exception {new PullPic().downloadPic();}public void downloadPic() throws Exception {System.out.println("启动程序>>\n请输入所爬取的分类：");Scanner scanner = new Scanner(System.in);String kind = scanner.next();while(!Kind.contains(kind)){System.out.println("分类不存在，请重新输入：");kind = scanner.next();}System.out.println("分类输入正确！");System.out.println("开始下载>>");JsoupPic.getPic(kind);} } 三、成果展示最终的运行结果如下：最终的代码已上传到我的github中，点击“我的github”进行查看。在学习Java爬虫的过程中，我收获了很多，一开始做的时候确实遇到了很多困难，这次写的获取图片也是最基础的，还可以继续深入。本来我想写一个通过多线程来获取图片来着，也尝试着去写了一下，越写越跑偏，暂时先放着不处理吧，等以后有时间再来弄，我想问题应该不大，只是考虑的东西有很多。希望大家多多指点不足，有哪些需要改进的地方，我也好多学习学习๑乛◡乛๑。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_39693281/article/details/108463868。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-12 10:26:04

130

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

uniq file.txt - 移除连续重复行。