...简洁的方式来管理那些实现IDisposable接口的对象生命周期，以确保其Dispose方法在适当的时候被调用，从而释放非托管资源或执行其他清理任务。在本文中，通过将SqlConnection对象置于using语句中，可以自动在离开using代码块时关闭数据库连接，即使在执行过程中遇到异常也能确保资源得到释放。 SqlDataReader , SqlDataReader是.NET框架中System.Data.SqlClient命名空间下的一个类，它提供了一种只进、只读、高性能的方式从SQL Server数据库获取查询结果。在文中，SqlDataReader被用来执行SQL命令并逐行读取返回的数据集，进而将这些数据转换为CategoryInfo对象，并添加到IList集合中进行后续操作。它的特点是按需读取数据，而不是一次性加载所有数据到内存，因此适用于处理大量数据的情形。 CommandBehavior.CloseConnection , 这是SqlCommand.ExecuteReader方法的一个可选参数，当设置此标志时，在SqlDataReader关闭时，会同时关闭与之关联的SqlConnection。在文章中，作者建议通过设置CommandBehavior.CloseConnection，确保在完成数据读取后能自动关闭数据库连接，从而简化了代码并降低了资源泄漏的风险。

2023-03-18 20:09:36

转载

转载文章

[转载]著名的721法则，你我知道的越早越好（附Python零基础付费学习资料分享）

...知识和经验的流动，以实现20%交流反馈环节的高效运作。值得一提的是，不少科技巨头如Google和Microsoft已开始推行“ Growth Mindset（成长型思维模式）”的文化建设，提倡员工勇于尝试、敢于失败，这无疑是对721法则中实践精神的有力践行。在这样的企业文化氛围下，员工不仅能从错误中汲取宝贵经验，而且能够在团队协作中不断提升自身能力，从而形成良性循环，推动企业和个人共同发展。总结来说，721法则不仅是一种理论指导，更应在现实工作场景中灵活运用。无论是组织架构设计，还是个人职业规划，都应充分认识到实践、交流和学习三者相辅相成的重要性，以适应不断变化的工作环境和挑战。

2023-06-04 23:38:21

106

转载

Mongo

MongoDB大规模数据集并行处理：键值对与NoSQL技术实操

...educe()函数实现数据的分组、转换和聚合。基本流程如下： - Map阶段：数据被分割成多个分片，每个分片经过map()函数处理，产生键值对形式的数据流。 - Shuffle阶段：键相同的数据会被合并在一起，为reduce()阶段做准备。 - Reduce阶段：针对每个键，执行reduce()函数，合并所有相关值，产生最终的结果集。 2. MongoDB中的MapReduce实践为了让你更好地理解MapReduce在MongoDB中的应用，下面我将通过一个具体的例子来展示如何使用MapReduce处理数据。示例代码：假设我们有一个名为sales的集合，其中包含销售记录，每条记录包含product_id和amount两个字段。我们的目标是计算每个产品的总销售额。 javascript // 首先，我们定义Map函数 db.sales.mapReduce( function() { // 输出键为产品ID，值为销售金额 emit(this.product_id, this.amount); }, function(key, values) { // 将所有销售金额相加得到总销售额 var total = 0; for (var i = 0; i < values.length; i++) { total += values[i]; } return total; }, { "out": { "inline": 1, "pipeline": [ {"$group": {"_id": "$_id", "total_sales": {$sum: "$value"} }} ] } } ); 这段代码首先通过map()函数将每个销售记录映射到键为product_id和值为amount的键值对。哎呀，这事儿啊，就像是这样：首先，你得有个列表，这个列表里头放着一堆商品，每一项商品下面还有一堆数字，那是各个商品的销售价格。然后，咱们用一个叫 reduce() 的魔法棒来处理这些数据。这个魔法棒能帮咱们把每一样商品的销售价格加起来，就像数钱一样，算出每个商品总共卖了多少钱。这样一来，我们就能知道每种商品的总收入啦！哎呀，你懂的，我们用out这个参数把结果塞进了一个临时小盒子里面。然后，我们用$group这个魔法棒，把数据一通分类整理，看看哪些地方数据多，哪些地方数据少，这样就给咱们的数据做了一次大扫除，整整齐齐的。 3. 性能优化与注意事项在使用MapReduce时，有几个关键点需要注意，以确保最佳性能： - 数据分区：合理的数据分区可以显著提高MapReduce的效率。通常，我们会根据数据的分布情况选择合适的分区策略。 - 内存管理：MapReduce操作可能会消耗大量内存，特别是在处理大型数据集时。合理设置maxTimeMS选项，限制任务运行时间，避免内存溢出。 - 错误处理：在实际应用中，处理潜在的错误和异常情况非常重要。例如，使用try-catch块捕获并处理可能出现的异常。 4. 进阶技巧与高级应用对于那些追求更高效率和更复杂数据处理场景的开发者来说，以下是一些进阶技巧： - 使用索引：在Map阶段，如果数据集中有大量的重复键值对，使用索引可以在键的查找过程中节省大量时间。 - 异步执行：对于高并发的应用场景，可以考虑将MapReduce操作异步化，利用MongoDB的复制集和分片集群特性，实现真正的分布式处理。结语 MapReduce在MongoDB中的应用，为我们提供了一种高效处理大数据集的强大工具。哎呀，看完这篇文章后，你可不光是知道了啥是MapReduce，啥时候用，还能动手在自己的项目里把MapReduce用得溜溜的！就像是掌握了新魔法一样，你学会了怎么给这玩意儿加点料，让它在你的项目里发挥出最大效用，让工作效率蹭蹭往上涨！是不是感觉整个人都精神多了？这不就是咱们追求的效果嘛！嘿，兄弟！听好了，掌握新技能最有效的办法就是动手去做，尤其是像MapReduce这种技术。别光看书上理论，找一个你正在做的项目，大胆地将MapReduce实践起来。你会发现，通过实战，你的经验会大大增加，对这个技术的理解也会更加深入透彻。所以，行动起来吧，让自己的项目成为你学习路上的伙伴，你肯定能从中学到不少东西！让我们继续在数据处理的旅程中探索更多可能性！

2024-08-13 15:48:45

150

柳暗花明又一村

NodeJS

Node.js项目基于Docker容器化部署实现环境一致性与镜像优化

本文介绍如何用Docker实现Node.js应用的容器化部署，重点讲解环境一致性与镜像优化。通过编写Dockerfile，利用多阶段构建减少镜像体积，同时借助镜像和容器化技术确保开发与生产环境的一致性。端口映射保障服务正常运行，实践部署流程展示从Node.js项目准备到最终运行的具体步骤，旨在提升开发效率并优化资源利用。

2025-05-03 16:15:16

海阔天空

转载文章

[转载]新生代 IT 农民工诞生：月均收入 10571 元

...“新市民”政策，以期实现农民工与城市的深度融合。此外，针对新生代农民工的生活状况，《中国青年农民工社会融入研究报告》指出，尽管收入水平有所提高，但他们在住房、子女教育、医疗等方面依然面临较大压力，对此，各地政府也在探索实施租赁住房补贴、随迁子女平等接受义务教育、建立覆盖农民工的社会保险体系等一系列改革措施，力求解决新生代农民工在城市化进程中的痛点难点问题。综上所述，新生代农民工已成为我国经济社会发展中不可或缺的力量，其市民化过程不仅关乎个人命运变迁，更影响着新型城镇化乃至整个国家的发展走向。社会各界应密切关注这一群体的需求变化，提供更加全面的支持和服务，共同助力新生代农民工顺利融入城市，共享社会发展成果。

2023-06-28 17:16:54

转载

转载文章

[转载]关于SysinternalsSuite全部工具详解

...您使用 NT 提供的功能来控制 Cache Manager 的工作组大小。除了和 NT 所有版本相容之外，还提供原始程式码。　　检视系统时钟的解析度，同时也是计时器解析度的最大值。　　Contig 　　希望能够快速地将常用的档案进行磁碟重组吗？使用 Contig 最佳化个别档案，或是建立新的连续档案。　　Ctrl2cap 　　这是一种核心模式驱动程式，展示键盘输入筛选只在键盘类别驱动程式之上，目的是为了将大写锁定按键转换至控制按键。这个层级的筛选允许在 NT 「发现」按键之前，先进行转换和隐藏按键。包括完整的来源。此外，Ctrl2cap 还会显示如何使用 NtDisplayString() 将讯息列印至初始化的蓝色萤幕。　　DebugView 　　Sysinternals 的另一个首开先例：这个程式会拦截分别由 DbgPrint 利用装置驱动程式，和 OutputDebugString 利用 Win32 程式所做的呼叫。它能够在您的本机上或跨往际往路，在不需要作用中的侦错工具情况下，检视和录制侦错工作阶段输出。　　DiskExt 　　显示磁碟区磁碟对应。　　Diskmon 　　这个公用程式会撷取全部的硬碟活动，或是提供系统匣中的软体磁碟活动指示器的功能。　　DiskView 　　图形化磁区公用程式。　　Du 　　依目录检视磁碟使用状况。　　EFSDump 　　检视加密档案的资讯。　　Filemon 　　这个监控工具让您即时检视所有档案系统的活动。　　Handle 　　这个易於操纵的命令列公用程式能够显示档案开启的种类和使用的处理程序等更多资讯。　　Hex2dec 　　十六进位数字和十进位数字相互转换。　　Junction 　　建立 Win2K NTFS 符号连结。　　LDMDump 　　倾印逻辑磁碟管理员的磁碟上之资料库内容，其中描述 Windows 2000 动态磁碟分割。　　ListDLLs 　　列出所有目前载入的 DLL，包括载入位置和他们的版本编号。2.0 版列印载入模组的完整路径名称。　　LiveKd 　　使用 Microsoft 核心侦错工具检视即时系统。　　LoadOrder 　　检视在您 WinNT/2K 系统上载入装置的顺序。　　LogonSessions 　　列出系统上的作用中登入工作阶段。　　MoveFile 　　允许您对下一次开机进行移动和删除命令的排程。　　NTFSInfo 　　使用 NTFSInfo 检视详细的 NTFS 磁碟区资讯，包括主档案表格 (MFT) 和 MFT 区的大小和位置，还有 NTFS 中继资料档案的大小。　　PageDefrag 　　将您的分页档和登录 Hive 进行磁碟重组。　　PendMoves 　　列举档案重新命名的清单，删除下次开机将会执行的命令。　　Portmon 　　使用这个进阶的监视工具进行监视序列和平行连接埠活动。它不仅掌握所有标准的序列和平行 IOCTL，甚至会显示传送和接收的资料部份。Version 3.x 具有强大的新 UI 增强功能和进阶的筛选功能。　　Process Monitor 　　即时监控档案系统、登录、程序、执行绪和 DLL 活动。 procexp 任务管理器，这个管理器比windows自带的管理器要强大方便的很多，建议替换自带的任务管理器（本人一直用这个管理器，很不错）。此工具也有汉化版，fans可以自己搜索下载　　ProcFeatures 　　这个小应用程式会描述「实体位址扩充」的处理器和 Windows 支援，而没「没有执行」缓冲区溢位保护。　　PsExec 　　以有限的使用者权限执行处理程序。　　PsFile 　　检视远端开启档案有哪些。　　PsGetSid 　　显示电脑或使用者的 SID。　　PsInfo 　　取得有关系统的资讯。　　PsKill 　　终止本机或远端处理程序。　　PsList 　　显示处理程序和执行绪的相关资讯。　　PsLoggedOn 　　显示使用者登录至一个系统。　　PsLogList 　　倾印事件记录档的记录。　　PsPasswd 　　变更帐户密码。　　PsService 　　检视及控制服务。　　PsShutdown 　　关机及选择重新启动电脑。　　PsSuspend 　　暂停及继续处理程序。　　PsTools 　　PsTools 产品系列包括命令列公用程式，其功能有列出在本机或远端电脑上执行的处理程序、远端执行的处理程序、重新开机的电脑和倾印事件记录等等。　　RegDelNull 　　扫描并删除登录机码，这些登录机码包括了标准登录编辑工具无法删除的内嵌式 Null 字元。　　RegHide 　　建立名为 "HKEY_LOCAL_MACHINE\Software\Sysinternals\Can't touch me!\0" 并使用原生 API 的金钥，而且会在此金钥内建立一个值。　　Regjump 　　跳至您在 Regedit 中指定的登录路径。　　Regmon 　　这个监视工具让您即时看到全部的登录活动。　　RootkitRevealer 　　扫描您系统上 Rootkit 为基础的恶意程式码。　　SDelete 　　以安全的方法覆写您的机密档案，并且清除因先前使用这个 DoD 相容安全删除程式所删除档案後而释放的可用空间。包括完整的原始程式码。　　ShareEnum 　　扫描网路上档案共用并检视其安全性设定，来关闭安全性漏洞。　　Sigcheck 　　倾印档案版本资讯和验证系统上的影像皆已完成数位签章。　　Strings 　　搜寻 binaryimages 中的 ANSI 和 UNICODE 字串。　　Sync 　　将快取的资料清除至磁碟。　　 TCPView 　　作用中的通讯端命令列检视器。　　VolumeId 　　设定 FAT 或 NTFS 磁碟区 ID。　　Whois 　　看看谁拥有一个网际网路位址。　　Winobj 　　最完整的物件管理员命名空间检视器在此。　　ZoomIt 　　供萤幕上缩放和绘图的简报公用程式。转自：http://www.360doc.com/content/15/0323/06/20545288_457293504.shtml 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_33515088/article/details/80721846。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-22 15:44:41

103

转载

Hive

Hive中使用GZIP与BZIP2压缩格式构建外部表以提升性能优化

...经启用了GZIP解压功能。 3.2 BZIP2的高阶玩法接下来轮到BZIP2登场了。相比于GZIP，BZIP2的压缩比更高，但它也有一个明显的缺点：解压速度较慢。因此，BZIP2更适合用于那些访问频率较低的大规模静态数据集。下面这段代码展示了如何创建一个支持BZIP2格式的分区表： sql -- 创建数据库 CREATE DATABASE IF NOT EXISTS archive_db; -- 切换到数据库 USE archive_db; -- 创建分区表并指定BZIP2格式 CREATE TABLE IF NOT EXISTS archives ( file_name STRING, content STRING ) PARTITIONED BY (year INT, month INT) STORED AS RCFILE -- RCFILE支持BZIP2压缩 TBLPROPERTIES ("orc.compress"="BZIP2"); 需要注意的是，在这种情况下，你需要确保Hive的配置文件中启用了BZIP2支持，并且相关的JAR包已经正确安装。 --- 四、实战经验分享踩过的坑与学到的东西在这个过程中，我遇到了不少挫折。比如说吧，有次我正打算把一个GZIP文件塞进Hive里，结果系统直接给我整了个报错，说啥解码器找不着。折腾了半天才发现，哎呀，原来是服务器上那个GZIP工具的老版本太不给劲了，跟最新的Hadoop配不上，闹起了脾气！于是，我赶紧联系运维团队升级了相关依赖，这才顺利解决问题。还有一个教训是关于文件命名规范的。一开始啊，我老是忘了在压缩完的文件后面加“.gz”或者“.bz2”这种后缀名，搞得 Hive 一脸懵逼，根本分不清文件是啥类型的，直接就报错不认账了。后来我才明白，那些后缀名可不只是个摆设啊，它们其实是给文件贴标签的，告诉你这个文件是啥玩意儿，是图片、音乐，还是什么乱七八糟的东西。 --- 五、总结与展望总的来说，虽然Hive对GZIP和BZIP2的支持有限，但这并不意味着我们不能利用它们的优势。相反，只要掌握了正确的技巧，我们完全可以在这两者之间找到平衡点，满足不同的业务需求。最后，我想说的是，作为一名数据工程师，我们不应该被工具的限制束缚住手脚。相反，我们应该敢于尝试新事物，勇于突破常规。毕竟，正是这种探索精神，推动着整个行业不断向前发展！好了，今天的分享就到这里啦。如果你也有类似的经历或者想法，欢迎随时跟我交流哦~再见啦！

2025-04-19 16:20:43

翡翠梦境

转载文章

[转载]容器编排技术 -- Kubernetes 给容器和Pod分配内存资源

...置内存请求和限制，以实现资源的有效利用和成本控制。同时，文中还引用了Google Borg论文中的经典研究，揭示了大规模分布式系统内存资源调度的复杂性及其解决方案在Kubernetes设计中的体现。对于希望进一步提升Kubernetes集群资源管理能力的用户，可以关注一些业内知名的案例研究，例如Netflix如何借助Kubernetes进行大规模服务部署时的内存优化策略。这些实战经验不仅有助于理解理论知识，还能指导读者在实际环境中运用和调整内存配置，从而最大化资源使用效率，降低运维风险。总之，随着Kubernetes生态系统的持续发展和容器技术的日臻完善，不断跟进最新的内存管理实践与研究动态，将助力企业和开发者更好地驾驭这一强大的容器编排工具，构建高效、稳定的云原生架构。

2023-12-23 12:14:07

496

转载

Beego

Beego配置文件格式文本检查日志记录耐心与细心错误排查全解析

...，决定了程序的行为和功能。在用 Go 语言开发的时候，Beego 框架可是个大明星呢！它就像一个贴心的小助手，给你一堆现成的工具和功能，让你能飞快地搭出一个像模像样的网站，简直不要太爽！然而，任何工具都有它的局限性，特别是在处理配置文件时。记得有一次，我在调试一个 Beego 项目的时候，遇到了一个恼人的错误：“configuration file parsing error”。我当时那个心情啊，简直就像被人突然浇了一脑袋凉水，懵圈了，心里直嘀咕：“这是啥妖蛾子呀？”后来我就自己琢磨来琢磨去，费了好大劲儿，总算把问题给摆平了。嘿，今天就想跟大家聊聊我的经历，说不定对碰上同样麻烦的小伙伴们有点儿用呢！ 2. 配置文件解析错误是什么？首先，我们需要明确什么是“configuration file parsing error”。简单说吧，就是程序打开配置文件的时候，发现里面有些东西跟它想的不一样，有点懵圈了。可能是语法错误，也可能是格式不正确，甚至可能是文件路径不对。总之，这种错误会让程序无法正常运行。让我举个例子吧。假设你有一个 conf/app.conf 文件，里面的内容是这样的： ini appname = myapp port = 8080 如果你不小心把 port 写成了 porr，那么 Beego 就会报出 “configuration file parsing error”。这就怪不得了，Beego 在读取配置文件的时候，就想着你给它整点正规的键值对呢。结果你这输入一看，唉，这不是闹着玩的嘛，明显不按规矩出牌啊！ 3. 如何正确处理配置文件解析错误？ 3. 1. 第一步检查配置文件的格式当遇到 “configuration file parsing error” 时，第一步当然是检查配置文件的格式。这听起来很简单，但实际上需要仔细观察每一个细节。比如说，你的配置文件可能有空行或者多余的空格。Beego 对这些细节是非常敏感的。再比如，有些键值对之间可能没有等号（=），这也是一个常见的错误。所以，在处理这个问题之前，先用文本编辑器打开配置文件，仔细检查每一行。 bash 打开配置文件进行检查 vim conf/app.conf 3. 2. 第二步使用 Beego 提供的工具 Beego 为我们提供了一个非常方便的工具，叫做 beego.AppConfig。这个工具可以帮助我们轻松地读取和解析配置文件。要是你检查完配置文件，发现格式啥的都没毛病，可还是报错的话，那八成是代码里头哪里出岔子了。下面是一个简单的代码示例，展示如何使用 beego.AppConfig 来读取配置文件： go package main import ( "fmt" "github.com/beego/beego/v2/server/web" ) func main() { // 初始化 Beego 配置 web.SetConfigName("app") web.AddConfigPath("./conf") err := web.LoadAppConfig("ini", "./conf/app.conf") if err != nil { fmt.Println("Error loading configuration:", err) return } // 读取配置项 appName := web.AppConfig.String("appname") port := web.AppConfig.String("port") fmt.Printf("Application Name: %s\n", appName) fmt.Printf("Port: %s\n", port) } 在这个例子中，我们首先设置了配置文件的名字和路径，然后通过 LoadAppConfig 方法加载配置文件。要是加载的时候挂了，就会蹦出个错误信息。咱们可以用 fmt.Println 把这个错误打出来，这样就能知道到底哪里出问题啦！ 3. 3. 第三步日志记录的重要性在处理配置文件解析错误时，日志记录是一个非常重要的环节。通过记录详细的日志信息，我们可以更好地追踪问题的根源。 Beego 提供了强大的日志功能，我们可以很容易地将日志输出到控制台或文件中。下面是一个使用 Beego 日志模块的例子： go package main import ( "github.com/beego/beego/v2/server/web" "log" ) func main() { // 设置日志级别 log.SetFlags(log.Ldate | log.Ltime | log.Lshortfile) // 加载配置文件 err := web.LoadAppConfig("ini", "./conf/app.conf") if err != nil { log.Fatalf("Failed to load configuration: %v", err) } // 继续执行其他逻辑 log.Println("Configuration loaded successfully.") } 在这个例子中，我们设置了日志的格式，并在加载配置文件时使用了 log.Fatalf 来记录错误信息。这样，即使程序崩溃，我们也能清楚地看到哪里出了问题。 4. 我的经验总结经过多次实践，我发现处理配置文件解析错误的关键在于耐心和细心。很多时候，问题并不是特别复杂，只是我们一时疏忽导致的。所以啊，在写代码的时候，得养成好习惯，像时不时瞅一眼配置文件是不是整整齐齐的，别让那些键值对出问题，不然出了bug找起来可够呛。同时，我也建议大家多利用 Beego 提供的各种工具和功能。Beego 是一个非常成熟的框架，它已经为我们考虑到了很多细节。只要我们合理使用这些工具，就能大大减少遇到问题的概率。最后，我想说的是，编程其实是一个不断学习和成长的过程。当我们遇到困难时，不要气馁，也不要急于求成。静下心来，一步步分析问题，总能找到解决方案。这就跟处理配置文件出错那会儿似的，说白了嘛，只要你能沉住气，再琢磨出点门道来，这坎儿肯定能迈过去！ 5. 结语好了，今天的分享就到这里了。希望能通过这篇文章，让大家弄明白在 Beego 里怎么正确解决配置文件出错的问题，这样以后遇到类似情况就不会抓耳挠腮啦！如果你还有什么疑问或者更好的方法，欢迎随时跟我交流。我们一起进步，一起成为更优秀的开发者！记住，编程不仅仅是解决问题，更是一种艺术。愿你在编程的道路上越走越远，越走越宽广！

2025-04-13 15:33:12

桃李春风一杯酒

转载文章

[转载]做了几年程序员，某天居然发现自己没学过数据结构。。。

...的构造经验表明，系统实现的困难程度和系统构造的质量都严重的依赖于是否选择了最优的数据结构。许多时候，确定了数据结构后，算法就容易得到了。有些时候事情也会反过来，我们根据特定算法来选择数据结构与之适应。不论哪种情况，选择合适的数据结构都是非常重要的。选择了数据结构，算法也随之确定，是数据而不是算法是系统构造的关键因素。这种洞见导致了许多种软件设计方法和程序设计语言的出现，面向对象的程序设计语言就是其中之一。也就是说，选定数据结构往往是解决问题的核心，比如我们做一道算法题，往往就要先确定数据结构，再根据这个数据结构去思考怎么解题。如果没有数据结构的基础知识，也就没有谈算法的意义了，很多时候即使你会使用一些封装好的编程api，但你却不知道其背后的实现原理，比如hashmap，linkedlist这些Java里的集合类，实际上都是JDK封装好的基础数据结构。如何学习数据结构第一次接触我第一次接触数据结构这门课还是4年前，那这时候我在准备考研，专业课考的就是数据结构与算法，作为一个非科班的小白，对这个东西可以说是一窍不通。这个时候的我只有一点点c语言的基础，基本上可以忽略不计，所以小白同学也可以按照这个思路进行学习。数据结构基本上是考研的必考科目，所以我一开始使用的是考研的复习书籍，《天勤数据结构》和《王道数据结构》这两个家的书都是专门为计算机考研服务的，可以直接百度，这两本书对于我这种小白来说居然都是可以看懂的，所以，用来入门也是ok的。入门学习阶段最早的时候我并没有直接看书，而是先打算先看视频，因为视频更好理解呀，找视频的办法就是百度，于是当时找到的最好资源就是《郝斌的数据结构》这个视频应该是很早之前录制的了，但是对于小白来说是够用的，特别基础，讲的很仔细。从最开始的数组、线性表，再讲到栈和队列，以及后面更复杂的二叉树、图、哈希表，大概有几十个视频，那个时候正值暑假，我按照每天一个视频的进度看完了，看的时候还得时不时地实践一下，更有助于理解。看完了这个系列的视频之后，我又转战开始啃书了，视频里讲的都是数据结构的基础，而书上除了基础之外，还有一些算法题目，比如你学完了线性表和链表之后，书上就会有相关的算法题，比如数组的元素置换，链表的逆置等等，这些在日后看来很容易的题目，当时把我难哭了。好在大部分题目是有讲解的，看完讲解之后还能安抚一下我受伤的心灵。记住这本书，我在考研之前翻了至少有三四遍。强化学习阶段完成了第一波视频+书籍的学习之后，我们应该已经对数据结构有了初步的了解了，对一些简单的数据结构算法也应该有所了解了，比如栈的入栈和出栈，队列的进队和出队，二叉树的先序遍历和后续遍历、层次遍历，图的最短路径算法，深度优先遍历等等。有了一定的基础之后，我们需要对哪方面进行强化学习呢？那就要看你学习数据结构的目的是什么了，比如你学习数据结构是为了能做算法题，那么接下来你应该重点去学习算法方面的知识，后续我们也将有一篇新的文章来讲怎么学习算法，敬请期待。当然，我当时主要是复习考研，所以还是针对专业课的历年真题来复习，像我们的卷子中就考察了很多关于哈希表、最短路径算法、KMP算法、赫夫曼算法以及最短路径算法的应用。对于考卷上的一些知识点，我觉得掌握的并不是很好，于是又买了《王道数据结构》以及一些并没有什么卵用的书回来看，再次强化了基础。并且，由于我们的复试通常会考察一些比较经典的算法问题，所以我又花了很多时间去学习这些算法题，这些题目并非数据结构的基础算法，所以在之前的书和视频中可能找不到答案。于是我又在网上搜到了另一个系列视频《小甲鱼的数据结构视频》里面除了讲解数据结构之外，还讲解了更多经典的算法题，比如八皇后问题，汉诺塔问题，马踏棋盘，旅行商问题等，这些问题对于新手来说真的是很头大的，使用视频学习确实效果更佳。实践阶段纸上得来终觉浅，绝知此事要躬行。众所周知，算法题和数学题一样，需要多加练习，而且考研的时候必须要手写算法，于是我就经常在纸上写（抄）算法，你还别说，就算是抄，多抄几次也有助于理解。很多基础的算法，比如层次遍历，深度优先遍历和广度优先遍历，多写几遍更有助理解，再比如稍微复杂一点的迪杰斯特拉算法，不多写几遍你可真记不住。除了在纸上写之外，更好的办法自然是在电脑上敲了，写Java的使用Java写，写C++ 的用C++ 写，总之用自己擅长的语言实现就好，尴尬的是我当时只会c，所以就只好老老实实地用devc++写简单的c语言程序了。至此，我们也算是学会了数据结构的基础知识了，至少知道每个数据结构的特性，会写常见的数据结构算法，甚至偶尔还能掏出一个八皇后出来。推荐资源书籍《天勤数据结构》《王道数据结构》如果你要考研的话，这两本书可不要错过严蔚敏《数据结构C语言版》这本书是大学本科计算机专业常用的教科书，年代久远，可以看看，官方也有配套的教学视频《大话数据结构》官方教材大家都懂的，比较不接地气，这本书对于很多新手来说是更适合入门的书籍。《数据结构与算法Java版》如果你是学Java的，想有一本Java语言描述的数据结构书籍，可以试试这本，但是这本书显然比较复杂，不适合入门使用。视频《郝斌数据结构》这个视频上文有提到过，年代比较久远，但是入门足够了。《小甲鱼数据结构与算法》这个视频比较新，更加全面，有很多关于经典算法的教程，作者也入驻了B站，有兴趣也可以到B站看他的视频。总结关于数据结构的学习，我们就讲到这里了，如果还有什么疑问也可以到我公众号里找我探讨，虽然我们提到了算法，但是这里只关注一些基础的数据结构算法，后续会有关于“怎么学算法“的文章推出，敬请期待。本篇文章为转载内容。原文链接：https://blog.csdn.net/a724888/article/details/104586757。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-12 23:35:52

135

转载

转载文章

[转载]练习：《斗鱼视频》m3u8流视频采集下载+思路+Python

...输出； Python实现不要开启线程池，因为会有一些问题 app.py config 中可以配置 import requestsimport reimport jsonimport timeimport pymongoimport psutilfrom hashlib import md5from moviepy.editor import from multiprocessing import Pool基本配置config = {'UID':'gKpdxKRWXwaW',用户ID'CID':104,栏目ID'TYPE':1, 1=>按用户id采集列表，2=>按栏目ID采集列表'TIME_START':1,起始时间'TIME_ENT':500,结束时间'PAGE_START':1,起始页'PAGE_END':10,结束页'TIME_GE':0,每个下载间隔时间'POOL':False,是否开启线程池'CHECKID':True, True 过滤已经下载过的视频 False 不过滤'FILE_PATH':'F:/ceshi/',下载目录，【会自动创建文件夹】'TS_PATH':'F:/ceshi/download/',缓存文件目录，【会自动创建文件夹】'DB_URL':'localhost',数据库地址'DB_NAME':'douyu',数据库名称''DB_TABLE':'douyu'数据库表}MongoDB初始化client = pymongo.MongoClient(config['DB_URL'])mango_db = client[config['DB_NAME']]MongoDB存储def save_to_mango(result):if mango_db[config['DB_TABLE']].insert_one({'vid':result}):print('成功存储到MangoDB')return Truereturn FalseMongoDB验证重复def check_to_mongo(vid):count = mango_db[config['DB_TABLE']].find({'vid':vid}).count()if count==0:return Falsereturn True删除文件def del_file(page):if os.path.exists(page): 删除文件，可使用以下两种方法。os.remove(page) os.unlink(my_file)else:print('no such file:%s' % page)循环列表删除文件def loop_del_file(arr):for item in arr:del_file(item)请求器def get_content_requests(url):headers = {}headers['user-agent']='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'headers['cookie'] = 'dy_did=07f83a57d1d2e22942e0883200001501; acf_did=07f83a57d1d2e22942e0883200001501; Hm_lvt_e99aee90ec1b2106afe7ec3b199020a7=1556514266,1557050422,1557208315; acf_auth=; acf_auth_wl=; acf_uid=; acf_nickname=; acf_username=; acf_own_room=; acf_groupid=; acf_notification=; acf_phonestatus=; _dys_lastPageCode=page_video,page_video; Hm_lpvt_e99aee90ec1b2106afe7ec3b199020a7=1557209469; _dys_refer_action_code=click_author_video_cate2'try:req_content = requests.get(url,headers = headers)if req_content.status_code == 200:return req_contentprint('请求失败：',url)return Noneexcept:print('请求失败：', url)return None把时间换算成秒def str_to_int(time):try:time_array = time.split(':')time_int = (int(time_array[0])60)+int(time_array[1])return time_intexcept:print('~~~~~计算视频时间失败~~~~~')return None提取需要采集的数据def get_list(html,type = 1):data = []try:list_json = json.loads(str(html))for om in list_json['data']['list']:gtime = str_to_int(om['video_str_duration'])if gtime > config['TIME_START'] and gtime < config['TIME_ENT']:if type == 2:data.append({'title': om['title'], 'vid': om['url'].split('show/')[1]})else:data.append({'title': om['title'], 'vid': om['hash_id']})return dataexcept:print('~~~~~数据提取失败~~~~~')return None解析playlist.m3u8def get_ts_list(m3u8):data = []try:html_m3u8_json = json.loads(m3u8)m3u8_text = get_content_requests(html_m3u8_json['data']['video_url'])m3u8_vurl =html_m3u8_json['data']['video_url'].split('playlist.m3u8?')[0]if m3u8_text:get_text = re.findall(',\n(.?).ts(.?)\n',m3u8_text.text,re.S)for item in get_text:data.append(m3u8_vurl+item[0]+'.ts'+item[1])return datareturn Noneexcept:print('~~~~~解析playlist.m3u8失败~~~~~')return None 杀死moviepy产生的特定进程def killProcess(): 处理python程序在运行中出现的异常和错误try: pids方法查看系统全部进程pids = psutil.pids()for pid in pids: Process方法查看单个进程p = psutil.Process(pid) print('pid-%s,pname-%s' % (pid, p.name())) 进程名if p.name() == 'ffmpeg-win64-v4.1.exe': 关闭任务 /f是强制执行，/im对应程序名cmd = 'taskkill /f /im ffmpeg-win64-v4.1.exe 2>nul 1>null' python调用Shell脚本执行cmd命令os.system(cmd)except:pass下载.ts文件def download_ts(m3u8_list,name):try:if not os.path.exists(config['FILE_PATH']):os.makedirs(config['FILE_PATH'])if not os.path.exists(config['TS_PATH']):os.makedirs(config['TS_PATH'])if os.path.exists(config['FILE_PATH']+name+'.mp4'):name = name+'_'+str(int(time.time()))print('开始下载：',name)L = []R = []for p in m3u8_list:ts_find = get_content_requests(p)file_ts = '{0}{1}.ts'.format(config['TS_PATH'],md5(ts_find.content).hexdigest())with open(file_ts,'wb') as f:f.write(ts_find.content)R.append(file_ts)hebing = VideoFileClip(file_ts)L.append(hebing)killProcess()print('下载完成：',file_ts)mp4file = '{0}{1}.mp4'.format(config['FILE_PATH'],name)final_clip = concatenate_videoclips(L)final_clip.to_videofile(mp4file, fps=24, remove_temp=True)killProcess()loop_del_file(R)print('\n下载完成：',name)print('')return Trueexcept:print('~~~~~合成.ts文件失败~~~~~')return None下载视频列表def list_get_kong(list_json):for item in list_json:y = Trueif config['CHECKID']:if check_to_mongo(item['vid']):print('~~~~~检测到重复项~~~~~')y = Falseif y:get_show_html = get_content_requests('https://vmobile.douyu.com/video/getInfo?vid=' + item['vid'])if get_show_html:m3u8_list = get_ts_list(get_show_html.text)if m3u8_list:download = download_ts(m3u8_list, item['title'])if download: save_to_mango(item['vid'])time.sleep(config['TIME_GE'])控制器def main(page):if config['TYPE']==1:print('~~~~~按用户ID采集~~~~~')listurl = 'https://v.douyu.com/video/author/getAuthorVideoListByNew?up_id={0}&cate2_id=0&limit=30&page={1}'.format(config['UID'],page)get_list_html = get_content_requests(listurl)if get_list_html:list_json = get_list(get_list_html.text,1)if list_json:list_get_kong(list_json)else:print('~~~~~按列表ID采集~~~~~')listurl = 'https://v.douyu.com/video/video/listData?page={1}&cate2Id={0}&action=new'.format(config['CID'],page)get_list_html = get_content_requests(listurl)if get_list_html:list_json = get_list(get_list_html.text,2)if list_json:list_get_kong(list_json)初始化if __name__=='__main__':if config['POOL']:groups = [x for x in range(config['PAGE_START'],config['PAGE_END']+1)]pool = Pool()pool.map(main, groups)else:for item in range(config['PAGE_START'],config['PAGE_END']+1):main(item)print('~~~~~已经完成【所有操作】~~~~~') 总结：众所周知，BiliBili是一个学习的网站！本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_35875470/article/details/89857445。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-12-18 11:34:00

120

转载

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...文章的链接 java实现网络爬虫：https://www.cnblogs.com/1996swg/p/7355577.html Jsoup教程：https://www.jianshu.com/p/fd5caaaa950d 接下来，我通过Jsoup来实现爬取彼岸桌面里面的图片进行爬虫学习！！！我用的开发工具是IDEA，jdk是1.7版本，项目结构大致如下所示：一、页面分析首先来分析一下彼岸桌面的网页的结构：我们第一个看到的是网站的域名为http://www.netbian.com/，它有如上所示的分类，我们尝试着点开一些分类去看一下他的链接。通过点击每个分类，发现不同的分类下，地址栏显示为域名后面拼接这对应分类的拼音，但在分类为王者荣耀之后的拼接的确是“s/分类拼音”。这样我们可以创建一个枚举类，将所有分类集中管理。在common包下创建一个Kind枚举类： package com.asahi.common;/ 分类的枚举/public enum Kind {RILI("rili"), DONGMAN("dongman"), FENGJING("fengjing"), MEINV("meinv"), YOUXI("youxi"), YINGSHI("yingshi"),DONGTAI("dongtai"), WEIMEI("weimei"), SHEJI("sheji"), KEAI("keai"), QICHE("qiche"), HUAHUI("huahui"),DONGWU("dongwu"), JIERI("jieri"), RENWU("renwu"), MEISHI("meishi"), SHUIGUO("shuiguo"), JIANZHU("jianzhu"),TIYU("tiyu"), JUNSHI("junshi"), FEIZHULIU("feizhuliu"), QITA("qita"), WANGZHERONGYAO("s/wangzherongyao"), HUYAN("s/huyan"), LOL("s/lol");String kind;Kind(String kind) {this.kind = kind;}public static boolean contains(String test) {for (Kind c : Kind.values()) {if (c.kind.equals(test)) {return true;} }return false;} } 这里我添加了一个比较的方法供之后判断输入的分类名是否包含在这些分类里面。接下来我们在分析分类面的展示情况，以美女分类页面为例(●´∀｀●)，最下边有分页，如果只获取这个页面的图片并不能获取所有美女图，我们还需要点击每一个分页，从分页中获取所有的图片。通过分析发现，第一页的链接是在原有链接基础上拼接“/index.htm”，从第二页之后拼接的是“/index_页号.htm”。这样我们只需要获取总页数在依次遍历拼接就可以了，现在的问题是如何获取总页数，我一开始的想法是获取分页中“共167页”这个标签后再只保留数字就可以个，但发现运行后获取不到该元素节点，经过排查了解到这个标签是通过js生成的，于是我转换了思路，通过获取最后一个页号来得到一共分了多少页 Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();Elements els = root_doc.select("main .page a");//这里els.eq(els.size() - 2的原因是后边确定按钮用的是a标签要去掉，再去掉一个“下一页”标签Integer page = Integer.parseInt(els.eq(els.size() - 2).text()); 分类页中图片所在的标签结构为：分类页面下的图片不是我们想要的，我们想要的是点击进去详细页的高清大图，所以需要获取a标签的链接，再从这个链接中获取真正想要的图片。详细页中图片所在的标签结构为：二、代码实现到这里分类页分析的差不多了，我们通过代码来进行获取图片。首先导入Jsoup的jar包：jsoup-1.12.1.jar，如果采用Maven请导入下边的依赖。 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version></dependency> 在utils创建JsoupPic类，并添加getPic方法，代码如下： public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");//获取所有图片的链接System.out.println(elements1);} }} 在分类页中有一个隐藏的问题图片：正常的图片链接都是以“/”开头，以“.htm”结尾，而每个分类下的第三张图片的链接都是“http://pic.netbian.com/”，如果不过滤的话会报如下错误：所以这里必须要判断一下: Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");//判断是否是以“/”开头if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");System.out.println(elements1);} } 到这里，页面就已经分析好了，问题基本上已经解决了，接下来我们需要将图片存到我们的系统里，这里我将图片保存到我的电脑桌面上，并按照分类来存储图片。首先是要获取桌面路径，在utils包下创建Download类，添加getDesktop方法，代码如下： public static File getDesktop(){FileSystemView fsv = FileSystemView.getFileSystemView();File path=fsv.getHomeDirectory(); return path;} 接着我们再该类中添加下载图片的方法： //urlPath为网络图片的路径，savePath为要保存的本地路径（这里指定为桌面下的images文件夹）public static void download(String urlPath,String savePath) throws Exception {// 构造URLURL url = new URL(urlPath);// 打开连接URLConnection con = url.openConnection();//设置请求超时为5scon.setConnectTimeout(51000);// 输入流InputStream is = con.getInputStream();// 1K的数据缓冲byte[] bs = new byte[1024];// 读取到的数据长度int len;// 输出的文件流File sf=new File(savePath);int randomNo=(int)(Math.random()1000000);String filename=urlPath.substring(urlPath.lastIndexOf("/")+1,urlPath.length());//获取服务器上图片的名称filename=new java.text.SimpleDateFormat("yyyy-MM-dd-HH-mm-ss").format(new Date())+randomNo+filename;//时间+随机数防止重复OutputStream os = new FileOutputStream(sf.getPath()+"\\"+filename);// 开始读取while ((len = is.read(bs)) != -1) {os.write(bs, 0, len);}// 完毕，关闭所有链接os.close();is.close();} 写好后，我们再完善一下JsouPic中的getPic方法。 public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}File desktop = Download.getDesktop();Download.checkPath(desktop.getPath() + "\\images\\" + kind);//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");Download.download(elements1.attr("src"), desktop.getPath() + "\\images\\" + kind);} }} } 在Download类中，我添加了checkPath方法，用于判断目录是否存在，不存在就创建一个。 public static void checkPath(String savePath) throws Exception {File file = new File(savePath);if (!file.exists()){file.mkdirs();} } 最后在mainapp包内创建PullPic类，并添加主方法。 package com.asahi.mainapp;import com.asahi.common.Kind;import com.asahi.common.PrintLog;import com.asahi.utils.JsoupPic;import java.util.Scanner;public class PullPic {public static void main(String[] args) throws Exception {new PullPic().downloadPic();}public void downloadPic() throws Exception {System.out.println("启动程序>>\n请输入所爬取的分类：");Scanner scanner = new Scanner(System.in);String kind = scanner.next();while(!Kind.contains(kind)){System.out.println("分类不存在，请重新输入：");kind = scanner.next();}System.out.println("分类输入正确！");System.out.println("开始下载>>");JsoupPic.getPic(kind);} } 三、成果展示最终的运行结果如下：最终的代码已上传到我的github中，点击“我的github”进行查看。在学习Java爬虫的过程中，我收获了很多，一开始做的时候确实遇到了很多困难，这次写的获取图片也是最基础的，还可以继续深入。本来我想写一个通过多线程来获取图片来着，也尝试着去写了一下，越写越跑偏，暂时先放着不处理吧，等以后有时间再来弄，我想问题应该不大，只是考虑的东西有很多。希望大家多多指点不足，有哪些需要改进的地方，我也好多学习学习๑乛◡乛๑。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_39693281/article/details/108463868。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-12 10:26:04

131

转载

转载文章

[转载]消消乐测试

...态画面构建与动态效果实现之后，我们可进一步探讨当前HTML5游戏开发领域的最新技术和趋势。随着Web技术的快速发展，Canvas和WebGL等现代API使得网页游戏的性能表现与视觉体验得到显著提升。近期，Mozilla Hacks发布了一篇题为《利用WebAssembly和WebGPU打造高性能网页游戏》的文章，详细介绍了如何借助WebAssembly将C++等编译成可在浏览器中高效运行的代码，从而大幅提升游戏性能。同时，WebGPU作为下一代浏览器图形接口，为开发者提供了低级别的硬件访问权限，可以创建更复杂的3D图形和实时渲染效果，对于消除类游戏这类对响应速度有较高要求的游戏来说具有重大意义。此外，游戏设计中的AI算法也是值得关注的方向。例如，运用深度学习和强化学习技术优化消除类游戏的智能提示系统，能有效提高玩家体验并延长游戏生命周期。一篇发表在“自然”杂志子刊上的论文就研究了AI在连连看等消除类游戏中的应用，展示了通过机器学习预测最佳消除路径的可能性。总的来说，在继续深入实践HTML、CSS、JavaScript基础开发的同时，紧跟Web技术前沿进展，结合先进的编程语言、图形处理技术和AI算法，将有助于开发者打造出更为丰富、流畅且富有挑战性的消除类游戏产品，不断满足日益增长的用户体验需求。

2023-06-08 15:26:34

517

转载

Ruby

Ruby并发编程踩坑指南：线程共享状态死锁与线程池异常处理

...程（Thread）来实现这一点。比如说啊，你正在倒腾一堆数据的时候，完全可以把它切成一小块一小块的，然后让每个线程去负责一块，这样一来，效率直接拉满，干活儿的速度蹭蹭往上涨！但是，问题来了：并发编程虽然强大，但它并不是万能药。哎呀，经常会有这样的情况呢——自个儿辛辛苦苦改代码，还以为是在让程序变得更好，结果一不小心，又给它整出了新麻烦，真是“好心办坏事”的典型啊！接下来，我们来看几个具体的例子。 --- 3. 示例一共享状态的混乱场景描述：假设你正在开发一个电商网站，需要统计用户的购买记录。你琢磨着干脆让多线程上阵，给这个任务提速，于是打算让每个线程各管一拨用户的活儿，分头行动效率肯定更高！看起来很合理对不对？问题出现：问题是，当你让多个线程共享同一个变量（比如一个全局计数器），事情就开始变得不可控了。Ruby 的线程可不是完全分开的，这就有点像几个人共用一个记事本，大家都能随便写东西上去。结果就是，这本子可能一会儿被这个写点，一会儿被那个划掉，最后你都不知道上面到底写了啥，数据就乱套了。代码示例： ruby 错误的代码 counter = 0 threads = [] 5.times do |i| threads << Thread.new do 100_000.times { counter += 1 } end end threads.each(&:join) puts "Counter: {counter}" 分析：这段代码看起来没什么问题，每个线程都只是简单地增加计数器。但实际情况却是，输出的结果经常不是期望的500_000，而是各种奇怪的数字。这就好比说，counter += 1 其实不是一步到位的简单操作，它得先“读一下当前的值”，再“给这个值加1”，最后再“把新的值存回去”。问题是，在这中间的每一个小动作，都可能被别的线程突然插队过来捣乱！解决方案：为了避免这种混乱，我们需要使用线程安全的操作，比如Mutex（互斥锁）。Mutex可以确保每次只有一个线程能够修改某个变量。修正后的代码： ruby 正确的代码 require 'thread' counter = 0 mutex = Mutex.new threads = [] 5.times do |i| threads << Thread.new do 100_000.times do mutex.synchronize { counter += 1 } end end end threads.each(&:join) puts "Counter: {counter}" 总结：这一段代码告诉我们，共享状态是一个雷区。如果你非要用共享变量，记得给它加上锁，不然后果不堪设想。 --- 4. 示例二死锁的诅咒场景描述：有时候，我们会遇到更复杂的情况，比如两个线程互相等待对方释放资源。哎呀，这种情况就叫“死锁”，简直就像两只小猫抢一个玩具，谁都不肯让步，结果大家都卡在那里动弹不得，程序也就这样傻乎乎地停在原地，啥也干不了啦！问题出现：想象一下，你有两个线程，A线程需要获取锁X，B线程需要获取锁Y。想象一下，A和B两个人都想打开两把锁——A拿到了锁X，B拿到了锁Y。然后呢，A心想：“我得等B先把他的锁Y打开，我才能继续。”而B也在想：“等A先把她的锁X打开，我才能接着弄。”结果俩人就这么干等着，谁也不肯先放手，最后就成了“死锁”——就像两个人在拔河，谁都不松手，僵在那里啥也干不成。代码示例： ruby 死锁的代码 lock_a = Mutex.new lock_b = Mutex.new thread_a = Thread.new do lock_a.synchronize do puts "Thread A acquired lock A" sleep(1) lock_b.synchronize do puts "Thread A acquired lock B" end end end thread_b = Thread.new do lock_b.synchronize do puts "Thread B acquired lock B" sleep(1) lock_a.synchronize do puts "Thread B acquired lock A" end end end thread_a.join thread_b.join 分析：在这段代码中，两个线程都在尝试获取两个不同的锁，但由于它们的顺序不同，最终导致了死锁。运行这段代码时，你会发现程序卡住了，没有任何输出。解决方案：为了避免死锁，我们需要遵循“总是按照相同的顺序获取锁”的原则。比如，在上面的例子中，我们可以强制让所有线程都先获取锁A，再获取锁B。修正后的代码： ruby 避免死锁的代码 lock_a = Mutex.new lock_b = Mutex.new thread_a = Thread.new do [lock_a, lock_b].each do |lock| lock.synchronize do puts "Thread A acquired lock {lock.object_id}" end end end thread_b = Thread.new do [lock_a, lock_b].each do |lock| lock.synchronize do puts "Thread B acquired lock {lock.object_id}" end end end thread_a.join thread_b.join 总结：死锁就像一只隐形的手，随时可能掐住你的喉咙。记住，保持一致的锁顺序是关键！ --- 5. 示例三不恰当的线程池场景描述：线程池是一种管理线程的方式，它可以复用线程，减少频繁创建和销毁线程的开销。但在实际使用中，很多人会因为配置不当而导致性能下降甚至崩溃。问题出现：假设你创建了一个线程池，但线程池的大小设置得不合理。哎呀，这就好比做饭时锅不够大，菜都堆在那儿煮不熟，菜要是放太多呢，锅又会冒烟、潽得到处都是，最后饭也没做好。线程池也一样，太小了任务堆成山，程序半天没反应；太大了吧，电脑资源直接被榨干，啥事也干不成，还得收拾烂摊子！代码示例： ruby 线程池的错误用法 require 'thread' pool = Concurrent::FixedThreadPool.new(2) 20.times do |i| pool.post do sleep(1) puts "Task {i} completed" end end pool.shutdown pool.wait_for_termination 分析：在这个例子中，线程池的大小被设置为2，但有20个任务需要执行。哎呀，这就好比你请了个帮手，但他一次只能干两件事，其他事儿就得排队等着，得等前面那两件事儿干完了，才能轮到下一件呢！这种情况下，整个程序的执行时间会显著延长。解决方案：为了优化线程池的性能，我们需要根据系统的负载情况动态调整线程池的大小。可以使用Concurrent::CachedThreadPool，它会根据当前的任务数量自动调整线程的数量。修正后的代码： ruby 使用缓存线程池 require 'concurrent' pool = Concurrent::CachedThreadPool.new 20.times do |i| pool.post do sleep(1) puts "Task {i} completed" end end sleep(10) 给线程池足够的时间完成任务 pool.shutdown pool.wait_for_termination 总结：线程池就像一把双刃剑，用得好可以提升效率，用不好则会成为负担。记住，线程池的大小要根据实际情况灵活调整。 --- 6. 示例四忽略异常的代价场景描述：并发编程的一个常见问题是，线程中的异常不容易被察觉。如果你没有妥善处理这些异常，程序可能会因为一个小错误而崩溃。问题出现：假设你有一个线程在执行某个操作时抛出了异常，但你没有捕获它，那么整个线程池可能会因此停止工作。代码示例： ruby 忽略异常的代码 threads = [] 5.times do |i| threads << Thread.new do raise "Error in thread {i}" if i == 2 puts "Thread {i} completed" end end threads.each(&:join) 分析：在这个例子中，当i == 2时，线程会抛出一个异常。哎呀糟糕！因为我们没抓住这个异常，程序直接就挂掉了，别的线程啥的也别想再跑了。解决方案：为了防止这种情况发生，我们应该在每个线程中添加异常捕获机制。比如，可以用begin-rescue-end结构来捕获异常并进行处理。修正后的代码： ruby 捕获异常的代码 threads = [] 5.times do |i| threads << Thread.new do begin raise "Error in thread {i}" if i == 2 puts "Thread {i} completed" rescue => e puts "Thread {i} encountered an error: {e.message}" end end end threads.each(&:join) 总结：异常就像隐藏在暗处的敌人，稍不注意就会让你措手不及。学会捕获和处理异常，是成为一个优秀的并发编程者的关键。 --- 7. 结语好了，今天的分享就到这里啦！并发编程确实是一项强大的技能，但也需要谨慎对待。大家看看今天这个例子，是不是觉得有点隐患啊？希望能引起大家的注意，也学着怎么避开这些坑，别踩雷了！最后，我想说的是，编程是一门艺术，也是一场冒险。每次遇到新挑战，我都觉得像打开一个神秘的盲盒，既兴奋又紧张。不过呢，光有好奇心还不够，还得有点儿耐心，就像种花一样，得一点点浇水施肥，不能急着看结果。相信只要我们不断学习、不断反思，就一定能写出更加优雅、高效的代码！祝大家编码愉快！

2025-04-25 16:14:17

凌波微步

转载文章

[转载]大数据——海量数据处理的基本方法总结

...中分而治之算法的具体实现方法之一。问题1 上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。解决思路：红黑树 + 堆排序如果是上千万或上亿的int数据，现在的机器4G内存可以能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计重复次数。然后取出前N个出现次数最多的数据，可以用包含N个元素的最小堆找出频率最大的N个数据。问题2 1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？解决思路：trie树。这题用trie树比较合适，hash_map也应该能行。问题3 一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。解决思路： trie树 + 堆排序这题是考虑时间效率。 1. 用trie树统计每个词出现的次数，时间复杂度是O(nlen)（len表示单词的平准长度）。 2. 然后找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(nlg10)。总的时间复杂度，是O(nle)与O(nlg10)中较大的哪一个。问题4 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。解决思想： trie树 + 堆排序采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3 BitMap或者Bloom Filter 3.1 BitMap BitMap说白了很easy，就是通过bit位为1或0来标识某个状态存不存在。可进行数据的快速查找，判重，删除，一般来说适合的处理数据范围小于82^32。否则内存超过4G，内存资源消耗有点多。问题1 已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。解决思路： bitmap 8位最多99 999 999，需要100M个bit位，不到12M的内存空间。我们把0-99 999 999的每个数字映射到一个Bit位上，所以只需要99M个Bit==12MBytes，这样，就用了小小的12M左右的内存表示了所有的8位数的电话问题2 2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。解决思路：2bit map 或者两个bitmap。将bit-map扩展一下，用2bit表示一个数即可，00表示未出现，01表示出现一次，10表示出现2次及以上，11可以暂时不用。在遍历这些数的时候，如果对应位置的值是00，则将其置为01；如果是01，将其置为10；如果是10，则保持不变。需要内存大小是2^32/82=1G内存。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map，都是一样的道理。 3.2 Bloom filter Bloom filter可以看做是对bit-map的扩展。参考july大神csdn文章 Bloom Filter 详解 4 Hadoop+MapReduce 参考引用july大神 csdn文章 MapReduce的初步理解 Hadoop框架与MapReduce模式转载请注明本文地址：大数据——海量数据处理的基本方法总结本篇文章为转载内容。原文链接：https://blog.csdn.net/hong2511/article/details/80842704。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-03-01 12:40:17

542

转载

转载文章

[转载]java开发操作系统：一个程序向另一个程序伸出的咸猪手

...看这个问题到底是怎么实现的。我们先在内核C语言部分做简单修改，把原来的cmd_hlt函数改为cmd_execute_program: nt show_pos = 179;void cmd_execute_program(char file) {io_cli();struct Buffer appBuffer = (struct Buffer)memman_alloc(memman, 16);struct TASK task = task_now();task->pTaskBuffer = appBuffer;file_loadfile(file, appBuffer);struct SEGMENT_DESCRIPTOR gdt =(struct SEGMENT_DESCRIPTOR )get_addr_gdt();//select is multiply of 8, divided by 8 get the original valueint code_seg = 21 + (task->sel - first_task_cons_selector) / 8;//change hereint mem_seg = 30 + (task->sel - first_task_cons_selector) / 8;//22;char p = intToHexStr(mem_seg);showString(shtctl, sht_back, 0, show_pos, COL8_FFFFFF, p); show_pos += 16;set_segmdesc(gdt + code_seg, 0xfffff, (int) appBuffer->pBuffer, 0x409a + 0x60);//new memory char q = (char ) memman_alloc_4k(memman, 641024);appBuffer->pDataSeg = (unsigned char)q;set_segmdesc(gdt + mem_seg, 64 1024 - 1,(int) q ,0x4092 + 0x60);task->tss.esp0 = 0;io_sti();start_app(0, code_seg8,641024, mem_seg8, &(task->tss.esp0));io_cli();memman_free_4k(memman,(unsigned int) appBuffer->pBuffer, appBuffer->length);memman_free_4k(memman, (unsigned int) q, 64 1024);memman_free(memman,(unsigned int)appBuffer, 16);task->pTaskBuffer = 0;io_sti();}void console_task(struct SHEET sheet, int memtotal) {....for(;;) { ....else if (i == KEY_RETURN) {....} else if (strcmp(cmdline, "hlt") == 1) {//change herecmd_execute_program("abc.exe");}....}...} 原来的cmd_hlt函数默认加载并执行软盘中的abc.exe程序，现在我们把cmd_hlt改名为cmd_execute_program，并且函数需要传入一个字符串，用于表明要加载执行的程序名字。在该函数的代码实现中，我们使用showString函数把被加载执行的用户进程数据段所对应的全局描述符号给显示到桌面上，上面代码执行后情况如下：我们看到，在控制台中执行hlt命令后，内核加载了用户进程，同时在控制台下方输出了一个字符串，也就是0x1E,这个数值对应的就是当前运行用户进程其数据段对应的全局描述符号。一旦有这个信息之后，另一个进程就可以有机可乘了。接着我们在本地目录创建一个新文件叫crack.c,其内容如下： void main() {char p = (char)0x123;p[0] = 'c';p[1] = 'r';p[2] = 'a';p[3] = 'c';p[4] = 'k';p[5] = 0;} 它的目的简单，就是针对内存地址0x123处写入字符串”crack”.接着我们修改一下makefile，使得内核编译时，能把crack.c编译成二进制文件： CFLAGS=-fno-stack-protectorckernel : ckernel_u.asm app_u.asm crack_u.asm cp ckernel_u.asm win_sheet.h win_sheet.c mem_util.h mem_util.c write_vga_desktop.c timer.c timer.h global_define.h global_define.c multi_task.c multi_task.h app_u.asm app.c crack_u.asm crack.c makefile '/media/psf/Home/Documents/操作系统/文档/19/OS-kernel-win-sheet/'ckernel_u.asm : ckernel.o....crack_u.asm : crack.o./objconv -fnasm crack.o crack_u.asmcrack.o : crack.cgcc -m32 -fno-stack-protector -fno-asynchronous-unwind-tables -s -c -o crack.o crack.c 然后我们在本地目录下，把api_call.asm拷贝一份，并命名为crack_call.asm,后者内容与前者完全相同，只不过稍微有那么一点点改变，例如： BITS 32mov AX, 30 8mov DS, axcall mainmov edx, 4 ;返回内核int 02Dh.... 这里需要注意，语句： mov AX, 30 8mov DS, ax 其中30对应的就是前面显示的0x1E，这两句汇编的作用是，把程序crack的数据段设置成下标为30的全局描述符所指向的内存段一致。这就意味着crack进程所使用的数据段就跟hlt启动的进程所使用的数据段一致了！于是在crack.c中，它对内存地址为0x123的地方写入字符串”crack”,那就意味着对hlt加载用户进程的内存空间写入对应字符串！完成上面代码后，我们在java项目中，增加代码，一是用来编译crack进程，而是把crack代码写入虚拟磁盘。在OperatingSystem.java中，将代码做如下添加： public void makeFllopy() {writeFileToFloppy("kernel.bat", false, 1, 1);....header = new FileHeader();header.setFileName("crack");header.setFileExt("exe");file = new File("crack.bat");in = null;try {in = new FileInputStream(file);long len = file.length();int count = 0;while (count < file.length()) {bbuf[count] = (byte) in.read();count++;}in.close();}catch(IOException e) {e.printStackTrace();return;}header.setFileContent(bbuf);fileSys.addHeader(header);....}public static void main(String[] args) {CKernelAsmPrecessor kernelPrecessor = new CKernelAsmPrecessor();kernelPrecessor.process();kernelPrecessor.createKernelBinary();CKernelAsmPrecessor appPrecessor = new CKernelAsmPrecessor("hlt.bat", "app_u.asm", "app.asm", "api_call.asm");appPrecessor.process();appPrecessor.createKernelBinary();CKernelAsmPrecessor crackPrecessor = new CKernelAsmPrecessor("crack.bat", "crack_u.asm", "crack.asm", "crack_call.asm");crackPrecessor.process();crackPrecessor.createKernelBinary();OperatingSystem op = new OperatingSystem("boot.bat");op.makeFllopy();} 在main函数中，我们把crack.c及其附属汇编文件结合在一起，编译成二进制文件crack.bat，在makeFllopy中，我们把编译后的crack.bat二进制数据读入，并把它写入到虚拟磁盘中，当系统运行起来后，可以把crack.bat二进制内容作为进程加载执行。完成上面代码后，回到内核的C语言部分，也就是write_vga_desktop.c做一些修改，在kernel_api函数中，修改如下： int kernel_api(int edi, int esi, int ebp, int esp,int ebx, int edx, int ecx, int eax) {....else if (edx == 14) {sheet_free(shtctl, (struct SHEET)ebx);//change herecons_putstr((char)(task->pTaskBuffer->pDataSeg + 0x123));}....}void console_task(struct SHEET sheet, int memtotal) {....for(;;) {....else if (i == KEY_RETURN) {....else if (strcmp(cmdline, "crack") == 1) {cmd_execute_program("crack.exe");}....}....} 在kernel_api中，if(edx == 14)对应的api调用是api_closewin，也就是当用户进程关闭窗口时，我们把进程数据偏移0x123处的数据当做字符串打印到控制台窗口上，在console_task控制台进程主函数中，我们增加了对命令crack的响应，当用户在控制台上输入命令”crack”时，将crack代码加载到内核中运行。上面代码完成后，编译内核，然后用虚拟机将内核加载，系统启动后，我们现在一个控制台中输入hlt，先启动用户进程。然后点击”shift + w”,启动另一个控制台窗口，在其中输入crack，运行crack程序：接着把点击tab键，把焦点恢复到窗口task_a，然后用鼠标点击运行hlt命令的窗口，把输入焦点切换到该控制台，然后再次点击tab键，把执行权限提交给运行hlt命令的控制台，此时点击回车，介绍用户进程启动的窗口，结果情况如下：此时我们可以看到，运行hlt命令，执行用户进程的控制台窗口居然输出了字符串”crack”,而这个字符串正是crack.c在执行时，写入地址0x123的字符串。这就意味着一个恶意进程成功修改了另一个进程的内存数据，也相当于一个流氓程序把一只咸猪手伸到其他用户进程的裙底，蹂躏一番后留下了猥琐的证据。那么如何防范恶意进程对其他程序的非法入侵呢，这就得使用CPU提供的LDT机制，也就是局部描述符表，该机制的使用，我们将在下一节详细讲解。更详细的讲解和代码演示调试，请参看视频：更详细的讲解和代码调试演示过程，请参看视频 Linux kernel Hacker, 从零构建自己的内核更多技术信息，包括操作系统，编译器，面试算法，机器学习，人工智能，请关照我的公众号：本篇文章为转载内容。原文链接：https://blog.csdn.net/tyler_download/article/details/78731905。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-14 19:08:07

255

转载

Spark

Spark分布式缓存性能优化遇阻？内存管理与序列化问题及缓存时机调整

...明星选手，性能强大，功能丰富。但即使是这么优秀的框架，有时候也会让我们头疼不已。分布式缓存是Spark的一个重要特性，它的核心目标是减少重复计算，提升任务执行效率。简单来说，就是把一些频繁使用的数据放到内存里，供多个任务共享。听起来是不是很美好？但实际上，我在实际开发过程中遇到了不少麻烦。比如有一次，我正在做一个数据分析项目，需要多次对同一份数据进行操作。我寻思着，这不就是常规操作嘛，直接用Spark的分布式缓存功能得了，这样岂不是能省掉好多重复加载的麻烦？嘿，事情是这样的——我辛辛苦苦搞完了任务，满怀期待地提交上去，结果发现这运行速度简直让人无语，不仅没达到预期的飞快效果，反而比啥缓存都不用的时候还慢！当时我就蒙圈了，心里直嘀咕：“卧槽，这是什么神仙操作？”没办法，只能硬着头皮一点点去查问题，最后才慢慢搞清楚了分布式缓存里到底藏着啥猫腻。二、深入分析为什么缓存反而变慢？经过一番折腾，我发现问题出在以下几个方面： 2.1 数据量太大导致内存不足首先，大家要明白一点，Spark的分布式缓存本质上是将数据存储在集群节点的内存中。要是数据量太大，超出了单个节点能装下的内存容量，那就会把多余的数据写到磁盘上，这个过程叫“磁盘溢写”。但这样一来，任务的速度就会被拖慢，变得特别磨叽。举个例子吧，假设你有一份1GB大小的数据集，而你的集群节点只有512MB的可用内存。你要是想把这份数据缓存起来，Spark会自己挑个序列化的方式给数据“打包”，顺便还能压一压体积。不过呢，就算是这样，还是有可能会出现溢写这种烦人的情况，挡都挡不住。唉，真是没想到啊，本来想靠着缓存省事儿提速呢，结果这操作反倒因为磁盘老是读写（频繁I/O）变得更卡了，简直跟开反向加速器似的！解决办法也很简单——要么增加节点的内存配置，要么减少需要缓存的数据规模。当然，这需要根据实际情况权衡利弊。 2.2 序列化方式的选择不当另一个容易被忽视的问题是序列化方式的选择。Spark提供了多种序列化机制，包括JavaSerializer、KryoSerializer等。不同的序列化方式会影响数据的大小以及读取效率。我曾经试过直接使用默认的JavaSerializer，结果发现性能非常差。后来改用了KryoSerializer之后，才明显感觉到速度有所提升。话说回来啊，用 KryoSerializer 的时候可别忘了先给所有要序列化的类都注册好，不然程序很可能就“翻车”报错啦！ java import org.apache.spark.serializer.KryoRegistrator; import com.esotericsoftware.kryo.Kryo; public class MyRegistrator implements KryoRegistrator { @Override public void registerClasses(Kryo kryo) { kryo.register(MyClass.class); // 注册其他需要序列化的类... } } 然后在SparkConf中设置： java SparkConf conf = new SparkConf(); conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"); conf.set("spark.kryo.registrator", "MyRegistrator"); 2.3 缓存时机的选择失误还有一个关键点在于缓存的时机。有些人一启动任务就赶紧给数据加上.cache()，觉得这样数据就能一直乖乖待在内存里，不用再费劲去读了。但实际上，这种做法并不总是最优解。比如，在某些情况下，数据可能只会在特定阶段被频繁访问，而在其他阶段则很少用到。要是你提前把这部分数据缓存了，不光白白占用了宝贵的内存空间，搞不好后面真要用缓存的地方还找不到足够的空位呢！因此，合理规划缓存策略非常重要。比如说，在某个任务快开始了，你再随手调用一下.cache()这个方法，这样就能保证数据乖乖地待在内存里，别到时候卡壳啦！三、实践案例如何正确使用分布式缓存？接下来，我想分享几个具体的案例，帮助大家更好地理解和运用分布式缓存。案例1：简单的词频统计假设我们有一个文本文件，里面包含了大量的英文单词。我们的目标是统计每个单词出现的次数。为了提高效率，我们可以先将文件内容缓存起来，然后再进行处理。 scala val textFile = sc.textFile("hdfs://path/to/input.txt") textFile.cache() val wordCounts = textFile.flatMap(_.split(" ")) .map(word => (word, 1)) .reduceByKey(_ + _) wordCounts.collect().foreach(println) 在这个例子中，.cache()方法确保了textFile RDD的内容只被加载一次，并且可以被后续的操作共享。其实嘛，要是没用缓存的话，每次你调用flatMap或者map的时候，都得重新去原始数据里翻一遍，这就跟每次出门都得把家里所有东西再检查一遍似的，纯属给自己找麻烦啊！案例2：多步骤处理流程有时候，一个任务可能会涉及到多个阶段的处理，比如过滤、映射、聚合等等。在这种情况下，合理安排缓存的位置尤为重要。 python from pyspark.sql import SparkSession spark = SparkSession.builder.appName("WordCount").getOrCreate() df = spark.read.text("hdfs://path/to/input.txt") 第一步：将文本拆分为单词 words = df.selectExpr("split(value, ' ') as words").select("words.") 第二步：缓存中间结果 words.cache() 第三步：统计每个单词的出现次数 word_counts = words.groupBy("value").count() word_counts.show() 这里，我们在第一步处理完之后立即调用了.cache()方法，目的是为了保留中间结果，方便后续步骤复用。要是不这么干啊，那每走一步都得把上一步的算一遍，想想就费劲，效率肯定低得让人抓狂。四、总结与展望通过今天的讨论，相信大家对Spark的分布式缓存有了更深刻的认识。虽然它能带来显著的性能提升，但也并非万能药。其实啊，要想把它用得溜、用得爽，就得先搞懂它是怎么工作的，再根据具体的情况去灵活调整。不然的话，它的那些本事可就都浪费啦！未来，随着硬件条件的不断改善以及算法优化的持续推进，相信Spark会在更多领域展现出更加卓越的表现。嘿，咱们做开发的嘛，就得有颗永远好奇的心！就跟追剧似的，新技术一出就得赶紧瞅两眼，说不定哪天就用上了呢。别怕麻烦，多学点东西总没错，说不定哪天就能整出个大招儿来！最后，感谢大家耐心阅读这篇文章。如果你有任何疑问或者想法，欢迎随时交流！让我们一起努力，共同进步吧！

2025-05-02 15:46:14

素颜如水

转载文章

[转载]系统安全以及应用

...h插件被开发出来，可实现命令历史记录加密存储，有效防止恶意攻击者通过查看历史记录获取敏感信息。而在端口扫描防御方面，除了传统的NMAP工具之外，一些实时网络监控与入侵检测系统如Zeek (前Bro)也因其高效识别异常网络活动的能力而备受瞩目。综上所述，随着信息技术的发展和安全威胁的变化，Linux系统的账号安全管理需不断跟进最新研究和技术动态，结合文中所述的基础措施，灵活运用先进的安全技术和管理理念，构建更加稳固的操作系统安全防线。

2023-05-07 23:37:44

转载

Kafka

Kafka命名规范与组织结构剖析及实战演练

...者组的设计理念是为了实现负载均衡和故障恢复。比如说，如果有两个小伙伴在一个小组里，系统就会帮他们自动分配任务（也就是主题的分区），这样大家就不会抢来抢去，重复干同样的活儿啦！而且呢，要是有个消费者挂掉了或者出问题了，其他的消费者就会顶上来，接手它负责的那些分区，接着干活儿，完全不受影响。 --- 3. 组织结构 Kafka的大脑与四肢 3.1 集群（Cluster）：Kafka的心脏 Kafka集群是由多个Broker组成的，Broker是Kafka的核心组件，负责存储和转发消息。一个Broker就是一个节点，多个Broker协同工作，形成一个分布式的系统。 java // 启动Kafka Broker nohup kafka-server-start.sh config/server.properties & Broker的数量决定了系统的容错能力和性能。其实啊，通常咱们都会建议弄三个Broker，为啥呢？就怕万一有个家伙“罢工”了，比如突然挂掉或者出问题，别的还能顶上，整个系统就不耽误干活啦！不过，Broker的数量也不能太多，否则会增加管理和维护的成本。 3.2 Zookeeper：Kafka的大脑 Zookeeper是Kafka的协调器，它负责管理集群的状态和配置。没有Zookeeper，Kafka就无法正常运作。比如说啊，新添了个Broker（也就是那个消息中转站），Zookeeper就会赶紧告诉其他Broker：“嘿，快看看这位新伙伴，更新一下你们的状态吧！”还有呢，要是某个分区的老大换了（Leader切换了），Zookeeper也会在一旁默默记好这笔账，生怕漏掉啥重要信息似的。 java // 启动Zookeeper nohup zookeeper-server-start.sh config/zookeeper.properties & 虽然Zookeeper很重要，但它也有一定的局限性。比如，它可能会成为单点故障，影响整个系统的稳定性。因此，近年来Kafka也在尝试去掉对Zookeeper的依赖，开发了自己的内部协调机制。 3.3 日志（Log）：Kafka的四肢日志是Kafka存储消息的地方，每个分区对应一个日志文件。嘿，这个日志设计可太聪明了！它用的是顺序写入的方法，就像一条直线往前跑，根本不用左顾右盼，写起来那叫一个快，效率直接拉满！ java // 查看日志路径 cat config/server.properties | grep log.dirs 日志的大小可以通过参数log.segment.bytes来控制。默认值是1GB，你可以根据实际情况调整。要是日志文件太大了，查个东西就像在大海捞针一样慢吞吞的；但要是弄得太小吧，又老得换新的日志文件，麻烦得很，还费劲。 --- 4. 实战演练从零搭建一个Kafka环境说了这么多理论，咱们来实际操作一下吧！假设我们要搭建一个简单的Kafka环境，用来收集用户的登录日志。 4.1 安装Kafka和Zookeeper 首先，我们需要安装Kafka和Zookeeper。可以从官网下载最新的二进制包，解压后按照文档配置即可。 bash 下载Kafka wget https://downloads.apache.org/kafka/3.4.0/kafka_2.13-3.4.0.tgz 解压 tar -xzf kafka_2.13-3.4.0.tgz 4.2 创建主题和消费者接下来，我们创建一个名为login_logs的主题，并启动一个消费者来监听消息。 bash 创建主题 bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 3 --topic login_logs 启动消费者 bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic login_logs --from-beginning 4.3 生产消息最后，我们可以编写一个简单的Java程序来生产消息。 java import org.apache.kafka.clients.producer.KafkaProducer; import org.apache.kafka.clients.producer.ProducerRecord; import java.util.Properties; public class KafkaProducerExample { public static void main(String[] args) { Properties props = new Properties(); props.put("bootstrap.servers", "localhost:9092"); props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); KafkaProducer producer = new KafkaProducer<>(props); for (int i = 0; i < 10; i++) { producer.send(new ProducerRecord<>("login_logs", "key" + i, "value" + i)); } producer.close(); } } 这段代码会向login_logs主题发送10条消息，每条消息都有一个唯一的键和值。 --- 5. 总结 Kafka的魅力在于细节好了，到这里咱们的Kafka之旅就告一段落了。通过这篇文章，我希望大家能更好地理解Kafka的命名规范和组织结构。Kafka为啥这么牛？因为它在设计的时候真是把每个小细节都琢磨得特别透。就像给主题起名字吧，分个区啦，还有消费者组怎么配合干活儿，这些地方都能看出人家确实是下了一番功夫的，真不是随便凑合出来的！当然，Kafka的学习之路还有很多内容需要探索，比如监控、调优、安全等等。其实我觉得啊，只要你把命名的规矩弄明白了，东西该怎么放也心里有数了，那你就算是走上正轨啦，成功嘛，它就已经在向你招手啦！加油吧，朋友们！ --- 希望这篇文章对你有所帮助，如果有任何疑问，欢迎随时交流哦！

2025-04-05 15:38:52

彩虹之上

转载文章

[转载]手机端页面自适应解决方案—rem布局进阶版

...高清屏的1像素就不能实现了，如果你必须要实现1像素，那么自行谷歌：css 0.5像素，有N多的解决方案，这里不再赘述。 5.问：有时候字体会不受控制的变大，怎么办？答：在X5新内核Blink中，在排版页面的时候，会主动对字体进行放大，会检测页面中的主字体，当某一块字体在我们的判定规则中，认为字号较小，并且是页面中的主要字体，就会采取主动放大的操作。然而这不是我们想要的，可以采取给最大高度解决解决方案： , :before, :after { max-height: 100000px } 补充：有同学反映，在一些情况下 textarea 标签内的字体大小即便加上上面的方案，字体也会变大，无法控制。此时你需要给 textarea 的 display 设为 table 或者 inline-table 即可恢复正常。（感谢程序媛喵喵对此的补充！2017/7/7） 6.问：我在底部导航用的flex感觉更合适一些，请问这样子混着用可以吗？答：咱们的rem适合写固定尺寸。其余的根据需要换成flex或者百分比。源码示例中就有这三种的综合运用。 7.问：在高清方案下，一个标准的，较为理想的宽度为640的页面效果图应该是怎样的？点击浏览：一个标准的640手机页面设计稿参考（没错，在此方案中，你可以完全按照这张设计稿的尺寸写布局了。就是这么简单！） 8.问：用了这个方案如何使用媒体查询呢？一般来讲，使用了这个方案是没必要用媒体查询了，如果你必须要用，假设你要对 iphone5 （css像素宽度320px, 这里需要取其物理像素，也就是640）宽度下的类名做处理，你可以这样 @media screen and (max-width: 640px) {.yourLayout {width:100%;} } 9.问：可以提供下这个高清方案的源码吗？ 'use strict';/ @param {Boolean} [normal = false] - 默认开启页面压缩以使页面高清; @param {Number} [baseFontSize = 100] - 基础fontSize, 默认100px; @param {Number} [fontscale = 1] - 有的业务希望能放大一定比例的字体;/const win = window;export default win.flex = (normal, baseFontSize, fontscale) => {const _baseFontSize = baseFontSize || 100;const _fontscale = fontscale || 1;const doc = win.document;const ua = navigator.userAgent;const matches = ua.match(/Android[\S\s]+AppleWebkit\/(\d{3})/i);const UCversion = ua.match(/U3\/((\d+|\.){5,})/i);const isUCHd = UCversion && parseInt(UCversion[1].split('.').join(''), 10) >= 80;const isIos = navigator.appVersion.match(/(iphone|ipad|ipod)/gi);let dpr = win.devicePixelRatio || 1;if (!isIos && !(matches && matches[1] > 534) && !isUCHd) {// 如果非iOS, 非Android4.3以上, 非UC内核, 就不执行高清, dpr设为1;dpr = 1;}const scale = normal ? 1 : 1 / dpr;let metaEl = doc.querySelector('meta[name="viewport"]');if (!metaEl) {metaEl = doc.createElement('meta');metaEl.setAttribute('name', 'viewport');doc.head.appendChild(metaEl);}metaEl.setAttribute('content', width=device-width,user-scalable=no,initial-scale=${scale},maximum-scale=${scale},minimum-scale=${scale});doc.documentElement.style.fontSize = normal ? '50px' : ${_baseFontSize / 2 dpr _fontscale}px;}; 10.问：我在使用 rem 布局进阶方案的时候遇到了XXX的问题，如何解决？此方案久经考验，具有普遍适用性，自身出致命问题的情况很少，至少笔者是没遇到过。绝大多数你遇到的问题，都是由于对rem布局理解不到位导致的。本文对rem布局做了大量的解释说明，配置了若干 demo，你可以把你遇到的问题放到demo里测试。遇到问题时，首先问自己，为什么这明显的错误大家没遇到就我遇到了？？如果你真的经过充分验证，比对，确实是rem布局自身出了问题，那么请私信我，把还原问题场景的 demo 或者文件发给我。谢谢！本篇文章为转载内容。原文链接：https://blog.csdn.net/hjhfreshman/article/details/88864894。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-23 12:01:53

134

转载

转载文章

[转载]你为什么人到中年还是个普通员工？

...资自己，通过不断学习实现职业生涯的可持续发展。同时，心理学专家也强调，保持积极心态是中年人应对职场挑战的关键要素之一。正如美国心理学家卡罗尔·德韦克提出的“成长思维模式”，鼓励人们以开放的态度看待困难和挑战，相信能力可以通过努力得以提升，这对于中年职场人士打破现状、激发潜力具有深远意义。综上所述，面对日新月异的社会变迁和职场环境，中年群体需树立长期职业规划意识，提高实际行动力，强化个人核心竞争力，并始终保持与时俱进的学习态度和积极进取的心态，以此来应对职业道路上的各种挑战，实现职业生涯的二次腾飞。

2023-06-29 14:16:29

120

转载

转载文章

[转载]Linux内存映射——mmap

...过调用msync()实现磁盘上文件内容与共享内存区的内容一致。二系统调用mmap()用于共享内存的两种方式（1）使用普通文件提供的内存映射：适用于任何进程之间；此时，需要打开或创建一个文件，然后再调用mmap()；典型调用代码如下： [cpp] view plaincopy fd=open(name, flag, mode); if(fd<0) ... ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 通过mmap()实现共享内存的通信方式有许多特点和要注意的地方（2）使用特殊文件提供匿名内存映射：适用于具有亲缘关系的进程之间；由于父子进程特殊的亲缘关系，在父进程中先调用mmap()，然后调用fork()。那么在调用fork()之后，子进程继承父进程匿名映射后的地址空间，同样也继承mmap()返回的地址，这样，父子进程就可以通过映射区域进行通信了。注意，这里不是一般的继承关系。一般来说，子进程单独维护从父进程继承下来的一些变量。而mmap()返回的地址，却由父子进程共同维护。对于具有亲缘关系的进程实现共享内存最好的方式应该是采用匿名内存映射的方式。此时，不必指定具体的文件，只要设置相应的标志即可. 三 mmap进行内存映射的原理 mmap系统调用的最终目的是将,设备或文件映射到用户进程的虚拟地址空间,实现用户进程对文件的直接读写,这个任务可以分为以下三步: 1.在用户虚拟地址空间中寻找空闲的满足要求的一段连续的虚拟地址空间,为映射做准备(由内核mmap系统调用完成) 每个进程拥有3G字节的用户虚存空间。但是，这并不意味着用户进程在这3G的范围内可以任意使用，因为虚存空间最终得映射到某个物理存储空间（内存或磁盘空间），才真正可以使用。那么，内核怎样管理每个进程3G的虚存空间呢？概括地说，用户进程经过编译、链接后形成的映象文件有一个代码段和数据段（包括data段和bss段），其中代码段在下，数据段在上。数据段中包括了所有静态分配的数据空间，即全局变量和所有申明为static的局部变量，这些空间是进程所必需的基本要求，这些空间是在建立一个进程的运行映像时就分配好的。除此之外，堆栈使用的空间也属于基本要求，所以也是在建立进程时就分配好的，如图3.1所示：图3.1 进程虚拟空间的划分在内核中,这样每个区域用一个结构struct vm_area_struct 来表示.它描述的是一段连续的、具有相同访问属性的虚存空间，该虚存空间的大小为物理内存页面的整数倍。可以使用 cat /proc/<pid>/maps来查看一个进程的内存使用情况,pid是进程号.其中显示的每一行对应进程的一个vm_area_struct结构. 下面是struct vm_area_struct结构体的定义： [cpp] view plaincopy struct vm_area_struct { struct mm_struct vm_mm; / The address space we belong to. / unsigned long vm_start; / Our start address within vm_mm. / unsigned long vm_end; / The first byte after our end address within vm_mm. / / linked list of VM areas per task, sorted by address / struct vm_area_struct vm_next, vm_prev; pgprot_t vm_page_prot; / Access permissions of this VMA. / unsigned long vm_flags; / Flags, see mm.h. / struct rb_node vm_rb; / For areas with an address space and backing store, linkage into the address_space->i_mmap prio tree, or linkage to the list of like vmas hanging off its node, or linkage of vma in the address_space->i_mmap_nonlinear list. / union { struct { struct list_head list; void parent; / aligns with prio_tree_node parent / struct vm_area_struct head; } vm_set; struct raw_prio_tree_node prio_tree_node; } shared; / A file's MAP_PRIVATE vma can be in both i_mmap tree and anon_vma list, after a COW of one of the file pages. A MAP_SHARED vma can only be in the i_mmap tree. An anonymous MAP_PRIVATE, stack or brk vma (with NULL file) can only be in an anon_vma list. / struct list_head anon_vma_chain; / Serialized by mmap_sem & page_table_lock / struct anon_vma anon_vma; / Serialized by page_table_lock / / Function pointers to deal with this struct. / const struct vm_operations_struct vm_ops; / Information about our backing store: / unsigned long vm_pgoff; / Offset (within vm_file) in PAGE_SIZE units, not PAGE_CACHE_SIZE / struct file vm_file; / File we map to (can be NULL). / void vm_private_data; / was vm_pte (shared mem) / unsigned long vm_truncate_count;/ truncate_count or restart_addr / ifndef CONFIG_MMU struct vm_region vm_region; / NOMMU mapping region / endif ifdef CONFIG_NUMA struct mempolicy vm_policy; / NUMA policy for the VMA / endif }; 通常，进程所使用到的虚存空间不连续，且各部分虚存空间的访问属性也可能不同。所以一个进程的虚存空间需要多个vm_area_struct结构来描述。在vm_area_struct结构的数目较少的时候，各个vm_area_struct按照升序排序，以单链表的形式组织数据（通过vm_next指针指向下一个vm_area_struct结构）。但是当vm_area_struct结构的数据较多的时候，仍然采用链表组织的化，势必会影响到它的搜索速度。针对这个问题，vm_area_struct还添加了vm_avl_hight（树高）、vm_avl_left（左子节点）、vm_avl_right（右子节点）三个成员来实现AVL树，以提高vm_area_struct的搜索速度。　　假如该vm_area_struct描述的是一个文件映射的虚存空间，成员vm_file便指向被映射的文件的file结构，vm_pgoff是该虚存空间起始地址在vm_file文件里面的文件偏移，单位为物理页面。图3.2 进程虚拟地址示意图因此,mmap系统调用所完成的工作就是准备这样一段虚存空间,并建立vm_area_struct结构体,将其传给具体的设备驱动程序 2 建立虚拟地址空间和文件或设备的物理地址之间的映射(设备驱动完成) 建立文件映射的第二步就是建立虚拟地址和具体的物理地址之间的映射,这是通过修改进程页表来实现的.mmap方法是file_opeartions结构的成员: int (mmap)(struct file ,struct vm_area_struct ); linux有2个方法建立页表: (1) 使用remap_pfn_range一次建立所有页表. int remap_pfn_range(struct vm_area_struct vma, unsigned long virt_addr, unsigned long pfn, unsigned long size, pgprot_t prot); 返回值: 成功返回 0, 失败返回一个负的错误值参数说明: vma 用户进程创建一个vma区域 virt_addr 重新映射应当开始的用户虚拟地址. 这个函数建立页表为这个虚拟地址范围从 virt_addr 到 virt_addr_size. pfn 页帧号, 对应虚拟地址应当被映射的物理地址. 这个页帧号简单地是物理地址右移 PAGE_SHIFT 位. 对大部分使用, VMA 结构的 vm_paoff 成员正好包含你需要的值. 这个函数影响物理地址从 (pfn<<PAGE_SHIFT) 到 (pfn<<PAGE_SHIFT)+size. size 正在被重新映射的区的大小, 以字节. prot 给新 VMA 要求的"protection". 驱动可(并且应当)使用在vma->vm_page_prot 中找到的值. (2) 使用nopage VMA方法每次建立一个页表项. struct page (nopage)(struct vm_area_struct vma, unsigned long address, int type); 返回值: 成功则返回一个有效映射页,失败返回NULL. 参数说明: address 代表从用户空间传过来的用户空间虚拟地址. 返回一个有效映射页. (3) 使用方面的限制： remap_pfn_range不能映射常规内存，只存取保留页和在物理内存顶之上的物理地址。因为保留页和在物理内存顶之上的物理地址内存管理系统的各个子模块管理不到。640 KB 和 1MB 是保留页可能映射，设备I/O内存也可以映射。如果想把kmalloc()申请的内存映射到用户空间，则可以通过mem_map_reserve()把相应的内存设置为保留后就可以。 (4) remap_pfn_range与nopage的区别 remap_pfn_range一次性建立页表,而nopage通过缺页中断找到内核虚拟地址，然后通过内核虚拟地址找到对应的物理页 remap_pfn_range函数只对保留页和物理内存之外的物理地址映射，而对常规RAM，remap_pfn_range函数不能映射，而nopage函数可以映射常规的RAM。 3 当实际访问新映射的页面时的操作(由缺页中断完成) (1) page cache及swap cache中页面的区分：一个被访问文件的物理页面都驻留在page cache或swap cache中，一个页面的所有信息由struct page来描述。struct page中有一个域为指针mapping ，它指向一个struct address_space类型结构。page cache或swap cache中的所有页面就是根据address_space结构以及一个偏移量来区分的。 (2) 文件与 address_space结构的对应：一个具体的文件在打开后，内核会在内存中为之建立一个struct inode结构，其中的i_mapping域指向一个address_space结构。这样，一个文件就对应一个address_space结构，一个 address_space与一个偏移量能够确定一个page cache 或swap cache中的一个页面。因此，当要寻址某个数据时，很容易根据给定的文件及数据在文件内的偏移量而找到相应的页面。 (3) 进程调用mmap()时，只是在进程空间内新增了一块相应大小的缓冲区，并设置了相应的访问标识，但并没有建立进程空间到物理页面的映射。因此，第一次访问该空间时，会引发一个缺页异常。 (4) 对于共享内存映射情况，缺页异常处理程序首先在swap cache中寻找目标页（符合address_space以及偏移量的物理页），如果找到，则直接返回地址；如果没有找到，则判断该页是否在交换区 (swap area)，如果在，则执行一个换入操作；如果上述两种情况都不满足，处理程序将分配新的物理页面，并把它插入到page cache中。进程最终将更新进程页表。注：对于映射普通文件情况（非共享映射），缺页异常处理程序首先会在page cache中根据address_space以及数据偏移量寻找相应的页面。如果没有找到，则说明文件数据还没有读入内存，处理程序会从磁盘读入相应的页面，并返回相应地址，同时，进程页表也会更新. (5) 所有进程在映射同一个共享内存区域时，情况都一样，在建立线性地址与物理地址之间的映射之后，不论进程各自的返回地址如何，实际访问的必然是同一个共享内存区域对应的物理页面。四总结 1.对于mmap的内存映射，是将物理内存映射到进程的虚拟地址空间中去，那么进程对文件的访问就相当于直接对内存的访问，从而加快了读写操作的效率。在这里，remap_pfn_range函数是一次性的建立页表，而nopage函数是根据page fault产生的进程虚拟地址去找到内核相对应的逻辑地址，再通过这个逻辑地址去找到page。完成映射过程。remap_pfn_range不能对常规内存映射，只能对保留的内存与物理内存之外的进行映射。 2.在这里，要分清几个地址，一个是物理地址，这个很简单，就是物理内存的实际地址。第二个是内核虚拟地址，即内核可以直接访问的地址，如kmalloc,vmalloc等内核函数返回的地址，kmalloc返回的地址也称为内核逻辑地址。内核虚拟地址与实际的物理地址只有一个偏移量。第三个是进程虚拟地址，这个地址处于用户空间。而对于mmap函数映射的是物理地址到进程虚拟地址，而不是把物理地址映射到内核虚拟地址。而ioremap函数是将物理地址映射为内核虚拟地址。 3.用户空间的进程调用mmap函数，首先进行必要的处理，生成vma结构体，然后调用remap_pfn_range函数建立页表。而用户空间的mmap函数返回的是映射到进程地址空间的首地址。所以mmap函数与remap_pfn_range函数是不同的，前者只是生成mmap，而建立页表通过remap_pfn_range函数来完成。本篇文章为转载内容。原文链接：https://blog.csdn.net/wh8_2011/article/details/52373213。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-20 22:49:12

465

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

env -i command - 在干净的环境变量状态下执行命令。