动态数据 , 在本文语境中，动态数据是指随着用户交互或系统状态变化而实时更新的数据。例如，在采集百度下拉词数据时，当用户在搜索框中输入关键词时出现的下拉推荐词列表就是一种动态数据，它随用户的输入行为实时生成并消失。 JSON格式 , JavaScript Object Notation（JSON）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。在文中，百度返回的下拉词数据即采用JSON格式，包含键值对结构，通过抓取并解析JSON响应内容，可以提取出具体的下拉推荐词信息。线程池 (concurrent.futures.ThreadPoolExecutor) , 在Python编程中，线程池是一种多线程编程的高效解决方案，通过预先创建一定数量的线程并进行复用，能够减少线程频繁创建销毁带来的开销。文中使用了concurrent.futures.ThreadPoolExecutor来并发处理多个关键词的下拉词数据获取任务，每个关键词的请求作为一个独立的任务提交给线程池，线程池中的空闲线程会自动执行这些任务，从而提高了数据采集效率。抓包操作 , 在网络编程与数据分析领域中，抓包操作指的是利用网络封包分析软件（如Wireshark、Fiddler等，或浏览器开发者工具）捕获、记录网络传输过程中经过计算机网络接口的所有数据包的过程。在本文的具体情境下，作者通过浏览器开发者工具进行抓包操作，找到了包含百度下拉词数据的HTTP请求，进一步分析了该请求的相关参数和返回结果，以实现自动化数据采集的目标。

2023-06-21 12:59:26

491

转载

Superset

Superset：开源数据可视化工具的数据源连接与交互式仪表板创建

...set作为一款开源的数据可视化工具，近年来受到了越来越多的关注。最近，Superset社区发布了最新的3.0版本，引入了一系列新特性和改进，旨在提升用户体验和增强功能。新版本中最重要的变化之一是增强了对大型数据集的支持能力，通过优化查询性能和提高缓存效率，使得处理大规模数据变得更加流畅。此外，新版本还增加了对更多第三方插件的支持，使得用户可以根据自己的需求扩展功能。值得注意的是，Superset 3.0版本引入了一种全新的数据探索模式，名为“智能探索”，这一功能利用了先进的机器学习算法，能够自动识别数据中的关键特征和模式，帮助用户更快地理解数据。这种智能化的探索模式对于那些需要处理大量复杂数据的用户来说，无疑是一个巨大的福音。除此之外，新版本还加强了安全性，引入了更多的权限控制选项，确保敏感数据的安全。这对于企业用户来说尤为重要，因为他们需要严格控制谁可以访问哪些数据。最近，一家知名科技公司宣布将Superset集成到他们的内部数据平台中，用于日常的数据分析和报告生成。该公司表示，通过使用Superset，他们能够在短时间内生成高质量的数据可视化报告，极大地提高了工作效率。总之，Superset的最新版本不仅在技术层面进行了重大升级，也得到了实际应用中的广泛认可。对于那些正在寻找强大且灵活的数据可视化解决方案的企业和个人而言，Superset无疑是一个值得考虑的选择。随着社区的持续发展和技术的进步，Superset在未来将会变得更加完善和强大。

2024-12-15 16:30:11

红尘漫步

转载文章

[转载]自学前端达到什么水平才能找到工作，来看这套前端学习路线图--陆神版本思维导图

...L、CSS和页面制作工具。HTML是前端开发入门首先要学会的东西，有了它，你才可以布局页面结构。CSS是页面美化和精细化的核心技术。想要更好的完成页面的开发，更好的与UI部门合作，这些页面制作工具是必须掌握的。第二阶段：页面布局实战有了第一步的基础知识，你就可以实战各种页面布局了。学会后，更加夯实初级Web前端工程师水平，能够完成各种PC端与移动端网页布局与样式设计实现了。应届生找工作会更加有底气，入职后待遇能达到6K-7K。这一步骤共分为两部分内容：布局技术，布局规范与方案。想要轻松的完成各种PC端和手机端的布局，这些重要的布局技术必须掌握。另外一些布局规范与布局方案，是完成浏览器兼容和各种设备适配的法宝。第三阶段：前端开发内功第四阶段：PC端全栈项目开发有了JavaScript、HTML、CSS知识，再加上这个步骤的技能点学习，你就能够完成一个PC端的前后端整体项目开发了。可以从事网站开发工程师，以及Web前端开发工程师的工作了。薪资能达到11K-13K。这一步骤共分为四部分内容：首先学会常用的前端工具库，掌握前端工程化和模块化，然后系统学习后端，或者叫服务端开发工具 Node.js，最后你就能独立完成一个网站或者管理系统的开发了。第五阶段，前端高级框架技术。这个步骤是从事前端工作必须掌握的重要内容，尤其是Vue、React，已经是公司开发企业项目的首选框架。学会这个部分，你就是一名高级Web前端工程师了，可以胜任公司的C端和B端的所有项目，薪资待遇能达到14K-18K。那这些框架都需要学习掌握什么呢？ Vue框架，需要掌握Vue3和它的生态技术。掌握了Vue3的选项式API，Vue2的项目也信手拈来。Vue3生态的每个技术都包含了很多内容，都需要你掌握它并熟练应用。像Vue3的组合式API、Vite2+SFC、VueRouter4、Vuex4、Pinia2、TypeScript基础、TS+Vue3，其他的技术栈。学会这些，你就可以基于这些技术开发Vue3的C端和B端项目了。 React框架，同样需要掌握React18和它的生态技术。每个生态也都包含很多内容，像Umi技术栈、其他技术栈。React技术备受大厂青睐，一般情况下，React岗位薪资也会比Vue高些。那除了这两个主要框架还需要什么呢？ Angular框架，企业用的比较少些了，基本上都是老项目的维护了。数据可视化，可以选学，如果项目里有这块需求，可以仔细研究一下。第六阶段，混合应用开发技术。所谓混合开发，就是将HTML5基于浏览器的应用，嵌入到基于Android和iOS手机APP里，或者嵌入到基于Node和Chromium的桌面APP里。因为兼具了WebApp和NativeApp的双重优点，混合应用开发技术得到了广泛的应用。学会这个部分，就拥有了多端开发能力，能够胜任跨平台跨设备的架构工作。通过Vue和React基础加持，薪资待遇能达到19K-22K。常见的混合开发如手机端的微信公众号、微信小程序、桌面端的Electron技术和PWA技术等。第七步，原生应用开发技术。所谓原生应用开发，就是应用前端的技术，脱离浏览器，进行原生的手机APP的开发。掌握这部分内容，可以达到大前端高级开发工程师水平，可以主导移动端多元产品项目实现，能够跨平台开发提出可建设性解决方案。薪资待遇能达到 23K-30K。比如，Facebook的基于React技术的ReactNative原生APP的开发，谷歌的基于Dart技术的Flutter原生APP的开发，以及华为的基于JS技术的HarmonyOS鸿蒙原生APP的开发。第八步，大前端架构。这是本学习路线图最后一个步骤了，同时也到达了一个至高点。掌握这个部分，即可拥有大前端架构师水平，主要进行前端项目架构和项目把控。能够解决网站出现的突发状况，能够改进网站性能到极致。拥有大型网站、大量高并发访问量等开发经验。这个岗位的薪资能达到30K以上的水平。前端架构师，包含很多内容，要求有广度也要有深度，这里给出了重要的五部分内容，包括开发工具及服务器技术、前端性能、微前端架构、低代码与组件库开发以及前端安全技术。小白起点的前端路线图，我们都走了一遍，你可能会问，这些知识我们我该如何学习呢？你可以靠查文档、看视频，也可以找个师父带你。上面给大家推荐的视频都是核心的技术点视频以及项目练手视频，更多更细节的技术点请大家关注IT千锋教育搜索你需要的课程。本篇文章为转载内容。原文链接：https://blog.csdn.net/longz_org_cn/article/details/127673811。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-07 21:33:13

270

转载

转载文章

[转载]聊聊如何从零开始自学编程

...实际上，随着云计算、大数据、人工智能等领域的飞速发展，现代软件开发工程师所需掌握的技术栈正在不断拓宽和深化。例如，对于服务端开发者而言，在熟悉了Java基础、数据库操作（如MySQL）及Spring框架后，进一步了解微服务架构及其相关技术（如Docker、Kubernetes）已成为行业趋势。同时，云原生应用开发也是目前热门的方向，学习和掌握阿里云、AWS或Google Cloud等主流云服务提供商的解决方案和技术将大大提升个人竞争力。而对于前端开发者来说，除了HTML、CSS、JavaScript的基本功外，Vue.js、React或Angular等现代化前端框架的应用以及TypeScript等强类型语言的使用正逐渐成为标配。此外，随着WebAssembly的兴起，对底层性能优化的需求也在增加，理解浏览器工作原理以及如何运用Web Worker、Service Worker提升用户体验变得愈发重要。与此同时，数据结构与算法始终是程序员的核心素养之一，无论面试还是实际工作中，扎实的算法基础都能使开发者在解决问题时更加游刃有余。因此，即使在快速掌握实战技能的同时，也不能忽视理论知识的学习，包括但不限于《算法导论》、LeetCode等经典资源。总之，在持续探索编程世界的过程中，保持与时俱进、关注最新技术动态，并结合自身兴趣和发展方向深入学习，才是实现从初级到高级甚至专家级程序员蜕变的关键所在。

2023-07-02 23:59:06

转载

Mongo

MongoDB创建索引：用户角色、配置与排查实操指南

...大改进，进一步推动了数据库性能的提升。此次更新特别关注了索引构建效率和内存使用优化，为开发者和数据库管理员提供了更多灵活且高效的索引管理策略。内存使用优化：MongoDB 4.4引入了更智能的内存管理机制，特别是在处理大量索引时，显著减少了内存占用，提高了数据库的稳定性和性能。这对于处理大数据集和高并发场景尤为重要，因为合理的内存使用有助于减少延迟，提升查询速度。索引构建效率提升：新版MongoDB优化了索引构建算法，减少了构建过程中的资源消耗和时间成本。这意味着在创建新索引或更新现有索引时，数据库的反应速度更快，从而提高了整体系统性能。索引策略调整：为了适应不同场景的需求，MongoDB 4.4提供了更加灵活的索引策略选择。开发人员可以根据实际应用情况，基于读写模式、数据分布和查询频率等因素，选择最适合的索引类型和结构，以达到最佳的性能表现。安全性与合规性：在提升性能的同时，MongoDB 4.4也加强了安全性，增强了数据保护措施。这包括对敏感数据的加密存储、访问控制的细化以及对潜在安全漏洞的修补，确保了数据在存储和传输过程中的安全，符合现代数据保护法规的要求。综上所述，MongoDB 4.4版本不仅在索引管理上取得了显著进展，还在其他多个领域实现了技术突破，为用户提供了一个更为强大、安全、高效的数据库平台。对于依赖MongoDB进行数据管理和分析的企业和开发者来说，了解并充分利用这些更新，将有助于优化业务流程，提升数据分析效率，进而驱动业务增长。 --- 通过这次“延伸阅读”，我们可以看到MongoDB作为一款广泛使用的NoSQL数据库，在持续优化其功能以满足日益增长的性能需求和安全性要求。这种不断迭代的技术进步不仅反映了MongoDB团队致力于提升用户体验和解决实际问题的决心，也为广大开发者和数据库管理员提供了更多创新的工具和策略，以应对复杂的数据管理和分析挑战。

2024-10-14 15:51:43

心灵驿站

Consul

如何在Consul中通过Git和KV存储实现配置版本控制

...p公司开发的服务网格解决方案，它提供服务发现、健康监测以及Key/Value存储等功能。对很多开发者而言，Consul最吸引人的地方就是它的Key/Value存储功能了。这个功能让Consul在管理应用配置方面特别给力，简直就像是量身定做的一样。然而，当我们谈论到配置管理时，一个常常被忽视但极其重要的方面是版本控制。想象一下，如果你的应用配置发生了错误更改，而你没有版本控制机制来恢复到之前的稳定状态，那么这将是一个多么糟糕的情况！因此，确保你的配置系统具备版本控制能力是非常必要的。 2. 为什么Consul需要版本控制？在Consul中引入版本控制并不是一个可选的功能，而是为了提高系统的可靠性和安全性。有了版本控制，我们就能轻松追踪配置的历史改动，这对审计、解决问题以及回滚简直太重要了。此外，版本控制还能帮助团队成员更好地协作，避免因配置冲突导致的问题。举个简单的例子，假设你的应用配置文件包含数据库连接信息。要是哪个程序员不小心改了这部分设置，又没好好测一测就直接扔到生产环境里，那可就麻烦了。数据库连接可能就挂了，整个应用都得跟着遭殃。不过嘛，要是咱们的配置系统能像git那样支持版本控制，那我们就轻松多了。遇到问题时，可以直接回到上一个稳当的配置版本，这样就能躲过那些可能捅娄子的大麻烦。 3. 如何在Consul中实现版本控制？现在，让我们来看看如何在Consul中实际地实现配置的版本控制。Consul自己其实没有自带版本控制的功能，但我们可以耍点小聪明，用一些策略和工具来搞定这个需求。在这里，我们要说两种方法。第一种是用Consul的API和外部版本控制系统（比如Git）一起玩；第二种则是在Consul里面自己搞一套版本控制逻辑。方法一：结合外部版本控制系统首先，我们来看一看如何将Consul与Git这样的版本控制系统结合起来使用。这种做法主要是定期把Consul里的配置备份到Git仓库里，每次改动配置后，都会自动加个新版本。就像是给配置文件做了一个定时存档，而且每次修改都留个记录，方便追踪和管理。这样，我们就能拥有完整的配置历史记录，并且可以随时回滚到任何历史版本。步骤如下： 1. 创建Git仓库首先，在你的服务器上创建一个新的Git仓库，专门用于存放Consul的配置文件。 bash git init --bare /path/to/config-repo.git 2. 编写导出脚本接下来，编写一个脚本，用于定期从Consul中导出配置文件并推送到Git仓库。这个脚本可以使用Consul的API来获取配置数据。 python import consul import os import subprocess 连接到Consul c = consul.Consul(host='127.0.0.1', port=8500) 获取所有KV对 index, data = c.kv.get('', recurse=True) 创建临时目录 temp_dir = '/tmp/consul-config' if not os.path.exists(temp_dir): os.makedirs(temp_dir) 将数据写入文件 for item in data: key = item['Key'] value = item['Value'].decode('utf-8') file_path = os.path.join(temp_dir, key) os.makedirs(os.path.dirname(file_path), exist_ok=True) with open(file_path, 'w') as f: f.write(value) 提交到Git subprocess.run(['git', '-C', '/path/to/config-repo.git', 'add', '.']) subprocess.run(['git', '-C', '/path/to/config-repo.git', 'commit', '-m', 'Update config from Consul']) subprocess.run(['git', '-C', '/path/to/config-repo.git', 'push']) 3. 设置定时任务最后，设置一个定时任务（例如使用cron），让它每隔一段时间执行上述脚本。这种方法的优点在于它可以很好地集成现有的Git工作流程，并且提供了强大的版本控制功能。不过，需要注意的是，它可能需要额外的维护工作，尤其是在处理并发更新时。方法二：在Consul内部实现版本控制除了上述方法之外，我们还可以尝试在Consul内部通过自定义逻辑来实现版本控制。这个方法有点儿复杂，但好处是能让你更精准地掌控一切，而且还不用靠外界的那些系统帮忙。基本思路是： - 使用Consul的KV存储作为主存储区，同时为每个配置项创建一个单独的版本记录。 - 每次更新配置时，不仅更新当前版本，还会保存一份新版本的历史记录。 - 可以通过Consul的查询功能来检索特定版本的配置。下面是一个简化的Python示例，演示如何使用Consul的API来实现这种逻辑： python import consul import json c = consul.Consul() def update_config(key, new_value, version=None): 如果没有指定版本，则自动生成一个新版本号 if version is None: index, current_version = c.kv.get(key + '/version') version = int(current_version['Value']) + 1 更新当前版本 c.kv.put(key, json.dumps(new_value)) 保存版本记录 c.kv.put(f'{key}/version', str(version)) c.kv.put(f'{key}/history/{version}', json.dumps(new_value)) def get_config_version(key, version=None): if version is None: index, data = c.kv.get(key + '/version') version = int(data['Value']) return c.kv.get(f'{key}/history/{version}')[1]['Value'] 示例：更新配置 update_config('myapp/database', {'host': 'localhost', 'port': 5432}, version=1) 示例：获取特定版本的配置 print(get_config_version('myapp/database', version=1)) 这段代码展示了如何使用Consul的KV API来实现一个简单的版本控制系统。虽然这只是一个非常基础的实现，但它已经足以满足许多场景下的需求。 4. 总结与反思通过上述两种方法，我们已经看到了如何在Consul中实现配置的版本控制。不管你是想用外部的版本控制系统来管配置，还是打算在Consul里面自己捣鼓一套方案，最重要的是搞清楚你们团队到底需要啥，然后挑个最适合你们的法子干就是了。在这个过程中，我深刻体会到，技术的选择往往不是孤立的，它总是受到业务需求、团队技能等多种因素的影响。所以啊，在碰到这类问题的时候，咱们得保持个开放的心态，多尝试几种方法，这样才能找到那个最适合的解决之道。希望这篇文章对你有所帮助，如果你有任何疑问或建议，请随时留言交流。我们一起学习，共同进步！

2024-11-17 16:10:02

星辰大海

Apache Lucene

Apache Lucene索引与搜索：Java中避免NullPointerException策略

近期，随着大数据和人工智能技术的迅猛发展，搜索技术也在不断演进。在这样的背景下，Apache Lucene作为一款成熟的全文搜索引擎库，其应用范围越来越广泛。与此同时，Java社区也不断推出新版本，带来了诸多改进和新特性，使得开发者能够更高效地使用Lucene和避免常见的编程陷阱。最近的一项研究显示，企业在构建搜索功能时，往往面临着性能瓶颈和用户体验问题。而Lucene凭借其强大的索引能力和灵活的搜索选项，成为了许多企业的首选解决方案。然而，随着数据量的激增，如何优化索引和查询性能成为了一个亟待解决的问题。例如，Netflix在其博客中分享了如何利用Lucene和Elasticsearch构建高效搜索系统的经验，特别强调了索引合并和缓存机制的重要性。同时，Java 17的发布也为开发者提供了新的工具和改进，如更强的类型推断和更好的性能优化。这些新特性使得处理NullPointerException等常见异常变得更加容易，从而提升了代码的质量和稳定性。根据Oracle官方文档，Java 17引入了若干新特性，包括密封类（Sealed Classes）、记录类型（Record Patterns）等，这些都可以帮助开发者更安全地编写代码。此外，对于那些正在寻找更强大、更易于扩展的搜索解决方案的企业而言，基于Lucene的分布式搜索系统，如Solr和Elasticsearch，正变得越来越受欢迎。这些系统不仅提供了高度的可伸缩性和容错性，还能通过集群管理工具轻松地进行部署和维护。例如，Elasticsearch的官方文档中详细介绍了如何使用Kubernetes进行部署，这为企业提供了更为便捷的解决方案。综上所述，无论是通过优化现有技术还是采用新兴工具，企业都能够更好地应对大数据时代的挑战，提供更快、更准确的搜索服务。而对于开发者而言，掌握最新的编程语言特性和搜索技术，将有助于他们在竞争激烈的市场中脱颖而出。

2024-10-16 15:36:29

岁月静好

Hive

Hive无法访问HDFS？排查与解决：网络问题、权限问题及jps命令诊断

...文件系统的问题排查与解决一、引言 Hive与HDFS的亲密关系大家好啊！今天咱们聊聊Hive和HDFS这对CP（组合）。Hive 这个东西呢，其实就是个搭在 Hadoop 身上的数据仓库工具，说白了嘛，它的工作方式特别直白——把你的 SQL 查询语句给翻译成 MapReduce 任务，然后甩给 Hadoop 去干活儿。而HDFS呢，就是存储这些数据的地方。它们就像一对老朋友，互相依赖，缺一不可。但有时候，这俩家伙可能会闹别扭，尤其是当你发现Hive突然不能访问HDFS了。这可真是让人头疼，因为这意味着你的数据查询直接凉凉。所以今天我们就来聊聊，为什么会出现这种情况，以及该怎么解决。二、可能的原因为什么Hive访问不了HDFS？ 2.1 网络问题首先，我们得想想是不是网络出了问题。嘿，你知道吗？我猜你们公司那位网络大神最近是不是偷偷调整了防火墙的设置？或者是服务器那边抽风了，直接断网了？反正不管咋回事儿，现在Hive跟HDFS就像是隔了一座大山，怎么也连不上，所以它想读数据都读不到啊！举个例子吧，假设你的Hive配置文件里写着HDFS的地址是hdfs://namenode:9000/，但是实际上NameNode所在的机器根本不在网络范围内，那Hive当然会报错啦。解决方法：检查一下网络连接是否正常。你可以试着ping一下HDFS的NameNode地址，看看能不能通。如果不行的话，赶紧找网络管理员帮忙修一下。 2.2 权限问题其次，权限问题也是常见的原因。HDFS对文件和目录是有严格权限控制的，如果你的用户没有足够的权限去读取某个文件，那么Hive自然也无能为力。举个栗子，假如你有一个HDFS路径/user/hive/warehouse/my_table，但是这个目录的权限设置成了只有root用户才能访问，而你的Hive用户不是root，那肯定就悲剧了。解决方法：检查HDFS上的文件和目录权限。如果你想看看某个文件的权限，可以用这个命令：hadoop fs -ls /path/to/file。看完之后，要是觉得权限不对劲，就动手改一下呗，比如说用hadoop fs -chmod 755 /path/to/file，给它整成合适的权限就行啦！ 2.3 HDFS服务未运行还有一种可能是HDFS服务本身挂掉了。比如说，NameNode突然罢工了，DataNode也闹起了情绪，甚至整个集群都瘫痪了，啥都不干了。哎呀糟糕了，这情况有点悬啊！HDFS直接罢工了，完全不干活，任凭Hive使出浑身解数也无济于事。这下可好，整个系统像是瘫了一样，啥也跑不起来了。解决方法：检查HDFS的服务状态。可以通过命令jps查看是否有NameNode和DataNode进程在运行。如果没有，那就得赶紧启动它们，或者重启整个HDFS服务。三、实战演练 Hive访问HDFS的具体操作接下来，我们通过一些实际的例子来看看如何用Hive操作HDFS。 3.1 创建表并加载数据到HDFS 假设我们现在要创建一个简单的表，并将数据加载到HDFS中。我们可以先创建一个本地文件data.txt，内容如下： id,name,age 1,Alice,25 2,Bob,30 3,Charlie,35 然后上传到HDFS： bash hadoop fs -put data.txt /user/hive/warehouse/my_table/ 接着在Hive中创建表： sql CREATE TABLE my_table ( id INT, name STRING, age INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 最后加载数据： sql LOAD DATA INPATH '/user/hive/warehouse/my_table/data.txt' INTO TABLE my_table; 这样，我们的数据就成功存到了HDFS上，并且Hive也能读取到了。 3.2 查询数据现在我们可以试试查询数据： sql SELECT FROM my_table; 如果一切正常，你应该能看到类似这样的结果： OK 1 Alice 25 2 Bob 30 3 Charlie 35 Time taken: 0.077 seconds, Fetched: 3 row(s) 但如果之前出现了访问不了HDFS的情况，这里就会报错。所以我们要确保每一步都正确无误。四、总结与展望总之，Hive无法访问HDFS的问题虽然看起来很复杂，但实际上只要找到根本原因，解决起来并不难。无论是网络问题、权限问题还是服务问题，都有相应的解决办法。嘿，大家听我说啊！以后要是再碰到这种事儿，别害怕，也别乱了阵脚。就当是玩个解谜游戏，一步一步慢慢来，肯定能找出办法搞定它！未来，随着大数据技术的发展，Hive和HDFS的功能也会越来越强大。说不定哪天它们还能像人类一样交流感情呢！（开玩笑啦）好了，今天的分享就到这里啦。如果你还有什么疑问或者经验想要分享，欢迎随时留言讨论哦！让我们一起进步，一起探索大数据的奥秘吧！

2025-04-01 16:11:37

105

幽谷听泉

HBase

HBase集群性能检查：吞吐量、延迟与GC时间优化及负载均衡调整

近期，随着大数据技术的飞速发展，HBase作为一款分布式NoSQL数据库，其性能优化的重要性愈发凸显。例如，在某大型电商公司的实时推荐系统中，HBase集群的响应速度直接影响了用户的购物体验。据报道，该公司最近对HBase集群进行了全面升级，不仅将RegionServer的堆内存从8GB提升至16GB，还引入了新的Compaction算法，大幅减少了数据碎片化问题。这一系列调整使得查询延迟降低了约30%，整体吞吐量提升了近50%。与此同时，开源社区也在不断推进HBase的功能迭代。最新发布的HBase 2.5版本引入了多项性能增强特性，包括支持异步I/O操作以减少网络延迟，以及改进了Region分裂和合并逻辑，从而提高了数据分布的均匀性。此外，社区还特别强调了监控的重要性，建议用户充分利用Prometheus和Grafana等现代监控工具，实现对HBase集群的全方位观测。值得注意的是，HBase的性能优化并非一蹴而就，而是需要结合实际业务场景进行细致调优。例如，在金融行业中，高频交易系统对数据一致性要求极高，因此需要特别关注GC时间对事务处理的影响；而在物联网领域，则可能更侧重于降低单点延迟，确保海量设备的数据上报能够及时响应。回顾历史，HBase自2008年开源以来，一直致力于为企业级应用场景提供可靠的数据存储解决方案。正如Apache基金会主席比尔·霍普金斯所说：“HBase的成功离不开全球开发者社区的支持。”未来，随着5G、边缘计算等新技术的普及，HBase有望在更多新兴领域发挥重要作用，成为企业数字化转型不可或缺的一部分。

2025-04-14 16:00:01

落叶归根

Spark

日志记录驱动的分布式计算：错误诊断与性能监控在大数据处理中的应用与应对

随着大数据时代的到来，Apache Spark作为高效的大规模数据处理引擎，其应用日益广泛，特别是在人工智能、机器学习等领域发挥着关键作用。然而，面对海量数据和复杂业务场景，Spark应用的稳定性和性能优化成为亟待解决的问题。本文将深入探讨如何通过优化日志记录策略、引入自动化监控工具、实施精准性能调优等方法，全面提升Spark应用的稳定性和性能，从而更好地支撑大数据时代的业务需求。一、日志记录优化：从被动到主动传统的日志记录方式往往侧重于问题发生后的记录和事后分析，缺乏事前预警和预防机制。为了提升Spark应用的稳定性，应采用主动监控和预测性分析相结合的日志记录策略： - 日志级别调整：根据应用不同阶段的需求动态调整日志级别，既能保证关键信息的完整记录，又能避免无谓的性能开销。 - 日志聚合与分析：利用现代大数据分析工具（如ELK Stack、Logstash、Kibana等），实现日志的实时聚合、分析与可视化，便于快速识别异常模式和性能瓶颈。 - 自定义告警规则：基于历史数据和业务特性，设定合理的异常阈值和告警规则，实现异常的即时发现和响应。二、自动化监控工具的引入自动化监控工具能够持续跟踪Spark应用的运行状况，及时发现潜在问题并采取措施： - 实时监控：通过集成Prometheus、Grafana等监控工具，实现对应用性能、资源使用、任务执行时间等关键指标的实时监控。 - 自动扩展：利用Kubernetes等容器化平台的自动扩展功能，根据负载变化动态调整集群规模，确保资源高效利用。 - 故障恢复：通过HDFS、Zookeeper等组件提供的容错机制，实现任务失败时的自动重试或数据冗余备份，提升应用的高可用性。三、精准性能调优策略针对Spark应用的特定场景，实施精准的性能调优策略，可以从以下几个方面入手： - 参数优化：根据具体工作负载，调整Spark配置参数，如executor内存分配、shuffle操作的并行度等，以达到最优性能。 - 数据倾斜处理：采用数据预洗、分桶等技术，减少数据倾斜对任务执行效率的影响。 - 任务调度优化：合理规划任务执行顺序和依赖关系，避免不必要的等待时间，提高任务执行效率。结论通过优化日志记录策略、引入自动化监控工具、实施精准性能调优，可以显著提升Apache Spark应用的稳定性和性能，有效应对大数据时代面临的挑战。结合实时数据分析、故障预测与自动恢复等现代技术手段，企业能够构建更加可靠、高效的Spark生态系统，支持复杂业务场景下的数据驱动决策。

2024-09-07 16:03:18

141

秋水共长天一色

转载文章

[转载]（Hadoop3）HDFS文件系统

...的配置后，读者可能对大数据存储与处理领域的最新进展和相关技术动态产生兴趣。实际上，随着数据量的持续增长和技术迭代，HDFS也在不断发展以适应更复杂的应用场景。近期，Apache Hadoop 3.3.0版本发布，引入了一系列新功能和改进。例如，HDFS现在支持EC（Erasure Coding）策略的进一步优化，能够在保证数据可靠性的同时，显著降低存储开销。此外，NameNode的高可用性和故障切换机制得到增强，确保了大规模集群的稳定运行。另一方面，为应对云原生时代的挑战，Hadoop社区正积极将HDFS与Kubernetes等容器编排平台进行整合。如Open Data Hub项目就提供了在Kubernetes上部署HDFS及整个Hadoop生态系统的解决方案，使企业能够更加灵活高效地构建和管理基于云的大数据服务。同时，对于那些寻求超越HDFS局限性的用户，可以关注到像Apache Hudi、Iceberg这样的开源项目，它们在HDFS之上构建了事务性数据湖存储层，支持ACID事务、时间旅行查询等功能，极大地丰富了大数据处理的可能性。总之，掌握HDFS是理解和使用大数据技术的基础，而关注其演进路径以及相关的创新技术和解决方案，则有助于我们在实际应用中更好地利用HDFS及其生态系统的力量，解决日益复杂的数据管理和分析需求。

2023-12-05 22:55:20

282

转载

Logstash

Logstash时间戳混乱？日志处理+data过滤器搞定格式统一与数据准确性

...stash这样的开源工具来管理和分析海量日志数据。然而，正如文章所提到的，时间戳问题依然是许多用户在使用Logstash时面临的最大挑战之一。这种现象不仅出现在传统IT行业，也在云计算、大数据分析等领域频频出现。例如，最近亚马逊云科技发布的《2023年企业日志管理现状报告》显示，超过60%的企业在日志处理过程中遇到了时间戳不一致的问题，而这直接影响了他们的业务决策效率。与此同时，国内也有不少企业在实践中摸索出了更为高效的解决方案。以阿里巴巴集团为例，其自主研发的日志服务平台SLS（Log Service）特别针对时间戳处理进行了深度优化。该平台内置了多种时间戳解析算法，并支持用户自定义规则，极大地提升了日志处理的灵活性和准确性。此外，腾讯云也推出了类似的工具，通过引入机器学习技术，能够自动识别日志中的时间戳模式，大幅降低了人工干预的成本。从更深层面来看，时间戳问题的背后反映了现代企业对实时数据分析需求的增长。随着物联网设备的普及以及边缘计算的兴起，未来日志数据的规模和复杂度将进一步增加。因此，如何构建更加智能、稳定的时间戳处理机制将成为技术领域的重要课题。在此背景下，开源社区的作用愈发凸显。GitHub上活跃的开发者们不断贡献新的插件和补丁，为Logstash等工具注入更多创新元素。例如，最近有人提交了一个名为“DynamicTimestamp”的插件，它可以根据上下文动态调整时间戳格式，为用户提供了一种全新的视角。值得注意的是，时间戳问题不仅仅局限于技术层面，它还涉及到组织架构和流程设计。一些领先的企业已经开始尝试将日志管理系统与业务流程紧密结合，通过建立跨部门协作机制，确保数据采集、存储和分析的一致性。这种做法不仅提高了工作效率，也为企业的长期发展奠定了坚实的基础。总之，时间戳问题虽看似琐碎，但它却是衡量一家公司技术实力的关键指标之一。在未来，随着技术的进步和社会需求的变化，这一领域的研究必将迎来更加广阔的空间。

2025-05-13 15:58:22

林中小径

转载文章

[转载]浅谈Linux内核RCU机制原理

...现了高效的跟踪和分析工具，使得网络数据包过滤、性能监控等功能能够在不影响主线程性能的前提下实现近乎实时的数据读取与更新。另外，知名计算机科学家Paul E. McKenney于2022年发表了一篇关于RCU最新进展和技术挑战的深度论文，其中深入剖析了RCU在未来多核处理器架构下的扩展性问题以及可能的解决方案。他强调，在面对日益复杂的硬件环境时，RCU机制需要不断演进以适应更高级别的并发控制需求。同时，随着云计算和大数据技术的发展，RCU在分布式存储系统中的作用也逐渐凸显。例如，Ceph文件系统通过借鉴RCU思想，设计出适用于自身场景的读写同步算法，有效提高了大规模集群环境下的数据一致性保障能力。综上所述，RCU作为Linux内核中不可或缺的同步原语，其理论研究和实践应用都在与时俱进，为现代操作系统及分布式系统的高效稳定运行提供了有力支撑。未来，我们有理由期待更多基于RCU机制的创新技术和解决方案涌现，持续推动软件工程领域的发展进步。

2023-09-25 09:31:10

106

转载

转载文章

[转载]清华都老师介绍windows下的mpich的经验

...现状。近年来，随着大数据和人工智能等领域的飞速发展，对计算能力的需求日益增长，MPI作为并行计算的重要通信接口标准，在解决大规模科学计算、机器学习等问题上发挥着关键作用。最新版本的MPICH已支持更多的优化策略和特性，如更好的多核CPU利用、对GPU加速计算的支持以及更高效的网络传输协议，以适应不断变化的高性能计算环境需求。同时，微软Azure云平台和AWS Amazon EC2等云服务提供商也相继推出了预装MPI的高性能计算实例，用户无需在本地搭建复杂环境，即可直接在云端进行MPI并行程序开发与测试，极大地降低了使用门槛，促进了并行计算技术的普及与应用。另外，随着跨平台开发需求的增长，开源社区也在积极推动MPICH在Linux、macOS等其他操作系统上的兼容性和性能优化。例如，Microsoft Research团队合作推出的Open MPI项目，旨在提供一个高度可扩展且跨平台的MPI实现，为开发者提供更多选择和灵活性。此外，对于希望深入了解MPI编程原理及其实战技巧的读者，可以参考《Using MPI - 3rd Edition》这本书，作者详细解析了MPI的各种函数用法，并提供了大量实例代码，是MPI编程入门到精通的绝佳教程资源。综上所述，无论是从MPI技术的最新进展、云计算环境下的并行计算解决方案，还是深入学习MPI编程的专业书籍推荐，都为那些想要在并行计算领域持续探索和实践的读者提供了丰富的延伸阅读内容。

2023-04-09 11:52:38

114

转载

Netty

Netty如何通过异常处理、长连接复用、零拷贝技术和心跳检测实现故障恢复

...。话说回来，再厉害的工具也不是全能的啊，在那种超高并发、必须稳如老狗的场景里，总免不了会出点幺蛾子。今天咱们就来聊聊Netty是如何帮我们实现故障恢复的。说到故障恢复，其实很多人可能会觉得这是个很玄乎的事情。但其实，Netty在这方面做得相当出色。它的设计思路非常人性化，既考虑了性能，也兼顾了稳定性。咱们可以从以下几个方面入手，看看它是怎么做到的。 --- 二、为什么需要故障恢复？首先，咱们得明白一个问题：为什么我们需要故障恢复？在现实世界中，网络环境复杂多变，服务器宕机、网络抖动、数据丢失等情况随时随地可能发生。如果我们的程序没有应对这些问题的能力，那后果简直不堪设想！想象一下，你正在做一个在线支付系统，用户刚输入完支付信息，结果服务器突然挂了，这笔交易失败了。哎呀，这要是让用户碰上了，那可真是抓狂了！所以啊，咱们得想点办法，给系统加点“容错”的本事，不然出了问题用户可就懵圈了。说白了，故障恢复不就是干这个的嘛，就是为了不让小问题变成大麻烦！ Netty在这方面做得非常到位。它有一套挺管用的招数，就算网络突然“捣乱”或者出问题了，也能尽量把损失降到最低，然后赶紧恢复到正常状态，一点儿都不耽误事儿。接下来，咱们就一步步拆解这些机制。 --- 三、Netty的故障恢复机制 3.1 异常处理与重试机制首先，咱们来看看Netty最基础的故障恢复手段：异常处理与重试机制。 Netty提供了一种优雅的方式来处理异常。好比说呗，当客户端和服务器之间的连接突然“闹别扭”了，Netty就会立刻反应过来，自动给我们发个提醒，就像是“叮咚！出问题啦！”这样，咱们就能赶紧去处理这个小麻烦了。具体代码如下： java // 定义一个ChannelFutureListener，用于监听连接状态 ChannelFuture future = channel.connect(remoteAddress); future.addListener((ChannelFutureListener) futureListen -> { if (!futureListen.isSuccess()) { System.out.println("连接失败，尝试重新连接..."); // 这里可以加入重试逻辑 scheduleRetry(); } }); 在这段代码中，我们通过addListener为连接操作添加了一个监听器。如果连接失败，我们会打印一条日志并调用scheduleRetry()方法。这个办法啊，特别适合用来搞那种简单的重试操作，比如说隔一会儿就再试试重新连上啥的，挺实用的！当然啦，实际项目中可能需要更复杂的重试策略，比如指数退避算法。不过Netty已经为我们提供了足够的灵活性，剩下的就是根据需求去实现啦！ --- 3.2 零拷贝技术与内存管理接下来，咱们聊聊另一个关键点：零拷贝技术与内存管理。在高并发场景下，频繁的数据传输会导致内存占用飙升，进而引发GC（垃圾回收）风暴。Netty通过零拷贝技术很好地解决了这个问题。简单说呢，零拷贝技术就像是给数据开了一条“直达通道”，不用再把数据倒来倒去地复制一遍，就能让它直接从这儿跑到那儿。举个例子，假设我们要将文件内容发送给远程客户端，传统的做法是先将文件读取到内存中，然后再逐字节写入Socket输出流。这样不仅效率低下，还会浪费大量内存资源。Netty 这家伙可聪明了，它能用 FileRegion 类直接把文件塞进 Socket 通道里，这样就省得在内存里来回倒腾数据啦，效率蹭蹭往上涨！ java // 使用FileRegion发送文件 FileInputStream fileInputStream = new FileInputStream(new File("data.txt")); FileRegion region = new DefaultFileRegion(fileInputStream.getChannel(), 0, fileSize); channel.writeAndFlush(region); 在这段代码中，我们利用DefaultFileRegion将文件内容直接传递给了Netty的通道，大大提升了传输效率。 --- 3.3 长连接复用与心跳检测第三个重要的机制是长连接复用与心跳检测。在高并发环境下，频繁创建和销毁TCP连接的成本是非常高的。所以啊，Netty这个家伙超级聪明，它能让一个TCP连接反复用，不用每次都重新建立新的连接。这就像是你跟朋友煲电话粥，不用每次说完一句话就挂断重拨，直接接着聊就行啦，省心又省资源！与此同时，为了防止连接因为长时间闲置而失效，Netty还引入了心跳检测机制。简单说吧，就像你隔一会儿给对方发个“我还在线”的消息，就为了确认你们的联系没断就行啦！ java // 设置心跳检测参数 Bootstrap bootstrap = new Bootstrap(); bootstrap.option(ChannelOption.SO_KEEPALIVE, true); // 开启TCP保活功能 bootstrap.option(ChannelOption.CONNECT_TIMEOUT_MILLIS, 5000); // 设置连接超时时间在这里，我们通过设置SO_KEEPALIVE选项开启了TCP保活功能，并设置了最长的连接等待时间为5秒。这样一来，即使网络出现短暂中断，Netty也会自动尝试恢复连接。 --- 3.4 数据缓冲与批量处理最后一个要点是数据缓冲与批量处理。在网络通信过程中，数据的大小和频率往往不可控。要是每次传来的数据都一点点的，那老是去处理这些小碎数据，就会多花不少功夫啦。Netty通过内置的缓冲区（Buffer）解决了这个问题。例如，我们可以使用ByteBuf来存储和处理接收到的数据。ByteBuf就像是内存管理界的“万金油”，不仅能够灵活地伸缩大小，还能轻松应对各种编码需求，简直是程序员手里的瑞士军刀！ java // 创建一个ByteBuf实例 ByteBuf buffer = Unpooled.buffer(1024); buffer.writeBytes(data); // 处理数据 while (buffer.readableBytes() > 0) { byte b = buffer.readByte(); process(b); } 在这段代码中，我们首先创建了一个容量为1024字节的缓冲区，然后将接收到的数据写入其中。接着，我们通过循环逐个读取并处理缓冲区中的数据。这种方式不仅可以提高处理效率，还能更好地应对突发流量。 --- 四、总结与展望好了，朋友们，今天的分享就到这里啦！通过上面的内容，相信大家对Netty的故障恢复机制有了更深的理解。不管是应对各种意外情况的异常处理，还是能让数据传输更高效的零拷贝技术，又或者是能重复利用长连接和设置数据缓冲这些招数，Netty可真是个实力派选手啊！不过，技术的世界永远没有尽头。Netty虽然已经足够优秀，但在某些特殊场景下仍可能存在局限性。未来的日子啊，我超级期待能看到更多的小伙伴，在Netty的基础上大展身手，把自己的系统捯饬得既聪明又靠谱，简直就像给它装了个“智慧大脑”一样！最后，我想说的是，技术的学习是一个不断探索的过程。希望大家能在实践中积累经验，在挑战中成长进步。如果你有任何疑问或者想法，欢迎随时留言交流哦！祝大家都能写出又快又稳的代码，一起迈向技术巅峰吧！😎

2025-03-19 16:22:40

红尘漫步

Hadoop

Hadoop支持文件跨访问控制协议迁移解析

近年来，随着云计算和大数据技术的快速发展，数据安全与隐私保护成为全球关注的焦点。特别是在跨境数据流动日益频繁的背景下，如何确保数据在不同系统间的高效迁移同时兼顾安全性，已经成为企业和政府必须面对的重大课题。就在上周，欧盟委员会发布了一份关于加强数据跨境传输监管的新提案，旨在强化GDPR（《通用数据保护条例》）的执行力度，尤其是针对云服务提供商的跨境数据处理活动提出了更为严格的审查标准。这一举措无疑将对依赖Hadoop等分布式系统的企业带来深远影响，尤其是在涉及跨国业务的数据处理环节中，如何平衡技术创新与法律合规将成为新的挑战。与此同时，国内也在加速推进数据安全立法进程。近日，中国信通院发布了《中国数字经济发展白皮书》，其中特别提到，在数字经济快速发展的背景下，数据要素市场化配置改革亟需解决的关键问题之一便是如何构建统一的数据流通体系。报告建议，应加快制定和完善数据分级分类管理制度，鼓励采用先进的技术手段如区块链、联邦学习等，以提升数据流动的安全性和透明度。这表明，无论是在国际还是国内层面，围绕数据安全的技术创新与政策规范都呈现出同步加强的趋势。值得注意的是，尽管Hadoop因其强大的分布式计算能力在全球范围内得到了广泛应用，但其在实际部署过程中仍面临诸多挑战，例如如何在满足业务需求的同时避免因权限配置不当而导致的数据泄露风险。对此，专家指出，企业应当加强对员工的数据安全意识培训，同时积极引入第三方审计机制，定期评估系统内的访问控制策略是否符合最新的行业标准。此外，随着量子计算等新兴技术的发展，未来的数据加密方案也需要重新审视，以应对潜在的安全威胁。综上所述，无论是国际法规的变化还是国内政策的调整，都在推动数据安全领域发生深刻变革。对于那些希望借助Hadoop等工具实现高效数据迁移的企业而言，只有紧跟时代步伐，不断优化自身的数据管理体系，才能在未来竞争中立于不败之地。

2025-04-29 15:54:59

风轻云淡

转载文章

[转载]Linux安装mariaDB以及修改Mariadb存储路径

...译安装MariaDB数据库的区别以及如何在CentOS 7系统上进行实际操作后，我们不妨进一步探讨数据库管理与运维的最新趋势和技术动态。近期，MariaDB发布了10.7版本，引入了一系列性能优化和新特性，如原生支持Temporal Tables、JSONTABLES等，对于数据库开发者和管理员来说，熟悉这些新功能将有助于提升数据管理效率并保障业务系统的稳定运行。此外，随着云服务的普及与发展，越来越多的企业选择将数据库部署在云端，阿里云等服务商也推出了针对MariaDB的高可用集群解决方案，用户不仅可以享受到一键部署、自动备份恢复、弹性伸缩等便捷服务，还能通过精细权限管理和日志审计等功能确保数据安全合规。因此，了解和研究云环境下的数据库运维策略，对于提升企业IT基础设施水平至关重要。同时，在数据库主从复制领域，MySQL 8.0及MariaDB的新版本中增强了GTID（全局事务标识符）功能，简化了主从配置流程，并提高了数据同步的一致性和可靠性。结合最新的数据库监控工具如Prometheus和Grafana，可以实时监测主从复制状态，及时发现并解决潜在问题，这对于构建高性能、高可用的分布式数据库架构具有重要意义。综上所述，紧跟数据库技术发展潮流，关注MariaDB等开源数据库软件的更新动态，探索云端数据库运维实践与高可用性设计，无疑将助力企业在数字化转型过程中更好地利用数据库这一关键基础设施，以支撑更加复杂多变的业务场景需求。

2023-07-12 10:11:01

311

转载

转载文章

[转载]大数据——海量数据处理的基本方法总结

在深入探讨了海量数据处理的基本方法后，我们了解到，随着数字化进程的加速和互联网技术的发展，大数据已经成为各行各业不可或缺的资源。近年来，国内外许多企业和研究机构不断突破海量数据处理的技术瓶颈，实现了更高效的数据挖掘与分析。例如，在2022年，Apache Spark社区发布了Spark 3.2版本，进一步优化了其对大规模数据处理的能力，特别是对结构化、半结构化数据的支持更加完善，通过Catalyst优化器的升级以及动态分区剪枝等新特性，有效提升了处理海量数据时的性能表现。此外，Google公司近期发布的关于Bloom Filter的新研究成果，揭示了一种新型布隆过滤器变体——Counting Bloom Filter with Carry Sketches（CBCS），能够在保持较低错误率的同时，更精准地统计大规模数据集中元素出现的次数，为解决海量数据判重问题提供了新的解决方案。同时，针对分布式环境下数据存储与计算的需求，Hadoop生态系统的组件如HDFS和YARN也在持续演进中，以适应实时流处理、机器学习等新兴应用场景。而诸如Kafka、Flink等流处理框架的兴起，也为海量数据的实时分析提供了强大支持。不仅如此，学术界对于Trie树、Bitmap等数据结构的研究也在不断深入，结合新型硬件如SSD、GPU等进行并行优化，使得这些经典数据结构在现代海量数据处理场景下焕发新生。未来，随着量子计算和边缘计算等前沿技术的发展，海量数据处理的方法将更加丰富多元，效率也将有质的飞跃。综上所述，海量数据处理技术正以前所未有的速度发展和完善，从理论研究到工程实践，各类创新技术和解决方案层出不穷，为大数据时代的数据价值挖掘奠定了坚实基础。广大读者可以通过关注最新的科研成果、行业报告和技术博客，深入了解这一领域的发展趋势和应用案例，以便更好地应对和解决实际工作中的海量数据挑战。

2024-03-01 12:40:17

542

转载

转载文章

[转载]OpenMV数字识别进而控制直流电机转速【小白篇】

....下载训练集 2.对数据进行调整 2.1 将ubyte格式转为jpg格式 2.2 将图片按照标签分类到具体文件夹 2.3 数据存在的缺陷 2.4 优化建议(核心) 二、模型训练三、项目实现 1. 代码实现 2. 采用器件 2. 注意事项总结前言第一次接触OpenMV也是第一次将理论用于实践，是老师让我实现的一个小测验，这几天完成后决定写下完整的过程。本文主要是当缝合怪，借鉴和参考了其他人的代码再根据我个人设备进行了一定的调整，此外还包括了我自身实践过程中的一些小意外。！！！一定要根据个人器件型号和个人设备来参考一、数字识别的模型训练 1.下载训练集研究期间，我发现大部分人以及官网教程采用的都是自己拍摄照片再进行网络训练，存在的缺陷就是数据集较小不全面、操作繁琐。个人认为如果是对标准的数字进行识别，自己手动拍取照片进行识别足够了。但想要应用于更广泛的情况，应该寻找更大的数据集，所以我找到了国外手写数字的数据集MNIST。建议四个文件都下载数据链接：MINIST数据集 2.对数据进行调整 2.1 将ubyte格式转为jpg格式代码参考链接：python将ubyte格式的MNIST数据集转成jpg图片格式并保存 import numpy as npimport cv2import osimport structdef trans(image, label, save):image位置，label位置和转换后的数据保存位置if 'train' in os.path.basename(image):prefix = 'train'else:prefix = 'test'labelIndex = 0imageIndex = 0i = 0lbdata = open(label, 'rb').read()magic, nums = struct.unpack_from(">II", lbdata, labelIndex)labelIndex += struct.calcsize('>II')imgdata = open(image, "rb").read()magic, nums, numRows, numColumns = struct.unpack_from('>IIII', imgdata, imageIndex)imageIndex += struct.calcsize('>IIII')for i in range(nums):label = struct.unpack_from('>B', lbdata, labelIndex)[0]labelIndex += struct.calcsize('>B')im = struct.unpack_from('>784B', imgdata, imageIndex)imageIndex += struct.calcsize('>784B')im = np.array(im, dtype='uint8')img = im.reshape(28, 28)save_name = os.path.join(save, '{}_{}_{}.jpg'.format(prefix, i, label))cv2.imwrite(save_name, img)if __name__ == '__main__':需要更改的文件路径！！！！！！此处是原始数据集位置train_images = 'C:/Users/ASUS/Desktop/train-images.idx3.ubyte'train_labels = 'C:/Users/ASUS/Desktop/train-labels.idx1.ubyte'test_images ='C:/Users/ASUS/Desktop/t10k-images.idx3.ubyte'test_labels = 'C:/Users/ASUS/Desktop/t10k-labels.idx1.ubyte'此处是我们将转化后的数据集保存的位置save_train ='C:/Users/ASUS/Desktop/MNIST/train_images/'save_test ='C:/Users/ASUS/Desktop/MNIST/test_images/'if not os.path.exists(save_train):os.makedirs(save_train)if not os.path.exists(save_test):os.makedirs(save_test)trans(test_images, test_labels, save_test)trans(train_images, train_labels, save_train) 2.2 将图片按照标签分类到具体文件夹文章参考链接：python实现根据文件名自动分类转移至不同的文件夹注意：为了适合这个数据集和我的win11系统对代码进行了一点调整，由于数据很多如果只需要部分数据一定要将那些数据单独放在一个文件夹。导入库import osimport shutil 当前文件夹所在的路径，使用时需要进行修改current_path = 'C:/Users/ASUS/Desktop/MNIST/test'print('当前文件夹为:' + current_path) 读取该路径下的文件filename_list = os.listdir(current_path) 建立文件夹并且进行转移假设原图片名称 test_001_2.jpgfor filename in filename_list:name1, name2, name3 = filename.split('_') name1 = test name2 = 001 name3 = 2.jpgname4, name5 = name3.split('.') name4 = 2 name5 = jpgif name5 == 'jpg' or name5 == 'png':try:os.mkdir(current_path+'/'+name4)print('成功建立文件夹:'+name4)except:passtry:shutil.move(current_path+'/'+filename, current_path+'/'+name4[:])print(filename+'转移成功！')except Exception as e:print('文件 %s 转移失败' % filename)print('转移错误原因:' + e)print('整理完毕！') 2.3 数据存在的缺陷数据集内的图片数量很多，由于后面介绍的云端训练的限制，只能采用部分数据（本人采用的是1000张，大家可以自行增减数目）。数据集为国外的数据集，很多数字写的跟我们不一样。如果想要更好的适用于我们国内的场景，可以对数据集进行手动的筛选。下面是他们写的数字2：可以看出跟我们的不一样，不过数据集中仍然存在跟常规书写的一样的，我们需要进行人为的筛选。 2.4 优化建议(核心) 分析发现，部分数字精度不高的原因主要是国外手写很随意，我们可以通过调整网络参数(如下)、人为筛选数据(如上)、增大数据集等方式进行优化。二、模型训练主要参考文章：通过云端自动生成openmv的神经网络模型，进行目标检测！！！唯一不同的点是我图像参数设置的是灰度而不是上述文章的RGB。下面是我模型训练时的参数设置（仅供参考）：通过混淆矩阵可以看出，主要的错误在于数字2、6、8。我们可以通过查看识别错误的数字来分析可能的原因。三、项目实现！！！我们需要先将上述步骤中导出文件中的所有内容复制粘贴带OpenMV中自带的U盘中。然后将其中的.py文件名称改为main 1. 代码实现本人修改后的完整代码展示如下，使用的是OpenMV IDE（官网下载）：数字识别后控制直流电机转速from pyb import Pin, Timerimport sensor, image, time, os, tf, math, random, lcd, uos, gc 根据识别的数字输出不同占比的PWM波def run(number):if inverse == True:ain1.low()ain2.high()else:ain1.high()ain2.low()ch1.pulse_width_percent(abs(number10)) 具体参数调整自行搜索sensor.reset() 初始化感光元件sensor.set_pixformat(sensor.GRAYSCALE) set_pixformat : 设置像素模式(GRAYSCALSE : 灰色; RGB565 : 彩色)sensor.set_framesize(sensor.QQVGA2) set_framesize : 设置处理图像的大小sensor.set_windowing((128, 160)) set_windowing ：设置提取区域大小sensor.skip_frames(time = 2000) skip_frames ：跳过2000ms再读取图像lcd.init() 初始化lcd屏幕。inverse = False True : 电机反转 False : 电机正转ain1 = Pin('P1', Pin.OUT_PP) 引脚P1作为输出ain2 = Pin('P4', Pin.OUT_PP) 引脚P4作为输出ain1.low() P1初始化低电平ain2.low() P4初始化低电平tim = Timer(2, freq = 1000) 采用定时器2，频率为1000Hzch1 = tim.channel(4, Timer.PWM, pin = Pin('P5'), pulse_width_percent = 100) 输出通道1 配置PWM模式下的定时器（高电平有效）端口为P5 初始占空比为100%clock = time.clock() 设置一个时钟用于追踪FPS 加载模型try:net = tf.load("trained.tflite", load_to_fb=uos.stat('trained.tflite')[6] > (gc.mem_free() - (641024)))except Exception as e:print(e)raise Exception('Failed to load "trained.tflite", did you copy the .tflite and labels.txt file onto the mass-storage device? (' + str(e) + ')') 加载标签try:labels = [line.rstrip('\n') for line in open("labels.txt")]except Exception as e:raise Exception('Failed to load "labels.txt", did you copy the .tflite and labels.txt file onto the mass-storage device? (' + str(e) + ')') 不断的进行运行while(True):clock.tick() 更新时钟img = sensor.snapshot().binary([(0,64)]) 抓取一张图像以灰度图显示lcd.display(img) 拍照并显示图像for obj in net.classify(img, min_scale=1.0, scale_mul=0.8, x_overlap=0.5, y_overlap=0.5): 初始化最大值和标签max_num = -1max_index = -1print("\nPredictions at [x=%d,y=%d,w=%d,h=%d]" % obj.rect())img.draw_rectangle(obj.rect()) 预测值和标签写成一个列表predictions_list = list(zip(labels, obj.output())) 输出各个标签的预测值，找到最大值进行输出for i in range(len(predictions_list)):print('%s 的概率为： %f' % (predictions_list[i][0], predictions_list[i][1]))if predictions_list[i][1] > max_num:max_num = predictions_list[i][1]max_index = int(predictions_list[i][0])run(max_index)print('该数字预测为：%d' % max_index)print('FPS为：', clock.fps())print('PWM波占空比为: %d%%' % (max_index10)) 2. 采用器件使用的器件为OpenMV4 H7 Plus和L298N以及常用的直流电机。关键是找到器件的引脚图，再进行简单的连线即可。参考文章：【L298N驱动模块学习笔记】–openmv驱动参考文章：【openmv】原理图引脚图 2. 注意事项上述代码中我用到了lcd屏幕，主要是为了方便离机操作。使用过程中，OpenMV的lcd初始化时会重置端口，所有我们在输出PWM波的时候一定不要发生引脚冲突。我们可以在OpenMV官网查看lcd用到的端口：可以看到上述用到的是P0、P2、P3、P6、P7和P8。所有我们输出PWM波时要避开这些端口。下面是OpenMV的PWM资源：总结本人第一次自己做东西也是第一次使用python，所以代码和项目写的都很粗糙，只是简单的识别数字控制直流电机。我也是四处借鉴修改后写下的大小，这篇文章主要是为了给那些像我一样的小白们提供一点帮助，减少大家查找资料的时间。模型的缺陷以及改进方法上述中已经说明，如果我有写错或者大家有更好的方法欢迎大家告诉我，大家一起进步！本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_57100435/article/details/130740351。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-10 08:44:41

283

转载

Golang

基于Golang的高性能服务器开发：并发处理、内存管理与网络优化

...像武侠小说里那种为了解决江湖大难题豁出去了的大侠一样！记得我第一次接触Go时，简直被它的简洁震撼到了。不像Java那么啰嗦，也不像Python那样慢吞吞，Go简直就是为高并发而生的！每次看到它的协程（goroutine）和通道（channel），我就忍不住想：这不就是为我这种喜欢高效开发的人量身定制的语言嘛！所以，今天咱们就来聊聊如何用Go语言构建一个高性能的服务器。嘿，别担心！我可不会整那些枯燥的理论大餐，咱们这就撸起袖子一起敲代码吧。来吧，跟着我，看看Go这小子到底是怎么一步步帮咱们搞定问题的，超有趣的！ --- 2. 高性能服务器的核心要素说到高性能服务器，其实核心无非就几个点：并发处理、内存管理、网络优化和代码结构。Go在这几个方面都有独到的优势，接下来咱们一个个拆解来看。 2.1 并发处理：协程的力量先说并发处理吧。Go最大的特点之一就是协程（goroutine）。嘿，你知道为啥大家都说协程比线程“瘦”吗？就是因为它真的省空间啊！打个比方，一个协程的“小背包”（也就是栈内存）才不到2KB，可传统线程那背包大得吓人，动不动就几十KB起步，甚至能到上百KB。这差距，简直是一个小巧玲珑的手拿包和一个超大登山包的区别！举个例子，假设我们要做一个聊天服务器，每秒钟需要处理上千个用户的请求。要是用那种老式的多线程方式，创建和销毁线程的代价大得会让你的服务器累得直不起腰，简直要崩溃了！但用Go的话，完全可以轻松应对： go package main import ( "fmt" "net/http" ) func handleRequest(w http.ResponseWriter, r http.Request) { fmt.Fprintf(w, "Hello, %s!", r.URL.Path[1:]) } func main() { http.HandleFunc("/", handleRequest) fmt.Println("Server started at :8080") err := http.ListenAndServe(":8080", nil) if err != nil { panic(err) } } 这段代码虽然简单，但它背后却隐藏着Go的魔力。嘿，你有没有试过访问这个地址：http://localhost:8080/username？当你这么做的时候，Go 这家伙就会偷偷摸摸地给你派来一个小帮手——一个协程，专门负责处理你的请求。而且更贴心的是，它完全不用你去管什么线程池那些听起来就头大的复杂玩意儿，简直是太省心了吧！当然了，光靠协程还不够。为了确保程序的健壮性，我们需要合理地利用通道（channel）来进行通信。比如下面这个简单的生产者-消费者模型： go package main import ( "fmt" "time" ) func producer(ch chan<- int) { for i := 0; i < 5; i++ { ch <- i fmt.Println("Produced:", i) time.Sleep(500 time.Millisecond) } close(ch) } func consumer(ch <-chan int) { for num := range ch { fmt.Println("Consumed:", num) } } func main() { ch := make(chan int) go producer(ch) consumer(ch) } 在这个例子中，producer函数向通道发送数据，而consumer函数从通道接收数据。用这种方法，咱们就能又优雅又稳妥地搞定多线程里的同步难题，还不用担心被死锁给缠上。 --- 3. 内存管理 GC的奥秘接下来谈谈内存管理。Go的垃圾回收器（GC）是它的一大亮点。就像用老式工具编程一样，C/C++这种传统语言就得让程序员自己动手去清理内存，稍不留神，就可能搞出内存泄漏，或者戳到那些讨厌的野指针，简直让人头大！而Go则完全解放了我们的双手，它会自动帮你清理不再使用的内存。不过，GC也不是万能的。有时候，如果你对性能要求特别高，可能会遇到GC停顿的问题。为了解决这个问题，Go团队一直在优化GC算法。最新版本中引入了分代GC（Generational GC），大幅降低了停顿时间。那么，我们在实际开发中应该如何减少GC的压力呢？最直接的方法就是尽量避免频繁的小对象分配。比如，我们可以复用一些常见的结构体，而不是每次都新建它们： go type Buffer struct { data []byte } func NewBuffer(size int) Buffer { return &Buffer{data: make([]byte, size)} } func (b Buffer) Reset() { b.data = b.data[:0] } func main() { buf := NewBuffer(1024) for i := 0; i < 100; i++ { buf.Reset() // 使用buf... } } 在这个例子中，我们通过Reset()方法复用了同一个Buffer实例，而不是每次都调用make([]byte, size)重新创建一个新的切片。这样可以显著降低GC的压力。 --- 4. 网络优化 TCP/IP的实战再来说说网络优化。Go的net包提供了强大的网络编程支持，无论是HTTP、WebSocket还是普通的TCP/UDP，都能轻松搞定。特别是对那些高性能服务器而言，怎么才能又快又稳地搞定海量连接，这简直就是一个绕不开的大难题啊！举个例子，假设我们要实现一个简单的HTTP长连接服务器。传统的做法可能是监听端口，然后逐个处理请求。但这种方式效率不高，特别是在高并发场景下。Go提供了一个更好的解决方案——使用net/http包的Serve方法： go package main import ( "log" "net/http" ) func handler(w http.ResponseWriter, r http.Request) { w.Write([]byte("Hello, World!")) } func main() { http.HandleFunc("/", handler) log.Fatal(http.ListenAndServe(":8080", nil)) } 这段代码看起来很简单，但它实际上已经具备了处理大量并发连接的能力。为啥呢？就是因为Go语言里的http.Server自带了一个超级能打的“工具箱”，里面有个高效的连接池和请求队列，遇到高并发的情况时，它就能像一个经验丰富的老司机一样，把各种请求安排得明明白白，妥妥地hold住场面！当然，如果你想要更底层的控制，也可以直接使用net包来编写TCP服务器。比如下面这个简单的TCP回显服务器： go package main import ( "bufio" "fmt" "net" ) func handleConnection(conn net.Conn) { defer conn.Close() reader := bufio.NewReader(conn) for { message, err := reader.ReadString('\n') if err != nil { fmt.Println("Error reading:", err) break } fmt.Print("Received:", message) conn.Write([]byte(message)) } } func main() { listener, err := net.Listen("tcp", ":8080") if err != nil { fmt.Println("Error listening:", err) return } defer listener.Close() fmt.Println("Listening on :8080...") for { conn, err := listener.Accept() if err != nil { fmt.Println("Error accepting:", err) continue } go handleConnection(conn) } } 在这个例子中，我们通过listener.Accept()不断接受客户端连接，并为每个连接启动一个协程来处理请求。这种模式非常适合处理大量短连接的场景。 --- 5. 代码结构模块化与可扩展性最后，我们来聊聊代码结构。一个高性能的服务器不仅仅依赖于语言特性，还需要良好的设计思路。Go语言特别推崇把程序分成小块儿来写，就像搭积木一样，每个功能都封装成独立的小模块或包。这样不仅修 bug 的时候方便找问题，写代码的时候也更容易看懂，以后想加新功能啥的也简单多了。比如，假设我们要开发一个分布式任务调度系统，可以按照以下方式组织代码： go // tasks.go package task type Task struct { ID string Name string Param interface{} } func NewTask(id, name string, param interface{}) Task { return &Task{ ID: id, Name: name, Param: param, } } // scheduler.go package scheduler import "task" type Scheduler struct { tasks []task.Task } func NewScheduler() Scheduler { return &Scheduler{ tasks: make([]task.Task, 0), } } func (s Scheduler) AddTask(t task.Task) { s.tasks = append(s.tasks, t) } func (s Scheduler) Run() { for _, t := range s.tasks { fmt.Printf("Executing task %s\n", t.Name) // 执行任务逻辑... } } 通过这种方式，我们将任务管理和调度逻辑分离出来，使得代码更加清晰易懂。同时，这样的设计也方便未来扩展新的功能，比如添加日志记录、监控指标等功能。 --- 6. 总结与展望好了，到这里咱们就差不多聊完了如何用Go语言进行高性能服务器开发。说实话，写着这篇文章的时候，我脑海里突然蹦出大学时那股子钻研劲儿，感觉就像重新回到那些熬夜敲代码的日子了，整个人都热血上头！Go这门语言真的太带感了，简单到没话说，效率还超高，稳定性又好得没话说，简直就是程序员的救星啊！不过，我也想提醒大家一句：技术再好，最终还是要服务于业务需求。不管你用啥法子、说啥话，老老实实问问自己：“这招到底管不管用？是不是真的解决问题了？”这才是真本事！希望这篇文章对你有所帮助，如果你有任何疑问或者想法，欢迎随时留言讨论！让我们一起继续探索Go的无限可能吧！

2025-04-23 15:46:59

桃李春风一杯酒

转载文章

[转载]C10K 和 C1000K

在当今云计算和大数据时代，C10K、C1000K乃至C10M级别的并发连接问题愈发凸显。随着容器化、微服务架构的广泛应用，单一服务器节点承载的并发压力持续增大。近期，Linux内核社区针对高并发场景下的性能优化展开了深入研究与实践。例如，Linux 5.11版本引入了eBPF（Extended Berkeley Packet Filter）的重大改进，使得XDP（eXpress Data Path）能够更高效地处理网络数据包，进一步缩短数据路径，减少系统开销。同时，eBPF也被广泛应用于追踪分析、流量控制等高级功能，为解决大规模并发问题提供了全新的思路。此外，硬件技术也在不断跟进以适应高并发需求。Intel推出的第三代至强可扩展处理器中包含了对DPDK（Data Plane Development Kit）的深度优化支持，通过集成高性能网卡与CPU间的智能加速引擎，有效提升了数据包处理效率，降低了延迟。而在软件层面，Google开源的gVisor项目提供了一种轻量级的用户态沙箱容器运行时环境，它能显著降低上下文切换带来的开销，对于解决大规模并发连接挑战具有积极意义。综上所述，面对日益增长的并发连接挑战，无论是操作系统内核的底层优化，还是硬件技术的革新升级，以及创新的软件解决方案，都在合力推动着现代数据中心向更高并发、更低延迟的目标迈进。对于技术人员来说，紧跟这些发展趋势并将其应用到实际工作中，将有助于构建更加稳定、高效的大型分布式系统。

2023-04-11 18:25:52

261

转载

转载文章

[转载]我的十年程序员生涯

...洋，承诺 100% 解决户口。另外一家就是腾讯，技术面试全部通过以后，hr面试中各种旁敲侧击发现我还是希望长期在北京发展（当时我面试的是深圳的岗位），而且也有解决户口的工作后，就卡了我的offer。现在回想起来，其实反而还有点感谢当时的腾讯 hr。因为我确实是想在北京长期发展的，北京的户口只有毕业的时候最好拿。错过了这次机会后会非常的难得到。进大厂机会多的是，但是户口的窗口却很少很少。面试完这两家公司以后，我就没再面试其它公司。而是开始准备将我的一篇 ICPR 论文(https://projet.liris.cnrs.fr/imagine/pub/proceedings/ICPR-2010/data/4109b670.pdf) 里的算法去申请了个专利，然后去安安心心去中科大洋实习。在第一家公司工作的时候，我不局限于完成自己的任务，而是花时间去看团队里的所有代码。这种工作方式刚开始的时候会比较吃力。因为我不仅仅只是把问题处理完了就完事，而是非得想把和它相关的周边业务逻辑都挖一遍才甘心。因此，班也没少加，好多个周末我都一个人在公司看代码，做测试。不过这种方式的好处也是显而易见的，我花了大概一年的时间就熟悉了团队里的各种模块和业务。当有老员工离职的时候，我们领导很惆怅。我告诉他不用担心，这些模块我能顶住。有了前期看代码的积累，确实后来的各种事情处理起来都非常的得心应手。入职一年就顶起了团队里的大梁。而且我还发现我们公司的客户端软件在启动的时候比较慢，通过主动调研和测试，最后给领导提交了一个客户端启动加速的方案。现在能想起来的方式其中一个技术方式是 DLL 的基地址重定位。 02 入职腾讯在 2011 年下半年，工作了一年多的时候，感觉广播电视领域整体的盘子还是太小了，当时领头企业的营业额一年也就才十个亿左右。再通过和自己在腾讯的同学交流，还是觉得互联网的空间更大。所以也婉拒了领导给的副组长的提拔挽留，又毅然跳到了北京腾讯。我是 2011 年 11 月加入腾讯的。在项目上，仍然保持和第一家公司时工作类似的风格，全力以赴。不仅仅局限于完成自己手头的工作，主动做一切可能有价值的事情。其中一件事情就是我发现在当时的项目中，存在很多运营后台的开发需求。每次开发一个后台都得有人力去投入。后来我就在老大的所开发的一套 PHP 框架的基础上进行改进。实现了只要指定一张 Mysql 数据库中的表，就可以自动生成 bootstrap 样式的管理后台界面。支持列表展示、搜索、删除、批量删除、文本框、时间控件等等一切基础功能。再以后涉及管理后台的功能，只需要在这个基础上改造就行了，人力投入降低了很多，风格也得到了统一。这个工具现在在我们团队内部仍然还在广泛地使用。还有个故事我也讲过，就是老大分配给我一个图片下载的任务。我不局限于完成完成任务，而且还把文件系统、磁盘工作原理都深入整理了一遍，就是这篇《Linux文件系统十问》 03 转战搜狗 2013 下半年的时候，我第一次感受到了工作岗位的震荡。我还专注解决某一个 bug，花了不少精力都还没查到 bug 的原因。这时候，部门助理突然招呼我们所有人都下楼，在银科腾讯的 Image 印象店集合。在那里，见到了腾讯的总裁 Martin。这还是第一次离大老板只有一米远的距离。所有人都是一脸困惑，突然把大家召集下来是干嘛呢。原来就在几个小时前，腾讯总办已经和搜狗达成了协议。腾讯收购搜狗的一部分股份，并把我们连人带业务一起注入到了搜狗。没想到，是老板用一种更牛逼的方式帮我把 bug 给解决了。 14 年 1 月正式到了搜狗以后，我们没有继续做搜索了。而是内部 Transfer 到了另外一个部门。做起了搜狗网址导航、搜狗手机助手、搜狗浏览器等业务。我也是从那个时间点，开始带团队的，也是从那以后慢慢开始从个人贡献者到带团队集体输出的角色的转变。在搜狗工作的这 7 年的时间里，我仍然也是延续之前的风格。不拘泥于完成工作中的产品需求，以及老大交付的任务。而是主动去探索各种项目中有价值的事情。比如在手机助手的推广中，我琢磨了新用户的安装流程的各个环节后，找出影响用户安装率提升的关键因素。然后对新版本安装包采用了多种技术方案，将单用户获取成本削减了20%+，这一年下来就是千万级别的成本节约。我们还主动在手机助手的搜索模块中应用了简单的学习算法。采用了用户协同，标签相似，点击反馈等方法将手机助手的搜索转化率提升了数个百分点。除了用技术提升业务以外，我还结合工作中的问题进行了很多的深度技术思考。如有一次我们自己维护了一个线上的redis（当时工程部还没有redis平台，redis服务要业务自己维护）。为了优化性能，我把后端的请求由短连接改成了长连接。虽然看效果性能确实是优化了，但是我的思考并没有停止。我们所有的后端机都会连接这个redis。这样在这个redis实例上可能得有6000多条并发连接存在。我就开始疑惑，Linux 最多能有多少个TCP连接呢，我这 6000 条长连接会不会把这个服务器玩坏？再比如，我们组的服务器遭遇过几次连接相关的线上问题。其中一次是因为端口紧张而导致 CPU 消耗飙升。后来我又深入研究了一下。最近，由于 Docker 的广泛应用。底层的网络工作方式已经在悄悄地发生变化了。所以我又开辟了一个网络虚拟化的坑，来一点一点地填。现在我们的「开发内功修炼」公众号和 Github 就是在作为一个我和大家分享我的技术思考的一个窗口。 04 重回腾讯时隔 7 年，我又以一种奇特的方式变回了腾讯人的身份。腾讯再一次收购了搜狗的股份，这一次不再是控股，而是全资。在离开腾讯的这 7 年多的时间里，腾讯的内部技术工作方式已经发生了翻天覆地的变化。所以在刚转回腾讯的这一段时间里，我花了大量的精力来熟悉腾讯基于 tRPC 的各种技术生态。除了工作日，也投入了不少周末的精力。 05 再叨叨几句最后，水文里挤干货，通过我今天的文章我想给大家分享这么几点经验。第一，是要学会抬头看路，选择一个好的赛道进去。我非常庆幸我当年从广电赛道切换到了互联网，获得了更大的舞台。不过其实我自己在这点上做的也不是特别好，2013年底入职搜狗前拒绝了字节大把期权的offer，要不然我我早就财务自由了。第二，不要光被动接收领导的指令干活。要主动积极思考项目中哪些地方是待改进的，想到了你就去做。领导都非常喜欢积极主动的员工。我自己也是喜欢招一些能主动思考，积极推进的同学。这些人能创造意外的价值。第三，工作中除了业务以外还要主动技术的深度思考。毕竟技术仍然是开发的立命之本。在晋升考核的时候，业务数据做的再好也代替不了技术实力的核心位置。把工作中的技术点总结一下，在公司内分享出来。不涉及机密的话在外网分享一下更好。对你自己，对你的团队，都是好事。技术交流群最近有很多人问，有没有读者交流群，想知道怎么加入。最近我创建了一些群，大家可以加入。交流群都是免费的，只需要大家加入之后不要随便发广告，多多交流技术就好了。目前创建了多个交流群，全国交流群、北上广杭深等各地区交流群、面试交流群、资源共享群等。有兴趣入群的同学，可长按扫描下方二维码，一定要备注：全国 Or 城市 Or 面试 Or 资源，根据格式备注，可更快被通过且邀请进群。 ▲长按扫描往期推荐武大94年博士年薪201万入职华为！学霸日程表曝光，简直降维打击！腾讯三面：40亿个QQ号码如何去重？我被开除了。。只因为看了骂公司的帖子如果你喜欢本文, 请长按二维码，关注 Hollis. 转发至朋友圈，是对我最大的支持。点个在看喜欢是一种感觉在看是一种支持 ↘↘↘ 本篇文章为转载内容。原文链接：https://blog.csdn.net/hollis_chuang/article/details/121738393。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-06 11:38:24

233

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

tar -cvzf archive.tar.gz dir - 压缩目录至gzip格式的tar包。