...N · 查阅敏感日志数据 · 控制闪光灯 · 与蓝牙设备配对 · 访问蓝牙设置 · 发送持久广播 · android.permission.WRITE_OWNER_DATA · android.permission.SYSTEM_OVERLAY_WINDOW · 更改网络连接性 · com.android.launcher.permission.WRITE_SETTINGS · com.android.launcher3.permission.READ_SETTINGS · com.android.launcher3.permission.WRITE_SETTINGS · com.htc.launcher.permission.READ_SETTINGS · com.htc.launcher.permission.WRITE_SETTINGS · com.huawei.launcher3.permission.READ_SETTINGS · com.google.android.launcher.permission.READ_SETTINGS · com.google.android.launcher.permission.WRITE_SETTINGS · 读取日历活动和机密信息 · 添加或修改日历活动，并在所有者不知情的情况下向邀请对象发送电子邮件 · com.sonyericsson.home.permission.BROADCAST_BADGE · com.sec.android.provider.badge.permission.READ · com.sec.android.provider.badge.permission.WRITE · 查找设备上的帐户 · 添加或移除帐户 · 创建帐户并设置密码 · 读取同步设置 · 启用和停用同步 · 停用屏幕锁定 · 允许接收WLAN多播 · com.qq.qcloud.permission.ACCESS_ALBUM_BACKUP_LIST · com.android.vending.BILLING · 关闭其他应用 · 控制近距离通信 · com.tencent.photos.permission.DATA · com.tencent.msf.permission.account.sync · com.tencent.music.data.permission · com.tencent.msf.permission.ACCOUNT_NOTICE · 连接WLAN网络和断开连接 · 完全的网络访问权限 · 查看WLAN连接 · 查看网络连接 · 精确位置(基于GPS和网络) · 大致位置(基于网络) · 拍摄照片和视频 · 读取手机状态和身份 · 防止手机休眠 · com.android.launcher.permission.INSTALL_SHORTCUT · 修改或删除您的USB存储设备中的内容 · 开机启动 · com.tencent.msg.permission.pushnotify · com.tencent.msf.permission.account.sync · 读取您的USB存储设备中的内容本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_30590615/article/details/117615194。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-10-10 14:42:10

105

转载

Apache Lucene

Lucene实战：精确到模糊——编辑距离驱动的全文搜索优化与查询性能提升

...能与优化当处理大量数据时，FuzzyQuery可能会变得较慢，因为它的计算复杂度与搜索词的长度和索引的大小有关。为了提高效率，可以考虑以下策略： - 前缀匹配：使用PrefixQuery结合FuzzyQuery，仅搜索具有相同前缀的文档，这可以减少搜索范围。 - 阈值调整：根据应用需求调整模糊度阈值，更严格的阈值可以提高精确度，但搜索速度会下降。 - 分批处理：如果搜索结果过多，可以分批处理，先缩小范围，再逐步细化。五、结论 4. 未来展望与总结 FuzzyQuery在提高搜索灵活性的同时，也对性能提出了挑战。要想在项目里游刃有余，得深入理解那些神奇的机制和巧妙的策略，这样才能精准又高效，就像个武林高手一样，既能一击即中，又能快如闪电。Lucene那强大的模糊搜索绝不仅仅是纠错能手，它还能在你打字时瞬间给出超贴心的拼写建议，让找东西变得超级简单，简直提升了搜寻乐趣好几倍！随着科技日新月异，Lucene这家伙也越变越聪明，咱们可真盼着瞧见那些超酷的新搜索招数，让找东西这事变得更聪明又快捷，就像点穴一样精准！在构建现代应用程序时，了解并善用这些高级查询工具，无疑会让我们的搜索引擎更具竞争力。希望这个简单示例能帮助你开始在项目中运用FuzzyQuery，提升搜索的精准度和易用性。

2024-06-11 10:54:39

498

时光倒流

转载文章

[转载]java爬虫爬取京东_java爬虫练习|爬取京东上的手机商品数据

...遍历执行，获取所有的数据 for (int i = 1; i < 10; i = i + 2) {//发起请求进行访问，获取页面数据,先访问第一页 String html = this.httpUtils.getHtml(url +i);//解析页面数据，保存数据到数据库中 this.parseHtml(html); } System.out.println("执行完成"); }//解析页面，并把数据保存到数据库中 private void parseHtml(String html) throwsException {//使用jsoup解析页面 Document document =Jsoup.parse(html);//获取商品数据 Elements spus = document.select("divJ_goodsList > ul > li");//遍历商品spu数据 for(Element spuEle : spus) {//获取商品spu String attr = spuEle.attr("data-spu");long spu = Long.parseLong(attr.equals("")?"0":attr);//Long spu = Long.parseLong(spuEle.attr("data-spu"));//获取商品sku数据 Elements skus = spuEle.select("li.ps-item img");for(Element skuEle : skus) {//获取商品sku Long sku = Long.parseLong(skuEle.attr("data-sku"));//判断商品是否被抓取过，可以根据sku判断 Item param = newItem(); param.setSku(sku); List list = this.itemService.findAll(param);//判断是否查询到结果 if (list.size() > 0) {//如果有结果，表示商品已下载，进行下一次遍历 continue; }//保存商品数据，声明商品对象 Item item = newItem();//商品spu item.setSpu(spu);//商品sku item.setSku(sku);//商品url地址 item.setUrl("https://item.jd.com/" + sku + ".html");//创建时间 item.setCreated(newDate());//修改时间 item.setUpdated(item.getCreated());//获取商品标题 String itemHtml = this.httpUtils.getHtml(item.getUrl()); String title= Jsoup.parse(itemHtml).select("div.sku-name").text(); item.setTitle(title);//获取商品价格 String priceUrl = "https://p.3.cn/prices/mgets?skuIds=J_"+sku; String priceJson= this.httpUtils.getHtml(priceUrl);//解析json数据获取商品价格 double price = MAPPER.readTree(priceJson).get(0).get("p").asDouble(); item.setPrice(price);//获取图片地址 String pic = "https:" + skuEle.attr("data-lazy-img").replace("/n9/","/n1/"); System.out.println(pic);//下载图片 String picName = this.httpUtils.getImage(pic); item.setPic(picName);//保存商品数据 this.itemService.save(item); } } } } 分享一下我学习中遇到的问题： 1.爬取数据为null,需要登录京东看到这段代码应该就明白了吧，就是京东发现并非人为操作，需要登陆账号了。解决办法也很简单，只需要自己模拟浏览器登陆即可在HttpUttils加上这段，两个方法中的HTTPGet对象都需要设置一下。 //设置请求头模拟浏览器 httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"); 2.java.lang.NumberFormatException: For input string: ""，获取的spu为空串，加上一个前置空串判断即可解决如下： //获取商品spu String attr = spuEle.attr("data-spu");//判断是否为空串 long spu = Long.parseLong(attr.equals("")?"0":attr); 以上两个bug是我学习遇到的，现已解决，爬取数据如下：本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_32161697/article/details/114506244。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-13 10:48:12

105

转载

Nginx

Nginx权限设置错误：用户、组与过度宽松权限的风险分析

...不当，可能会导致敏感数据泄露、服务被滥用等严重后果。 1.2 权限设置的基本概念 - 用户（User）：操作系统中的账户，比如root或普通用户。 - 组（Group）：用户可以归属于多个组，这样就可以对一组文件或目录进行统一管理。 - 权限（Permissions）：读（read）、写（write）和执行（execute）权限，分别用r、w、x表示。 1.3 示例代码假设我们有一个网站，其根目录位于/var/www/html。为了让Web服务器能顺利读取这个目录里的文件，我们得确保Nginx使用的用户账户有足够的权限。通常情况下，Nginx以www-data用户身份运行： bash sudo chown -R www-data:www-data /var/www/html sudo chmod -R 755 /var/www/html 这里，755权限意味着所有者（即www-data用户）可以读、写和执行文件，而组成员和其他用户只能读和执行（但不能修改）。二、常见的权限设置错误 2.1 错误示例1：过度宽松的权限 bash sudo chmod -R 777 /var/www/html 这个命令将使任何人都可以读、写和执行该目录及其下所有文件。虽然这个方法在开发时挺管用的，但真要是在生产环境里用，那简直就是一场灾难啊！要是谁有了这个目录的权限，那他就能随便改或者删里面的东西，这样可就麻烦大了，安全隐患多多啊。 2.2 错误示例2：忽略SELinux/AppArmor 许多Linux发行版都默认启用了SELinux或AppArmor这样的强制访问控制（MAC）系统。要是咱们不重视这些安全措施，只靠老掉牙的Unix权限设置，那可就得做好准备迎接各种意料之外的麻烦了。例如，在CentOS上，如果我们没有正确配置SELinux策略，可能会导致Nginx无法访问某些文件。 2.3 错误示例3：不合理的用户分配有时候，我们会不小心让Nginx以root用户身份运行。这样做虽然看似方便，但实际上是非常危险的。因为一旦Nginx被攻击，攻击者就有可能获得系统的完全控制权。因此，始终要确保Nginx以非特权用户身份运行。 2.4 错误示例4：忽略文件系统权限即使我们已经为Nginx设置了正确的权限，但如果文件系统本身存在漏洞（如ext4的某些版本中的稀疏超级块问题），也可能导致安全风险。因此，定期检查并更新文件系统也是非常重要的。三、如何避免权限设置错误 3.1 学习最佳实践了解并遵循行业内的最佳实践是避免错误的第一步。比如，应该始终限制对敏感文件的访问，确保Web服务器仅能访问必要的资源。 3.2 使用工具辅助利用如auditd这样的审计工具可以帮助我们监控和记录权限更改，以便及时发现潜在的安全威胁。 3.3 定期审查配置定期审查和测试你的Nginx配置文件，确保它们仍然符合当前的安全需求。这就像是看看有没有哪里锁得不够紧，或者是不是该再加把锁来确保安全。 3.4 保持警惕安全永远不是一次性的工作。随着网络环境的变化和技术的发展，新的威胁不断出现。保持对最新安全趋势的关注，并适时调整你的防御策略。四、结语让我们一起变得更安全通过这篇文章，我希望你能对Nginx权限设置的重要性有所认识，并了解到一些常见的错误以及如何避免它们。记住，安全是一个持续的过程，需要我们不断地学习、实践和改进。让我们携手努力，共同打造一个更加安全的网络世界吧！ --- 以上就是关于Nginx权限设置错误的一篇技术文章。希望能帮到你，如果有啥不明白的或者想多了解点儿啥，尽管留言，咱们一起聊聊！

2024-12-14 16:30:28

素颜如水_

ZooKeeper

ZooKeeper设计原则详解：分布式协调服务中的顺序一致性、最终一致性和可观察性在数据一致性的实践与应用

...rk等中的任务调度、数据存储与一致性保证等方面发挥着关键作用。其实，ZooKeeper的成功绝不是天上掉馅饼的事儿，它的设计理念里头藏着不少既巧妙又接地气的“小秘密”，正是这些实实在在的原则，像支柱一样撑起了一个无比强大的分布式协作系统。接下来，我们将深入剖析ZooKeeper的设计原则，并结合实际代码示例进行解读。二、ZooKeeper 设计原则概览 1. 顺序一致性 (Linearizability) - 理解：ZooKeeper保证所有的更新操作遵循严格的顺序性，即看起来就像在单个进程上执行一样，这对于分布式环境下的事务处理至关重要。这意味着无论网络延迟如何变化，客户端收到的数据总是按照创建或者更新的顺序排列。 - 代码示例： java // 创建节点 Stat createdStat = zk.create("/my/znode", "initial data".getBytes(), Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT); // 更新节点 byte[] updatedData = "updated content".getBytes(); zk.setData("/my/znode", updatedData, -1); - 思考：如果两个客户端同时尝试创建同一个路径的节点，ZooKeeper会确保先创建的请求成功返回，后续的请求则等待并获得正确的顺序响应。 2. 最终一致性 (Eventual Consistency) - 理解：虽然ZooKeeper提供强一致性，但在高可用场景下，为了容忍临时网络分区和部分节点故障，它采用了一种最终一致性模型。客户端不会傻傻地卡在等待一个还没完成的更新上，而是能够继续干自己的活儿。等到网络恢复了，或者那个闹别扭的节点修好了，ZooKeeper这个小管家就会出马，保证所有客户端都能看到一模一样的最终结果，没得商量！ - 代码示例：当一个客户端尝试更新一个已有的zNode，ZooKeeper会为此次更新生成一个事务zxid（Transaction ID）。即使中途网络突然抽风一下断开了，别担心，一旦网络重新连上，客户端就会收到一条带着新zxid的更新消息，这就表示这个事务已经妥妥地完成提交啦！ java try { zk.exists("/my/znode", false); // check if zNode exists zk.setData("/my/znode", updatedData, -1); // update data with new transaction id } catch ( KeeperException.NoNodeException e) { System.out.println("ZNode doesn't exist yet"); } 3. 可观察性 (Observability) - 理解：ZooKeeper设计的核心在于使客户端能够感知服务器状态的变化，它通过Watcher监听机制让客户端在节点发生创建、删除、数据变更等事件后得到通知，从而保持客户端与ZooKeeper集群的同步。 - 代码示例： java // 注册一个节点变更的监听器 Watcher watcher = new Watcher() { @Override public void process(WatchedEvent event) { switch (event.getType()) { case NodeDeleted: System.out.println("ZNode deleted: " + event.getPath()); break; case NodeCreated: System.out.println("New ZNode created: " + event.getPath()); break; // ... other cases for updated or child events } }; }; zk.getData("/my/znode", false, watcher); 三、ZooKeeper设计原则的实际应用与影响综上所述，顺序一致性提供了数据操作的可靠性，最终一致性则兼顾了系统的容错性和可扩展性，而可观测性则是ZooKeeper支持分布式协调的关键特征。这三大原则，不仅在很大程度上决定了ZooKeeper自身的行为习惯和整体架构，还实实在在地重塑了我们开发分布式应用的方式。比如说，在搭建分布式锁、配置中心或者进行分布式服务注册与发现这些常见应用场景时，开发者能够直接借用ZooKeeper提供的API和设计思路，轻而易举地打造出高效又稳定的解决方案，就像是在玩乐高积木一样，把不同的模块拼接起来，构建出强大的系统。结论随着云计算时代的到来，大规模分布式系统对于一致性和可靠性的需求愈发凸显，ZooKeeper正是在这个背景下诞生并不断演进的一颗璀璨明星。真正摸透并灵活运用ZooKeeper的设计精髓，那咱们就仿佛掌握了在分布式世界里驰骋的秘诀，能够随心所欲地打造出既稳如磐石又性能超群的分布式应用。

2024-02-15 10:59:33

人生如戏-t

转载文章

[转载]【设计原则】依赖倒置原则 (面向接口编程)

...课程即可实现学习当业务需求拓展时，拓展方法也改变了：面向实现：需要改变底层的代码来协调我们需要使用的功能，用上面的例子来解释就是：当你想要学习一个课程，你就需要改变你底层的实现，增加新的代码面向接口：想学习什么课程，不会对其他课程造成影响，也不会影响到低层的Ggzx 。实际操作就是增加一门新的课程即可，实现接口之后，传入这个类到Ggzx的方法中就可以学习这一门课了相对于细节的多变性，抽象的东西更稳定，以抽象为基础搭建的架构比以细节搭建的架构更加稳定本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_52410356/article/details/122828154。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-08-26 15:35:43

634

转载

转载文章

[转载]linux内存管理总结

...种内存分配器在大规模数据处理场景下的对比评测报告，结果显示，在特定条件下，jemalloc能有效减少大对象分配时的延迟，而tcmalloc在小对象频繁分配回收的场景中表现更优。而在操作系统内核层面，Linux内核社区正在积极改进伙伴系统算法以适应新兴硬件架构的需求，例如针对非均匀内存访问（NUMA）节点的优化，以及通过合并多个小页以减少内存碎片的技术探索。此外，Slab分配器也在不断迭代升级，新的研究指出，通过引入智能缓存替换策略，可以进一步降低slab分配器的内存浪费，提高整体系统的资源利用率。同时，随着持久化内存、异构计算等新型硬件技术的发展，内存管理面临全新挑战。研究人员正尝试将传统内存管理模式与这些新技术相结合，如Intel Optane DC持久性内存的管理方案，以及针对GPU等加速设备的内存池设计，力求在保证高效的同时，最大限度地发挥新型硬件的潜力。综上所述，无论是用户空间还是内核空间的内存管理，都处于一个快速演进和技术革新的阶段，对于软件开发者和系统工程师而言，紧跟最新的研究成果和最佳实践，无疑是提升系统性能和稳定性的关键所在。

2023-02-26 20:46:17

232

转载

转载文章

[转载]Neighbor2Neighbor源码解读

...模方法，能够在无标签数据上实现高质量的图像去噪效果，这也为自监督去噪领域的研究提供了新的思路和方向。此外，值得一提的是，开源社区中的PyTorch Lightning库最近发布了一个针对图像去噪任务优化的模块，其中包含了对UNet模型以及多种噪声模型（如高斯噪声、泊松噪声）的支持，开发者可以直接利用这些资源快速构建并训练自己的自监督去噪模型，大大降低了研究门槛和开发成本。综上所述， Neighbor2Neighbor算法作为自监督图像去噪的典型代表，正随着深度学习和计算机视觉技术的发展不断得到丰富和完善，未来有望在医疗影像、遥感图像、艺术修复等多个领域发挥更大作用。而持续跟进最新的研究成果和技术动态，将有助于我们更好地掌握这一前沿技术，推动其实现更广泛的实际应用价值。

2023-06-13 14:44:26

129

转载

转载文章

[转载]Unity 协程探究

...tor来配合协程进行数据预取和更新，以减少主线程负担，提升游戏流畅度。此外，社区中有不少关于如何正确使用协程的最佳实践讨论，如避免滥用协程导致的内存泄漏问题，以及合理利用协程处理网络请求、动画序列、UI过渡等场景，这些实战经验对于Unity开发者来说具有很高的参考价值。值得注意的是，随着C语言的发展，.NET框架中对异步编程模型的支持也在不断加强，诸如async/await关键词的引入为Unity异步编程带来了更多可能。尽管Unity引擎目前并未原生支持async/await，但开发者可以通过一些第三方库或者巧妙转换，将async/await与协程相结合，构建出更为简洁高效的异步代码结构。综上所述，Unity协程作为游戏开发中的重要工具，在实际项目中扮演着不可或缺的角色。紧跟技术前沿，掌握协程与其他异步编程技术的融合应用，是提高游戏开发效率和用户体验的关键所在。

2023-11-24 16:50:42

390

转载

Kotlin

Kotlin：重塑编程体验 —— 简洁性、安全性与面向对象+功能性编程的融合

...方法，其核心思想是将数据和操作数据的方法封装成一个独立的对象。在Kotlin中，面向对象编程通过类、对象、继承、接口等概念得以实现，使得代码结构清晰，易于维护和扩展。功能性编程(FP) , 功能性编程是一种编程范式，强调使用函数来表达计算过程，避免改变状态和使用副作用。Kotlin通过支持高阶函数、局部函数、递归等功能，将功能性编程的特性融入到语言中，提供了一种更简洁、更易于测试的编程方式。跨平台开发(multi-platform development) , 跨平台开发是指编写一次代码可以在多个平台上运行的技术。Kotlin通过Kotlin/JS和Kotlin/Native等技术，支持在多种操作系统和设备上开发应用，包括Web浏览器、Android、iOS等，大大提高了开发效率和代码复用性。零成本抽象(zero-cost abstractions) , 零成本抽象是Kotlin设计哲学的一部分，指的是在使用抽象概念（如泛型、高阶函数等）时，不会增加额外的运行时开销或代码复杂度。这使得开发者能够使用更高级别的抽象而不担心性能损失，从而提高代码的可读性和可维护性。现代软件开发(modern software development) , 现代软件开发是指采用最新技术和最佳实践来创建高质量、可扩展和安全的软件系统的过程。Kotlin作为一门现代编程语言，结合了简洁的语法、强大的功能特性和跨平台支持，为现代软件开发提供了有力的工具，助力开发者构建更高效、更安全的应用程序。

2024-07-25 00:16:35

267

风轻云淡

转载文章

[转载]python 高级技巧

...理或函数封装，例如在数据库连接池的设计中闭包的作用尤为关键。同时，可关注GitHub上的热门Python库，了解装饰器在权限控制、性能监控等方面的实践。 2. 并发与并行编程发展：随着异步IO模型（如asyncio）的广泛应用，多线程编程在Python中有了新的发展趋势。阅读相关文章或教程，掌握协程的概念及其在高并发场景下的优势，并了解如何结合异步Socket通信提升网络服务性能。 3. 设计模式新解：近年来，领域驱动设计(DDD)、响应式编程等思想对传统设计模式提出了新的挑战与机遇。阅读有关如何将单例模式、工厂模式等经典设计模式融入现代架构的文章，以适应复杂软件系统的需求。 4. 网络通信深度解析：深入学习Socket编程底层原理，包括TCP/IP协议栈的工作机制，以及WebSocket、QUIC等新型传输协议的特点及其实现。实时跟进Python对于这些新技术的支持与发展动态。 5. 正则表达式的高级用法与优化：通过阅读最新的正则表达式优化指南，掌握如何编写高性能且易于维护的正则表达式，同时关注re模块的新特性，如regex库提供的扩展功能。 6. 递归算法在数据科学与人工智能中的作用：递归不仅在遍历目录结构时发挥作用，更在深度学习框架、图论算法、自然语言处理等领域有广泛的应用。阅读相关的学术论文或博客文章，了解递归在现代AI领域的具体实践案例。总之，理论知识与实践相结合才能更好地理解和运用上述编程技术，时刻关注行业动态和最新研究成果，将有助于提高技术水平和应对不断变化的技术挑战。

2023-05-28 18:35:16

转载

Beego

Beego项目实战：单元测试与集成测试在Go语言Web框架中的实现与应用，结合Ginkgo提升代码质量

...b开发中，常常会涉及数据库操作、路由处理、中间件等多个部分之间的集成。 2.2 Beego集成测试示例 Beego通过中间件机制使得集成测试变得相对容易。我们完全可以在控制器这一层面上，动手编写集成测试。就拿检查路由、处理请求、保存数据这些操作来说，都是我们可以验证的对象。比如，想象一下你正在玩一个游戏，你要确保从起点到终点的每一个步骤（就好比路由和请求处理）都能顺畅进行，而且玩家的所有进度都能被稳妥地记录下来（这就类似数据持久化的过程）。这样，咱们就能在实际运行中对整个系统做全面健康检查啦！创建一个controller_test.go文件并添加如下内容： go package controllers import ( "net/http" "testing" "github.com/astaxie/beego" "github.com/stretchr/testify/assert" ) type MockUserService struct{} func (m MockUserService) GetUser(id int64) (User, error) { return &User{ID: id, Name: fmt.Sprintf("User %d", id)}, nil } func TestUserController_GetByID(t testing.T) { userService := &MockUserService{} ctrl := NewUserController(userService) beego.SetController(&ctrl) request, _ := http.NewRequest("GET", "/users/1", nil) response := new(http.Response) defer response.Body.Close() _ctrl := beego.NewControllerWithRequest(request) _ctrl.ServeHTTP(response, nil) if response.StatusCode != http.StatusOK { t.Fatalf("Expected status code 200 but got %d", response.StatusCode) } userData, err := getUserFromResponse(response) assert.NoError(t, err) assert.NotNil(t, userData) assert.Equal(t, "User 1", userData.Name) } func getUserFromResponse(r http.Response) (User, error) { var user User err := json.Unmarshal(r.Body, &user) return &user, err } 五、结论通过以上讲解，相信你已经掌握了如何在Beego项目中编写单元测试和集成测试，它们各自对代码质量保障和功能协作的有效性不容忽视。在实际做项目的时候，咱们得瞅准不同的应用场景，灵活选用最对口的测试方案。并且，持续打磨、改进测试覆盖面，这样一来，你的代码质量就能妥妥地更上一个台阶，杠杠的！祝你在Beego开发之旅中，既能写出高质量的代码，又能保证万无一失的功能交付！

2024-02-09 10:43:01

460

落叶归根-t

Mongo

MongoDB联查中字段缺失问题排查：基于数据模型与$lookup的嵌套数组处理

...老朋友，一个热爱折腾数据库的程序员。最近我正在弄一个项目，结果碰上了一个超级烦人的事——在MongoDB里想把两个集合（就是表嘛）联查一下，结果发现有些字段直接不见了！我当时那个无语啊，心想这玩意儿不是挺牛的吗？怎么连个简单的联查都整不明白呢？真是把我整懵了。事情是这样的：我的项目需要从两个不同的集合中提取数据，并且要将它们合并在一起展示给用户。哎呀，乍一听这事儿挺 straightforward 的对不对？结果我一上手写查询语句，咦？怎么关键的几个字段就凭空消失了呢？真是让人摸不着头脑啊！这可把我急坏了，因为我必须把这些字段完整地呈现出来。于是乎，我开始了一段探索之旅，试图找到问题的答案。接下来的内容就是我在这段旅程中的所见所闻啦！ --- 2. 初步分析为什么会出现这种情况？首先，让我们来理清一下思路。MongoDB可是一款不走寻常路的数据库，跟那些死守SQL规则的传统关系型数据库不一样，它要随意得多，属于非主流中的“潮牌”选手！因此，在进行多集合查询时，我们需要特别注意一些细节。 2.1 数据模型设计的重要性在我的案例中，这两个集合分别是users和orders。users集合存储了用户的个人信息，而orders则记录了用户下的订单信息。嘿嘿，为了让查起来更方便，我专门给这两个集合加了个索引，还把它们用userId绑在一块儿了，这样找起来就跟串门似的，一下子就能找到啦！然而，当我执行以下查询时： javascript db.users.aggregate([ { $lookup: { from: "orders", localField: "userId", foreignField: "userId", as: "orderDetails" } } ]) 我发现返回的结果中缺少了一些关键字段，比如orders集合中的status字段。这是怎么回事呢？经过一番查阅资料后，我发现这是因为$lookup操作符虽然可以将两个集合的数据合并到一起，但它并不会自动包含所有字段。只有那些明确出现在查询条件或者投影阶段的字段才会被保留下来。 --- 3. 解决方案一步一步搞定问题既然找到了问题所在，那么接下来就是解决它的时候了！不过在此之前，我想提醒大家一句：解决问题的过程往往不是一蹴而就的，而是需要不断尝试与调整。所以请保持耐心，跟着我的脚步一步步走。 3.1 使用$project重新定义输出结构针对上述情况，我们可以利用$project阶段来手动指定需要保留的字段。比如，如果我希望在最终结果中同时看到users集合的所有字段以及orders集合中的status字段，就可以这样写： javascript db.users.aggregate([ { $lookup: { from: "orders", localField: "userId", foreignField: "userId", as: "orderDetails" } }, { $project: { _id: 1, name: 1, email: 1, orderStatus: "$orderDetails.status" } } ]) 这里需要注意的是，$project阶段允许我们对输出的字段进行重命名或者过滤。例如，我把orders集合中的status字段改名为orderStatus，以便于区分。 3.2 深入探究嵌套数组细心的朋友可能已经注意到，当我们使用$lookup时，返回的结果实际上是将orders集合中的匹配项打包成了一个数组（即orderDetails）。这就相当于说，如果我们要直接找到数组里的某个特定元素，还得费点功夫去搞定它呢！假设我现在想要获取第一个订单的状态，可以通过添加额外的管道步骤来实现： javascript db.users.aggregate([ { $lookup: { from: "orders", localField: "userId", foreignField: "userId", as: "orderDetails" } }, { $project: { _id: 1, name: 1, email: 1, firstOrderStatus: { $arrayElemAt: ["$orderDetails.status", 0] } } } ]) 这段代码使用了$arrayElemAt函数来提取orderDetails数组的第一个元素对应的status值。 --- 4. 总结与反思这次经历教会了我什么？经过这次折腾，我对MongoDB的聚合框架有了更深的理解。其实呢，它虽然挺灵活的，但这也意味着我们得更小心翼翼地把握查询逻辑，不然很容易就出问题啦！特别是处理那些涉及多个集合的操作时，你得弄明白每一步到底干了啥，不然就容易出岔子。最后，我想说的是，无论是在编程还是生活中，遇到困难并不可怕，可怕的是放弃思考。只要愿意花时间去研究和实践，总会找到解决问题的办法。希望大家都能从中受益匪浅！好了，今天的分享就到这里啦！如果你也有类似的经历或者疑问，欢迎随时留言交流哦~

2025-04-28 15:38:33

柳暗花明又一村_

转载文章

[转载]机器学习经典算法决策树原理详解（简单易懂）

...习方法。它是对给定的数据集学到一个模型对新示例进行分类的过程。下图所示为一个流程图的决策树，长方形代表判断模块（decision block），椭圆形代表终止模块（terminating block），表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作分支（branch），可以达到另一个判断模块或终止模块。决策过程是基于树结构来进行决策的。如下图，首先检查邮件域名地址，如果地址为myEmployer.com，则将其分类为“无聊时需要阅读的邮件”。否则，则检查邮件内容里是否包含单词“曲棍球”，如果包含则归类为“需要及时处理的朋友邮件”，如果不包含则归类到“无需阅读的垃圾邮件” 流程图形式的决策树显然，决策过程的最终结论对应了我们所希望的判定结果，例如"需要阅读"或"不需要阅读”。决策过程中提出的每个判定问题都是对某个属性的"测试"，如邮件地址域名为？是否包含“曲棍球”？每个测试的结果或是导出最终结论，或是导出进一步的判定问题，其考虑范围是在上次决策结果的限定范围之内，例如若邮件地址域名不是myEmployer.com之后再判断是否包含“曲棍球”。一般的，决策树包含一个根节点、若干个内部节点和若干个叶节点。根节点包含样本全集；叶节点对应于决策结果，例如“无聊时需要阅读的邮件”。其他每个结点则对应于一个属性测试；每个节点包含的样本集合根据属性测试的结果被划分到子结点中。决策树学习基本算法显然，决策树的生成是一个递归过程.在决策树基本算法中，有三种情形会导致递归返回: (1)当前结点包含的样本全属于同一类别，无需划分; (2)当前属性集为空，或是所有样本在所有属性上取值相同，无法划分; (3)当前结点包含的样本集合为空，不能划分。 2、划分选择决策树算法的关键是如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的"纯度" (purity)越来越高。（1）信息增益信息熵 "信息熵" (information entropy)是度量样本集合纯度最常用的一种指标，定义为信息的期望。假定当前样本集合 D 中第 k 类样本所占的比例为 ,则 D 的信息熵定义为： H(D)的值越小，则D的纯度越高。信息增益一般而言，信息增益越大，则意味着使周属性来进行划分所获得的"纯度提升"越大。因此，我们可用信息增益来进行决策树的划分属性选择，信息增益越大，属性划分越好。以西瓜书中表 4.1 中的西瓜数据集 2.0 为例，该数据集包含17个训练样例，用以学习一棵能预测设剖开的是不是好瓜的决策树.显然，。在决策树学习开始时，根结点包含 D 中的所有样例，其中正例占，反例占信息熵计算为：我们要计算出当前属性集合{色泽，根蒂，敲声，纹理，脐部，触感}中每个属性的信息增益。以属性"色泽"为例，它有 3 个可能的取值: {青绿，乌黑，浅自}。若使用该属性对 D 进行划分，则可得到 3 个子集，分别记为：D1 (色泽=青绿)， D2 (色泽2=乌黑)， D3 (色泽=浅白)。子集 D1 包含编号为 {1，4，6，10，13，17} 的 6 个样例，其中正例占 p1=3/6 ，反例占p2=3/6； D2 包含编号为 {2，3，7，8， 9，15} 的 6 个样例，其中正例占 p1=4/6 ，反例占p2=2/6； D3 包含编号为 {5，11，12，14，16} 的 5 个样例，其中正例占 p1=1/5 ，反例占p2=4/5；根据信息熵公式可以计算出用“色泽”划分之后所获得的3个分支点的信息熵为：根据信息增益公式计算出属性“色泽”的信息增益为（Ent表示信息熵）：类似的，可以计算出其他属性的信息增益：显然，属性"纹理"的信息增益最大，于是它被选为划分属性。图 4.3 给出了基于"纹理"对根结点进行划分的结果，各分支结点所包含的样例子集显示在结点中。然后，决策树学习算法将对每个分支结点做进一步划分。以图 4.3 中第一个分支结点( "纹理=清晰" )为例，该结点包含的样例集合 D 1 中有编号为 {1, 2, 3, 4, 5, 6, 8, 10, 15} 的 9 个样例，可用属性集合为{色泽，根蒂，敲声，脐部，触感}。基于 D1计算出各属性的信息增益： "根蒂"、 "脐部"、 "触感" 3 个属性均取得了最大的信息增益，可任选其中之一作为划分属性.类似的，对每个分支结点进行上述操作，最终得到的决策树如圈 4.4 所示。 3、剪枝处理剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝" (prepruning)和"后剪枝 "(post" pruning) [Quinlan, 1993]。预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。往期回顾 ● 带你详细了解机器视觉竞赛—ILSVRC竞赛 ● 到底什么是“机器学习”？机器学习有哪些基本概念？（简单易懂） ● 带你自学Python系列（一）：变量和简单数据类型（附思维导图） ● 带你自学Python系列（二）：Python列表总结-思维导图 ● 2018年度最强的30个机器学习项目！ ● 斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能（附195页PDF） ● 一文详解计算机视觉的广泛应用：网络压缩、视觉问答、可视化、风格迁移本篇文章为转载内容。原文链接：https://blog.csdn.net/Sophia_11/article/details/113355312。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-08-27 21:53:08

285

转载

转载文章

[转载]重学音视频？认识 MP4 视频（下）

...的对象组成的，所有的数据都存储在 Box 中。官方文档中把这些由对象结构组成的文件叫做 Object-structured File ，算是一个比较广义的概念，但我们就当做 MP4 格式好了，狭义地理解一下，并且这种文件格式必须要包含 File Type 类型的 Box 。 MP4 中的 Box MP4 中的 Box 有很多类型，每个类型中的 Box 代表的含义还不相同，但他们的基础结构还是相同的，继续往下看文档：每个 Box 是由 Header 和 Data 两部分组成的，Header 中包含了很多标识信息，而 Data 可以是纯数据也可以是其他的子 Box 。参照文档内容，Header 中包含了 Box 的大小 Size 和类型 Type。关于 Size 的说明，参考文档： size 字段包含了 Box 和子 Box 的大小，如果 size 为 1 ，说明实际的大小在 largesize 字段中，如果 size 为 0 ，说明这是文件最后一个 Box 了。关于 Type 的说明，参考文档： type 字段表示该 Box 的类型，标准的 Box 类型都是用四个字母来表示的，如果是用户自定义的类型，就用 uuid 来表示。另外，要强调一下 Box 的字节序是网络字节序，也就是大端序，关于 Box 结构的伪代码文档中也给出了：根据伪代码再看 Box 的结构定义就一目了然了。 MP4 中的 FullBox Box 可以说是所有 Box 类型的基类，接下来要了解它的第一个子类 FullBox 。 FullBox 在 Box 的基础上多了 version 和 flags 字段。其中 version 字段表示 Box 的版本，flags 字段是标志位。如果 Box 遇到了无法识别的 version 或者 type 字段，就应该跳过或者忽略。 MP4 中更多的 Box MP4 中还有很多类型的 Box ，其实有些 Box 相当重要，甚至面试中还会经常问到，下面从文档中给大家摘录一下所有的 Box 类型。这些内容在文档中都有，自行下载了，网络的一些资料可能还没有文档全面呢。后面我们也会继续讲解这些 Box 类型的，以及使用工具来查看 Box 信息，这节就先到这里啦！！！众所周知，开通了知识星球，邀请了一些在头条、快手等知名IT企业从事过音视频研发的朋友们做专业咨询，涉及的范围比较广，包括 Android/iOS 开发、Camera 开发、视频编辑、在线直播、WebRTC、播放器、OpenGL、C++ 等等，基本上涵盖了音视频工程领域的绝大部分内容。关于音视频入门如何学习，学习了 FFmpeg 之后又该怎么办，跳槽选择哪个方向比较好，程序员职业软技能等等之类的问题，更是会以行业一线开发人员的角度帮你认真分析，出谋划策。力求做到有问必答。在知识范围内，认真地对待每一个提问，不一定所有的问题都能答案，但每一个答案都是详细思考过的。更多开发资料、博客源码、文档教程都会在星球内给出，白菜价即可加入，iOS 用户可以加我微信 ezglumes 拉你进去！！！一个音视频领域专业问答的小圈子！加我微信 ezglumes 拉你入技术交流群推荐阅读：音视频开发工作经验分享 || 视频版 OpenGL ES 学习资源分享开通专辑 | 细数那些年写过的技术文章专辑 Android NDK 免费视频在线学习！！！你想要的音视频开发资料库来了推荐几个堪称教科书级别的 Android 音视频入门项目觉得不错，点个在看呗~ 本篇文章为转载内容。原文链接：https://blog.csdn.net/zhying719/article/details/124464016。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-21 17:43:21

438

转载

JSON

JSON中多次换行怎么写？用转义字符搞定多段落文本与字符串代码实践

JSON数据键的值，应该如何写多次换行的内容呢？一、初识JSON 为什么我们要讨论这个？大家好呀！今天我们来聊聊JSON——一种轻量级的数据交换格式。它就像是数据世界里的“万金油”，在前端和后端之间搭起了一座沟通的桥，让两边能顺畅地聊起天来。不过，今天我们要聊的可不是它的基本用法，而是稍微有点小复杂的问题：如何在JSON中表示包含多次换行的内容？先别急着翻白眼，这其实是个很有意思的事情。想象一下，如果你要存储一段长篇小说或者多段落的文本信息，而这些内容又包含了换行符，那么该如何优雅地处理呢？是不是有点挠头？但别担心，作为一个热爱折腾的程序员，我决定带你一起探索这个问题！ --- 二、JSON的基本规则它不是魔法，但也不是障碍首先，咱们得知道JSON的基本规则。JSON是一种基于文本的数据格式，主要由键值对组成。每个键必须是字符串，并且键和值之间需要用冒号分隔。至于值嘛，它可以是字符串、数字、布尔值、数组甚至是嵌套的对象。比如这样： json { "name": "张三", "age": 25, "isStudent": false, "hobbies": ["reading", "coding"] } 看起来很简单吧？但是，当我们尝试存储一些更复杂的文本内容时，事情就没那么简单了。比如你想存一首诗，或者一封邮件，里面可能有好多换行符，那怎么办呢？ --- 三、问题来了换行符的“尴尬”存在假设你正在写一个应用程序，需要让用户输入一段多行的文字，比如他们的个人简介。哎，你说如果用户输入的内容里带换行符怎么办？难道直接一股脑儿扔进JSON里？但问题来了啊，JSON这小家伙自己也不太争气，它压根儿就不允许字符串里直接留着换行符呢！这可咋整？除非你用某种方式告诉它，“嘿，这可是真的换行哦！” 这就像是你在写信的时候，突然发现信纸不够宽，只能把一句话分成两行写。而你的朋友收到信后，还得脑补那些断开的部分重新组合起来。所以，我们得想个办法让JSON能够正确地解析这些换行符。 --- 四、解决方案转义字符登场！幸运的是，JSON提供了一种非常聪明的方式来解决这个问题——转义字符。具体来说，如果你想在JSON字符串中表示换行符，可以使用\n来代替。这里的\n是一个特殊的符号，代表一个换行操作。举个例子： json { "poem": "静夜思\n床前明月光,\n疑是地上霜。\n举头望明月,\n低头思故乡。" } 在这个例子中，我们用\n来表示每一句诗之间的换行。当你把这个JSON解析出来时，程序会自动把这些\n替换成实际的换行符，于是输出的结果就会变成：静夜思床前明月光, 疑是地上霜。举头望明月, 低头思故乡。是不是很神奇？不过，这里有一个小技巧需要注意：如果你想要表示真正的反斜杠（\），那么你需要用双反斜杠（\\）来表示。因为单个反斜杠在JSON中会被认为是一个转义符。 --- 五、更复杂的情况多段落文本当然，现实中的情况往往比一首诗复杂得多。比如说，你得把一封邮件的内容存下来，而这封邮件的正文往往是由好几段话组成的，有长有短，啥样的都有。哎呀，光靠换行符 \n 可不一定行啊，毕竟你还得让每段之间留点空白，不然读起来就像一锅粥，分不清哪是哪呀！在这种情况下，你可以继续使用\n，同时注意合理安排段落结构。例如： json { "email": "亲爱的李四：\n\n很高兴收到您的来信。以下是我的回复：\n\n第一段内容...\n第二段内容..." } 在这里，\n\n表示两个连续的换行符，从而形成了一段空行。用这种方法，就能把文章分得清清楚楚的，读起来也顺溜多了！ --- 六、代码实践从理论到实战说了这么多理论，让我们动手试试看吧！下面是一些简单的代码示例，展示如何在JavaScript中生成和解析带有换行符的JSON数据。示例1：生成JSON字符串 javascript const data = { poem: "静夜思\n床前明月光,\n疑是地上霜。\n举头望明月,\n低头思故乡。", email: "亲爱的李四：\n\n很高兴收到您的来信。以下是我的回复：\n\n第一段内容...\n第二段内容..." }; // 将对象转换为JSON字符串 const jsonString = JSON.stringify(data); console.log(jsonString); 运行这段代码后，你会看到类似这样的输出： json {"poem":"静夜思\\n床前明月光,\\n疑是地上霜。\\n举头望明月,\\n低头思故乡。","email":"亲爱的李四：\\n\\n很高兴收到您的来信。以下是我的回复：\\n\\n第一段内容...\\n第二段内容..."} 可以看到，在生成的JSON字符串中，所有的\n都被转义成了\\n。示例2：解析JSON字符串 javascript const jsonString = '{"poem":"静夜思\\n床前明月光,\\n疑是地上霜。\\n举头望明月,\\n低头思故乡。","email":"亲爱的李四：\\n\\n很高兴收到您的来信。以下是我的回复：\\n\\n第一段内容...\\n第二段内容..."}'; // 将JSON字符串解析回对象 const parsedData = JSON.parse(jsonString); console.log(parsedData.poem); console.log(parsedData.email); 运行这段代码后，你会看到如下输出：静夜思床前明月光, 疑是地上霜。举头望明月, 低头思故乡。亲爱的李四：很高兴收到您的来信。以下是我的回复：第一段内容... 第二段内容... 瞧！我们的换行符终于生效啦！ --- 七、总结与反思好了，今天的分享就到这里啦！通过这篇文章，我们不仅了解了如何在JSON中处理多次换行的内容，还学习了一些实用的小技巧。虽然JSON看似简单，但它背后隐藏着很多有趣的细节。希望这些知识能帮助你在未来的编程旅程中更加游刃有余。最后，我想说的是，编程不仅仅是冷冰冰的技术活儿，它也是一种艺术形式。每一次解决问题的过程，都充满了挑战和乐趣。所以，不管遇到什么困难，都别轻易放弃，试着去思考、去尝试，说不定下一个突破就在前方等着你呢！祝大家 coding愉快！ 😊

2025-04-02 15:38:06

时光倒流_

ElasticSearch

ElasticSearch批量索引遇Failed问题复盘：数据格式与索引映射排查实例

...ticSearch做数据索引的时候，遇到了一个特别让人抓狂的问题——“Failed to bulk index documents into index my_index”。这就跟我在跑马拉松的时候鞋带突然散了似的，不仅跑得磕磕绊绊，连带着心里也一阵慌乱，开始怀疑自己是不是天生不适合这项运动。当时我的代码是这样的： python from elasticsearch import Elasticsearch es = Elasticsearch() actions = [ { "_index": "my_index", "_id": "1", "_source": {"name": "John", "age": 30} }, { "_index": "my_index", "_id": "2", "_source": {"name": "Jane", "age": 25} } ] response = es.bulk(index="my_index", body=actions) print(response) 结果呢？直接报错：“Failed to bulk index documents into index my_index”。我当时就纳闷了，到底哪儿出错了呢？是数据格式搞拧巴了，还是索引没弄对？要不就是我自己写的代码坑太多了？那种感觉啊，就好比你在厨房按着菜谱一步一步做菜，结果一开锅，发现把一顿饭整成了糊锅底的“黑暗料理”，真是欲哭无泪啊！二、初步排查从错误信息入手既然报错了，那我们就得从错误信息入手。首先，我们得看看ElasticSearch的日志，这是排查问题的第一步。日志里头一般会写得更详细一点，像是到底哪里错了、错得有多惨这种，还有那个堆栈信息啥的，看得人头都大了，但有时候不看又不行啊！我先打开了ElasticSearch的日志文件（一般在/var/log/elasticsearch/目录下），然后发现日志里显示了一个错误：“MapperParsingException[failed to parse]”。看到这个，我就明白了，可能是数据格式有问题。这时候我开始反思：是不是我的数据结构不符合ElasticSearch的映射规则？于是我又仔细检查了一下我的数据结构，发现确实有一个字段的数据类型没有定义好。比如说啊，我有个字段叫age，本来应该是整数类型的，但之前手滑写成字符串了，真是自己给自己挖坑。修正后的代码如下： python actions = [ { "_index": "my_index", "_id": "1", "_source": {"name": "John", "age": 30} 确保age是整数类型 }, { "_index": "my_index", "_id": "2", "_source": {"name": "Jane", "age": 25} } ] 再次运行代码后，果然不再报错了。这就算是舒了口气吧，不过也给我提了个醒：用 ElasticSearch 做批量索引的时候，这数据格式啊，真的一点都不能含糊，不然分分钟让你抓狂！三、深入分析为什么会出现这种问题？虽然问题解决了，但作为一个喜欢刨根问底的人，我还是想知道为什么会发生这样的事情。说白了，就是下次再碰到这种事儿，我可不想抓耳挠腮半天还搞不定，希望能一下子就找到路子！首先，我想到了ElasticSearch的映射机制。Elasticsearch 会检查每个字段的类型，就像老师检查作业一样认真。要是你传的数据类型跟它预想的对不上号，它就会直接“翻脸”，给你抛个 MapperParsingException 错误，仿佛在说：“哎哟喂，这啥玩意儿？重写！”比如说啊，你有个字段叫age（年龄），本来应该填数字的，结果你非得塞个字符串进去，那ElasticSearch就直接不认你的文档，直接拒收，根本不带商量的！其次，我还想到，ElasticSearch的bulk API其实是非常强大的，但它也有自己的规则。比如，bulk API要求每条文档必须包含_index、_type（虽然现在已经被废弃了）和_source字段。如果你漏掉了某个字段，或者字段名拼写错误，都会导致批量索引失败。最后，我还注意到，ElasticSearch的bulk API是基于HTTP协议的，这意味着它对网络环境非常敏感。要是你的网络老是断线，或者你等了半天也没收到回应，那可能就搞不定批量索引这事啦。

2025-04-20 16:05:02

春暖花开

转载文章

[转载]一份关于机器学习中线性代数学习资源的汇总

...·用Python进行数据分析 2017·Elegant Scipy 2015·Numpy指南作者信息 Jason Brownlee，机器学习专家，专注于机器学习教育文章原标题《Top Resources for Learning Linear Algebra for Machine Learning》，作者：Jason Brownlee，译者：海棠，审阅：袁虎。原文链接干货好文，请关注扫描以下二维码：本篇文章为转载内容。原文链接：https://blog.csdn.net/yunqiinsight/article/details/79722954。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-14 09:21:43

327

转载

转载文章

[转载]采集下拉词数据

...应内容。采集下拉词数据闲来无事，采集一下百度下拉数据 1 进行对应的网页分析下拉数据属于动态的数据，鼠标点击输入框出现，划出输入框消失所以先找到对应的数据包就要进行抓包操作 1.1 抓包操作发现其中的关键词，并复制打开浏览器的开发者模式（快捷键F12）并点击这个搜索按钮打开这个搜索按钮以后，进行粘贴操作并且按下回车！由图可知，只搜索到一个包，在查看这个包内容之前，应该就有90%的把握就是这个包了点开查看（没错就是这个包了）小细节：Preview是渲染之后的结果 Response是写代码请求的结果接下来我们就上代码 -- coding: UTF-8 --import jsonimport requestsfrom faker import Fakerdef get_aim(file_name):"""从文件里获取想要的关键词"""with open(file_name, mode='r', encoding='utf-8') as file:keys = file.read()return keysdef aim_letter(aim):"""获取到网页的json数据并保存到txt文件"""url = f'https://m.baidu.com/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=wise&from=wise_web&sugsid=128699,138809,114177,135846,141002,138945,140853,141677,138878,137978,141200,140173,131246,132552,137743,138165,107315,138883,140259,141754,140201,138585,141650,138253,140114,136196,140325,140579,133847,140793,140066,134046,131423,137703,110085,127969,140957,141581,140593,140865,139886,138426,138941,141190,140596&net=&os=&sp=null&rm_brand=0&callback=jsonp1&wd{aim}&sugmode=2&lid=12389568409845924354&sugid=1990018821100998871&preqy=java&_=1580993331416'headers = {'User-Agent': Faker().user_agent(),'Host': 'm.baidu.com','Referer': 'https://m.baidu.com/ssid=4348023d/s?word={aim}&ts=3254538&t_kt=0&ie=utf-8&rsv_iqid=2845402975&rsv_t=daabpEKSG2wGueEO%252FnXSVz2dj3oGTk5cF1suYK9xduVIBAnyA5yo&sa=ib&rsv_pq=2845402975&rsv_sug4=5130&tj=1&inputT=2405&sugid=1990018821100998871&ss=100'}res = requests.get(url, headers=headers) 由于获取到的数据不是标准的json数据要进行字符串的删减result = json.loads(res.text.replace('jsonp1', '').strip('()')) 保存到txt文件with open(f'百度下拉词.txt', mode='a', encoding='utf-8') as file:for key in result['g']:file.write(key + '\n')def main():"""进行整合，并捕捉错误"""name = input('请输入文件的名字：')start_time = time.time()try:letter = get_aim(name).split('\n') 利用线程池加快爬取速度with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor:for l in letter:executor.submit(get_data, l)except:print('请检查文件名是否存在或者文件名是否错误！！')else: 提示用户完成并打印运行时间时间print('' 30 + f'<{name}> 百度相关词已完成' + '' 30)finally:print(time.time() - start_time)if __name__ == '__main__':main() 在此要感谢我的晨哥!!!哈哈本篇文章为转载内容。原文链接：https://blog.csdn.net/Result_Sea/article/details/104201970。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-21 12:59:26

491

转载

Hadoop

基于Hadoop的ETL流程：集成Apache NiFi与Apache Beam进行数据清洗、转换和加载实操

随着大数据这股浪潮席卷而来，各行各业对数据处理的需求可以说是爆炸式增长。而Hadoop这个家伙，作为当前炙手可热的大数据处理框架之一，已经成功打入各个行业的核心地带，被大家伙儿广泛应用着。在实际处理数据的时候，咱们常常得干一些额外的活儿，比如给数据“洗洗澡”，变个身，再把它们装进系统里边去。这会儿，ETL工具就派上大用场啦！这次，咱就拿Hadoop和ETL工具的亲密合作当个例子，来说说Apache NiFi和Apache Beam这两个在数据圈里炙手可热的ETL小能手。我不仅会给你详细介绍它们的功能特点，还会通过实实在在的代码实例，手把手带你瞧瞧怎么让它们跟Hadoop成功牵手，一起愉快地干活儿。一、Apache NiFi简介 Apache NiFi是一个基于Java的流数据处理器，它可以接收、路由、处理和传输数据。这个东西最棒的地方在于，你可以毫不费力地搭建和管控那些超级复杂的实时数据流管道，并且它还很贴心地支持各种各样的数据来源和目的地，相当给力！由于它具有高度可配置性和灵活性，因此可以用于各种数据处理场景。二、Hadoop与Apache NiFi集成为了使Hadoop与Apache NiFi进行集成，我们需要安装Apache NiFi并将其添加到Hadoop集群中。具体步骤如下： 1. 安装Apache NiFi 我们可以从Apache NiFi的官方网站下载最新的稳定版本，并按照官方提供的指导手册进行安装。在安装这个东西的时候，我们得先调整几个基础配置，就好比NiFi的端口号码啦，还有它怎么进行身份验证这些小细节。 2. 将Apache NiFi添加到Hadoop集群中为了让Apache NiFi能够访问Hadoop集群中的数据，我们需要配置NiFi的环境变量。首先，我们需要确定Hadoop集群的位置，然后在NiFi的环境中添加以下参数： javascript export HADOOP_CONF_DIR=/path/to/hadoop/conf export HADOOP_HOME=/path/to/hadoop 3. 配置NiFi数据源接下来，我们需要配置NiFi的数据源，使其能够连接到Hadoop集群中的HDFS文件系统。在NiFi的用户界面里，我们可以亲自操刀，动手新建一个数据源，而且，你可以酷炫地选择“HDFS”作为这个新数据源的小马甲，也就是它的类型啦！然后，我们需要输入HDFS的地址、用户名、密码等信息。 4. 创建数据处理流程最后，我们可以创建一个新的数据处理流程，使Apache NiFi能够读取HDFS中的数据，并对其进行处理和转发。我们可以在NiFi的UI界面中创建新的流程节点，并将它们连接起来。例如，我们可以使用“GetFile”节点来读取HDFS中的数据，使用“TransformJSON”节点来处理数据，使用“PutFile”节点来将处理后的数据保存到其他位置。三、Apache Beam简介 Apache Beam是一个开源的统一编程模型，它可以用于构建批处理和实时数据处理应用程序。这个东西的好处在于，你可以在各种不同的数据平台上跑同一套代码，这样一来，开发者们就能把更多的精力放在数据处理的核心逻辑上，而不是纠结于那些底层的繁琐细节啦。四、Hadoop与Apache Beam集成为了使Hadoop与Apache Beam进行集成，我们需要使用Apache Beam SDK，并将其添加到Hadoop集群中。具体步骤如下： 1. 安装Apache Beam SDK 我们可以从Apache Beam的官方网站下载最新的稳定版本，并按照官方提供的指导手册进行安装。在安装这玩意儿的时候，我们得先调好几个基础配置，就好比Beam的通讯端口、验证登录的方式这些小细节。 2. 将Apache Beam SDK添加到Hadoop集群中为了让Apache Beam能够访问Hadoop集群中的数据，我们需要配置Beam的环境变量。首先，我们需要确定Hadoop集群的位置，然后在Beam的环境中添加以下参数： javascript export HADOOP_CONF_DIR=/path/to/hadoop/conf export HADOOP_HOME=/path/to/hadoop 3. 编写数据处理代码接下来，我们可以编写数据处理代码，并使用Apache Beam SDK来运行它。以下是使用Apache Beam SDK处理HDFS中的数据的一个简单示例： java public class HadoopWordCount { public static void main(String[] args) throws Exception { Pipeline p = Pipeline.create(); String input = "gs://dataflow-samples/shakespeare/kinglear.txt"; TextIO.Read read = TextIO.read().from(input); PCollection words = p | read; PCollection> wordCounts = words.apply( MapElements.into(TypeDescriptors.KVs(TypeDescriptors.strings(), TypeDescriptors.longs())) .via((String element) -> KV.of(element, 1)) ); wordCounts.apply(Write.to("gs://my-bucket/output")); p.run(); } } 在这个示例中，我们首先创建了一个名为“p”的Pipeline对象，并指定要处理的数据源。然后，我们使用“TextIO.Read”方法从数据源中读取数据，并将其转换为PCollection类型。接下来，我们要用一个叫“KV.of”的小技巧，把每一条数据都变个身，变成一个个键值对。这个键呢，就是咱们平常说的单词，而对应的值呢，就是一个简简单单的1。就像是给每个单词贴上了一个标记“已出现，记1次”。最后，我们将处理后的数据保存到Google Cloud Storage中的指定位置。五、结论总的来说，Hadoop与Apache NiFi和Apache Beam的集成都是非常容易的。只需要按照上述步骤进行操作，并编写相应的数据处理代码即可。而且，你知道吗，Apache NiFi和Apache Beam都超级贴心地提供了灵活度爆棚的API接口，这就意味着我们完全可以按照自己的小心思，随心所欲定制咱们的数据处理流程，就像DIY一样自由自在！相信过不了多久，Hadoop和ETL工具的牵手合作将会在大数据处理圈儿掀起一股强劲风潮，成为大伙儿公认的关键趋势。

2023-06-17 13:12:22

583

繁华落尽-t

转载文章

[转载]【WINDOWS】系统使用手册

...作状态即所有内存中的数据，写入到硬盘（这就是hiberfil.sys文件），然后关闭系统，在下次启动开机时，将保持的数据写回内存，虽然需要花费些时间，但好处就是你正在进行中的工作，都会被保存起来，就算断电以后也不回消失，这也就是为什么经常有人说几个月不用关机的原因，当然休眠并不是必须的，完全看你这个需求了，如果确实有需要也不用care这点硬盘啦。有网友说--这个文件大小的描述错误，hiberfil.sys的大小并≠内存大小，因为该文件貌似是压缩过。我的内存是8G，这个.hiberfil.sys有3.12G，这样看这个网友说的对的. hiberfi.sys的链接首先分清SLEEP睡眠和HIBERNATE休眠两个概念. 我们常用的是SLEEP睡眠功能, 也就是电脑经过一定时间后, 进入低功耗状态, 工作态度保存在内存里, 恢复时1-2秒就可以恢复原状态.这个功能是实用的, 也是最常用的. 而休眠是把工作状态即所有内存信息写入硬盘,如有2-4G内存,即要写入2-4G的文件到硬盘,然后才能关机,开机恢复要读取2-4G的文件到内存,才能恢复原界面.而大文件的读写要花大量的时间,已经不亚于正常开机了,所以现在休眠功能很不实用(针对1G以上内存). 休眠的HIBERFIL.SYS这个文件就是用来休眠时保存内存状态用的.会占用C盘等同内存容量的空间（以2G内存为例，这个文件也为2G），所以完全可以删掉而不影响大家使用.还会大大节省C盘空间的占用。操作: 以管理员运行CMD, 打以下命令: POWERCFG -H OFF 即自动删除该文件. 大家看处理前后C盘空间的变化就知道了. 怎么以管理员运行：在“所有程序”－＞“附件”－＞“命令提示符”上右键，选“以管理员运行” 如果本身是以管理员身份登录，直接运行cmd即可。我做的测试：文件位置C:\hiberfil.sys “pagefile.sys”是页面交换文件（即虚拟内存），这个文件不能删除，不过可以改变其大小和存放位置. 6.windows中的休眠与睡眠 windows中的休眠与睡眠 7.WPS中如何不做拼写检查 WPS中如何不做拼写检查 8.EV视频相关方法如何利用EV视频剪辑软件合并视频 EV剪辑怎么给视频添加字幕 9.WINDOW自带剪辑方法 WIN10自带剪辑视频的方法 10.快捷键大全快捷键大全 11.B站上传合集 B站上传合集 12.查看WIN电脑配置 13.windows远程桌面链接 win+Rmstsc 14.word中的边框和底纹如何应用于文字，段落和页面 word中边框和底纹——应用于文字、段落、页面分别如何设置？本篇文章为转载内容。原文链接：https://blog.csdn.net/Edidaughter/article/details/111231562。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-01 13:02:11

117

转载

Java

Spring Boot多模块项目中JSP无效问题排查：Web启动项、视图解析器配置与模块间依赖资源路径映射分析

...re: 应用的核心业务逻辑和服务模块 2. module-web: 启动项，主要包含Web相关的配置与控制层逻辑，依赖于module-core 3. module-views: 存放JSP视图文件，用于前端展示在此场景下，为确保正确识别并加载JSP视图，我们需要在module-web的配置文件中指定JSP后缀名（spring.mvc.view.suffix），例如： properties spring: mvc: view: prefix: /WEB-INF/views/ suffix: .jsp 然而，当运行程序并尝试访问Controller中带有相关视图名称的方法（如@GetMapping("/home")映射到WEB-INF/views/homePage.jsp）时，浏览器却无法显示出预期的JSP页面内容，且并未抛出任何异常，而是默认返回了空响应或者错误状态码。三、问题分析与排查面对这一看似简单的配置失效问题，我们首先需要进行如下几个方面的排查： 1. 检查视图解析器配置确保视图解析器org.springframework.web.servlet.view.InternalResourceViewResolver已被正确注册并设置了prefix与suffix属性。检查Spring Boot启动类（如WebMvcConfig.java或Application.java中的WebMvcConfigurer实现）： java @Configuration public class WebMvcConfig implements WebMvcConfigurer { @Override public void configureViewResolvers(ViewResolverRegistry registry) { InternalResourceViewResolver resolver = new InternalResourceViewResolver(); resolver.setPrefix("/WEB-INF/views/"); resolver.setSuffix(".jsp"); registry.viewResolver(resolver); } } 2. 模块间依赖与资源路径映射确认module-web是否正确引入了module-views的相关JSP文件，并指定了正确的资源路径。查看module-web的pom.xml或build.gradle文件中对视图资源模块的依赖路径： xml com.example module-views 1.0.0 war runtime classes // Gradle dependencies { runtimeOnly 'com.example:module-views:1.0.0' } 以及主启动类（如Application.java)中的静态资源映射配置： java @SpringBootApplication public class Application { @Bean TomcatServletWebServerFactory tomcat() { TomcatServletWebServerFactory factory = new TomcatServletWebServerFactory(); factory.addContextCustomizer((TomcatWebServerContext context) -> { // 将模块视图目录映射到根URL下 context.addWelcomeFile("index.jsp"); WebResourceRoot resourceRoot = new TomcatWebResourceRoot(context, "static", "/"); resourceRoot.addDirectory(new File("src/main/resources/static")); context.setResources(resourceRoot); }); return factory; } public static void main(String[] args) { SpringApplication.run(Application.class, args); } } 3. 检查JSP引擎配置确保Tomcat服务器配置已启用JSP支持。在module-web对应的application.properties或application.yml文件中配置JSP引擎： properties server.tomcat.jsp-enabled=true server.tomcat.jsp.version=2.3 或者在module-web的pom.xml或build.gradle文件中为Tomcat添加Jasper依赖： xml org.apache.tomcat.embed tomcat-embed-jasper provided // Gradle dependencies { implementation 'org.apache.tomcat.embed:tomcat-embed-jasper:9.0.54' } 4. 控制器与视图名称匹配验证在完成上述配置后，请务必核实Controller中返回的视图名称与其实际路径是否一致。如果存在命名冲突或者拼写错误，将会导致Spring MVC无法找到预期的JSP视图： java @GetMapping("/home") public String home(Model model) { return "homePage"; // 视图名称应更改为"WEB-INF/views/homePage.jsp" } 四、总结与解决办法综上所述，Spring Boot返回JSP无效的问题可能源于多个因素的叠加效应，包括但不限于视图解析器配置不完整、模块间依赖关系未正确处理、JSP引擎支持未开启、或Controller与视图名称之间的不对应等。要解决这个问题，需从以上几个方面进行逐一排查和修正。切记，在面对这类问题时，要保持冷静并耐心地定位问题所在，仔细分析配置文件、源代码和日志输出，才能准确找出症结所在，进而成功解决问题。这不仅让我们实实在在地磨炼了编程功夫，更是让咱们对Spring Boot这家伙的工作内幕有了更深的洞察。这样一来，我们在实际项目中遇到问题时，调试和应对的能力都像坐火箭一样嗖嗖提升啦！

2024-02-17 11:18:11

271

半夏微凉_t

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

nice -n priority_level command - 设置命令运行优先级。