Tesseract OCR：系统库依赖缺失引发初始化失败的深度剖析与解决方案 1. 引言在计算机视觉和自然语言处理领域，Tesseract作为一款开源、强大的光学字符识别（OCR）引擎，其广泛应用程度不言而喻。在实际动手开发的过程中，咱们时不时会遇到个让人脑壳疼的难题。就说这回吧，由于系统库里的依赖项没整全，结果让Tesseract初始化直接扑街了。这个看似微小的技术故障，却可能阻碍我们对图像文字信息提取的进程。这篇东西，咱们打算好好掰扯掰扯这个问题，不仅有理论上的深度剖析，还会搭配上实际的代码例子，让大家伙儿能摸清问题的来龙去脉，一起找着那条解决问题的“康庄大道”。 2. 系统库依赖的重要性 Tesseract OCR功能强大，但它的正常运行离不开一系列底层系统库的支持。比如说，就拿Leptonica这个库来说吧，它在图像处理前期可是大显身手，专门负责帮我们美化和调整图片。再瞅瞅libpng和libjpeg这些好家伙，它们的职责就是读取和保存各种格式的图片文件，让图像数据能自由转换。还有那个zlib库，人家的工作重点就是压缩和解压缩数据，让信息传输更高效，存储空间更节省。当你操作系统里头缺了那些必不可少的库文件时，你想要初始化Tesseract对象可就犯难了，那结果往往是尴尬地遭遇“初始化失败”，就像你准备做一顿大餐却发现关键调料没了一样。就像烹饪一道大餐，即使食材再丰富，若关键调料缺席，最终也难成佳肴。 python import pytesseract 若系统缺少相关依赖库，以下代码将无法成功执行 try: pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract' text = pytesseract.image_to_string('example.png') print(text) except Exception as e: print(f"初始化失败，错误原因：{str(e)}") 3. 初始化失败的实战案例与分析假设我们在Linux环境下尝试使用Python的pytesseract模块调用Tesseract进行OCR识别，但系统中并未安装相应的依赖库，那么上述代码将会抛出类似如下的异常： python 初始化失败，错误原因：OSError: Error in pixReadMemPng: function not present 从这个错误提示我们可以看出，Tesseract在尝试读取PNG图片文件时，由于libpng库未被正确链接或安装，而导致了初始化失败。 4. 解决方案完善系统库依赖面对这样的困境，我们首要任务就是确保所有必需的系统库已正确安装并可用。以下是针对Ubuntu系统的修复步骤示例： bash 更新包列表 sudo apt-get update 安装Tesseract所需依赖库 sudo apt-get install libtesseract-dev libleptonica-dev libjpeg-dev libpng-dev zlib1g-dev 在Windows或者Mac OS等其他操作系统下，也需要根据官方文档或社区指南，对应安装相应的库文件。安装完之后，记得再跑一遍你的Tesseract代码。理论上讲，这下子应该能够顺利启动并进行OCR识别了，妥妥的！ 5. 总结与思考每当我们面临技术难题，特别是像Tesseract初始化失败这样源于环境配置的问题时，不应仅仅停留在解决问题的层面，更应深入理解问题背后的原因。通过这次对系统库依赖缺失导致Tesseract初始化失败的讨论，我们不仅学会了如何排查此类问题，也加深了对软件开发中“依赖管理”重要性的认识。同时呢，这也正好敲响了我们日常开发工作的小闹钟，甭管项目是大是小，咱们都得把基础环境搭建这事看得比天还大。只有这样，手里的工具才能真正活起来，发挥出它们应有的威力，从而给我们的工作带来意想不到的强大助攻。

2023-02-15 18:35:20

154

秋水共长天一色

ActiveMQ

ActiveMQ中UnknownTopicException的针对性处理：从逻辑检查到Spring Integration解决方案

...系统的容错机制与自我修复功能也日益成熟。例如，Kafka提供了自动创建Topic的功能，并能在分布式环境下确保消息的持久化和顺序性，从而避免了类似UnknownTopicException的问题。对于系统设计者而言，除了熟悉各类消息队列产品的特性和异常处理机制外，还需要根据业务需求选择合适的消息模型（如发布/订阅或点对点），并在编码阶段就考虑好资源的初始化与验证逻辑，遵循“设计时预防问题胜于运行时解决问题”的原则。同时，参考《Enterprise Integration Patterns》一书中的消息通道模式与保证消息传递的相关理论，可以更好地指导我们在实际项目中设计健壮的消息队列体系，以应对包括UnknownTopicException在内的各种潜在问题，从而提升整个系统的稳定性和可靠性。

2023-09-27 17:44:20

476

落叶归根-t

PostgreSQL

数据恢复后PostgreSQL启动失败：排查日志文件与配置问题

...些关键信息，比如启动失败的原因、错误代码等。这些信息就像是一把钥匙，能够帮助我们解锁问题的真相。 3. 检查配置文件接下来，我们需要检查一下postgresql.conf和pg_hba.conf这两个配置文件。它们就像是数据库的大脑和神经系统，控制着数据库的方方面面。 3.1 postgresql.conf 这个文件包含了数据库的各种配置参数。如果你之前动过一些手脚，或者在恢复的时候不小心改了啥，可能就会启动不了了。你可以用文本编辑器打开它，比如用vim：代码示例： bash vim /etc/postgresql/12/main/postgresql.conf 仔细检查是否有明显的语法错误，比如拼写错误或者多余的逗号。另外，也要注意一些关键参数，比如data_directory是否指向正确的数据目录。 3.2 pg_hba.conf 这个文件控制着用户认证方式。如果恢复过程中用户认证方式发生了变化，也可能导致启动失败。代码示例： bash vim /etc/postgresql/12/main/pg_hba.conf 确保配置正确，比如： plaintext IPv4 local connections: host all all 127.0.0.1/32 md5 4. 数据库文件损坏有时候，数据恢复过程中可能会导致某些文件损坏，比如PG_VERSION文件。这个文件里写着数据库的版本号呢，要是版本号对不上，PostgreSQL可就启动不了啦。代码示例： bash 检查PG_VERSION文件 cat /var/lib/postgresql/12/main/PG_VERSION 如果发现文件损坏，你可能需要重新初始化数据库集群。但是要注意，这将清除所有数据，所以一定要备份好重要的数据。代码示例： bash sudo pg_dropcluster --stop 12 main sudo pg_createcluster --start -e UTF-8 12 main 5. 使用pg_resetwal工具如果以上方法都不奏效，我们可以尝试使用pg_resetwal工具来重置WAL日志。这个工具可以修复一些常见的启动问题，但同样也会丢失一些未提交的数据。代码示例： bash sudo pg_resetwal -D /var/lib/postgresql/12/main 请注意，这个操作风险较高，一定要确保已经备份了所有重要数据。 6. 最后的求助社区和官方文档如果你还是束手无策，不妨向社区求助。Stack Overflow、GitHub Issues、PostgreSQL邮件列表都是很好的资源。当然，官方文档也是必不可少的参考材料。代码示例： bash 查看官方文档 https://www.postgresql.org/docs/ 7. 总结通过以上的步骤，我们应该能够找到并解决PostgreSQL启动失败的问题。虽然过程可能有些曲折，但每一次的尝试都是一次宝贵的学习机会。希望你能顺利解决问题，继续享受PostgreSQL带来的乐趣！希望这篇指南能对你有所帮助，如果有任何问题或需要进一步的帮助，欢迎随时联系我。加油，我们一起解决问题！

2024-12-24 15:53:32

110

凌波微步_

Linux

Linux系统服务启动失败的精准排查：systemctl状态检查、配置文件审查与日志分析，解决依赖服务及资源限制问题

...，自然会导致服务启动失败。 2. 查阅服务启动日志日志中通常会包含更为详细的错误信息。就像刚才提到的这个命令“journalctl -xeu my_service”，它就像是个侦探，能帮我们在服务启动过程中的茫茫线索中，精准定位到问题究竟出在哪里，以及为什么会出错，可真是咱们排查故障的好帮手。 3. 检查依赖服务服务无法启动还可能是因为其依赖的服务未启动。在服务配置文件里头，我们可以重点瞅瞅“After”和“Requires”这两个字段，它们可是帮我们瞧瞧是否有啥依赖关系的关键家伙。这样一来，咱就能保证所有相关的依赖服务都运转得妥妥的，一切正常哈！ ini [Unit] After=network.target database.service Requires=database.service 4. 手动执行服务启动脚本在确定配置无误后，尝试手动执行服务启动脚本，看看是否可以独立运行，这有助于进一步缩小问题范围： bash /usr/local/bin/my_service_start.sh 5. 资源限制问题检查系统资源（如内存、CPU、磁盘空间等）是否充足，服务启动可能因为资源不足而失败。例如，通过free -m、df -h等命令进行资源检查。四、总结与反思面对Linux系统服务无法启动的问题，我们需要冷静分析，逐层排查。从设置服务的小细节，到启动时的日志记录，再到服务间的相互依赖关系以及资源使用的各种限制，每一个环节都得让我们瞪大眼睛、开动脑筋，仔仔细细地去琢磨和研究。通过亲手操作和实实在在的代码实例，咱们能更接地气地领悟Linux系统服务是怎么运转的，而且在遇到问题时，也能亮出咱们解决难题的勇气和智慧，就像个真正的技术大牛那样。总的来说，无论遇到何种技术问题，保持耐心、细心地查找线索，结合实践经验去理解和修复，这是我们每一位Linux运维人员必备的职业素养和技能。记住，每一次成功解决的问题，都是我们向更高技术水平迈进的坚实台阶！

2023-06-29 22:15:01

159

灵动之光

MyBatis

应对MyBatis配置文件中属性丢失与错误配置：数据库连接信息、映射器配置问题排查与解决方案

...yBatis无法正常初始化数据源，进而导致后续的数据操作失败。场景二：映射器配置路径错误 xml 映射器配置路径如果出现错误，会导致MyBatis找不到对应的映射文件，从而无法执行相关的SQL语句。 4. 探讨与分析当面对配置文件中的属性丢失或错误时，首先需要有敏锐的洞察力和细致的排查态度。比方说，当数据库连接突然罢工了，咱就得去瞅瞅日志输出，像侦探破案那样揪出错误的源头；再假如映射文件加载不给力出了岔子，咱可以通过IDE这个小助手的项目结构导航功能，或者亲自去磁盘里翻翻路径，来验证一下配置是否被咱们正确地安排上了。 5. 解决方案与预防措施 - 解决方案： - 对于属性丢失的问题，根据错误提示找到对应位置，补充正确的属性值。 - 对于配置错误的情况，核实并修正错误的路径或属性值。 - 预防措施： - 使用IDE的代码提示和格式化功能，确保配置文件的完整性。 - 在编写和修改配置文件后，及时进行单元测试，尽早发现问题。 - 采用环境变量或配置中心统一管理敏感信息，避免硬编码在配置文件中。 6. 结论理解和掌握MyBatis配置文件的正确使用方式是至关重要的，任何一个微小的疏忽都可能导致严重的运行时问题。当咱们遇到“配置文件里的属性神秘失踪或出错”这种情况时，可千万别慌不择路、急于求成，要稳住心态，像福尔摩斯破案那样冷静分析问题。然后，咱们得运用那些实打实有效的调试方法，第一时间把错误给纠正过来。而且，每一次解决这种小插曲的过程，都是咱们积累宝贵经验的好机会，这样一来，咱的开发技能和解决问题的能力也能噌噌噌地往上提升呢！同时，养成良好的编码习惯，持续优化配置管理，可以有效降低此类问题的发生概率。

2023-02-07 13:55:44

191

断桥残雪_

Struts2

Struts2中MyAction类实例化失败：排查默认构造函数、依赖注入与编译部署问题

...Action类实例化失败：Unable to instantiate action, Class com.example.MyAction——深入解析Struts2框架中的问题与解决方案 1. 引言在使用Apache Struts2进行Java Web开发时，我们可能会遇到一个常见的运行时错误：“Unable to instantiate action, Class com.example.MyAction”。这个错误提示是在告诉我们，Struts2框架在尝试创建指定的Action类时遇到了点状况。就像这次，它正努力生成一个名叫com.example.MyAction的家伙，结果却不那么顺利。这不仅影响到我们的业务逻辑执行，也阻碍了页面跳转等一系列交互过程。这篇东西，咱们会手把手地通过实实在在的代码实例，一起抽丝剥茧，探究这个问题背后的真相，同时还会给你献上一些实用的解决妙招。 2. 问题剖析情景还原假设你正在使用Struts2构建一个用户登录功能，并定义了一个处理登录请求的Action类MyAction： java package com.example; public class MyAction extends ActionSupport { private String username; private String password; // Getter and Setter methods for username and password... @Override public String execute() throws Exception { // Your login logic here... return "success"; } } 然后在struts.xml配置文件中映射该Action： xml /success.jsp 当用户发起登录请求访问login.action时，如果出现“Unable to instantiate action”错误，意味着Struts2在尝试创建MyAction实例时出现了异常。 3. 原因分析导致此类错误的原因可能有以下几点： - Action类未正确编译或部署：确保你的Action类已经被成功编译并且包含在WEB-INF/classes目录下，或者被正确的打包到WAR文件中。 - Action类没有默认构造函数：Struts2通过反射机制来创建Action对象，所以必须存在无参数的构造函数。 java // 正确示例 - 提供默认构造函数 public class MyAction extends ActionSupport { public MyAction() { // ... } // 其他代码... } - 依赖注入问题：如果你在Action类中使用了@Autowired等注解进行依赖注入，但在Spring容器还未完全初始化时就尝试实例化Action，也可能引发此问题。 - 类路径问题：检查你的类路径设置是否正确，确保Struts2能找到并加载对应的Action类。 4. 解决方案针对上述原因，我们可以采取如下措施： (1) 检查编译和部署情况确保你的Java源码已成功编译并部署到正确的目录结构中。 (2) 添加默认构造函数无论你的Action类是否有自定义构造函数，都应添加一个默认构造函数以满足Struts2的实例化需求。 (3) 确保依赖注入顺序如果是Spring与Struts2整合的问题，需要调整配置以保证Spring容器在Struts2开始实例化Action之前完成初始化。 (4) 核对类路径确认web应用的类路径设置正确无误，确保能够找到并加载到com.example.MyAction类。 5. 总结与探讨遇到“Unable to instantiate action”这类错误时，切勿慌乱，它通常是由于一些基础设置或编码规范问题所引起的。作为一个开发者，在我们每天敲代码的过程中，真的得对这些问题上点心，就像侦探破案一样，得仔仔细细地排查、调试。这样咱们才能真正摸清Struts2框架是怎么工作的，把它玩转起来，以后类似的错误才不会找上门来。同时呢，不断回顾、归纳总结这些经验教训，并且乐于分享给大伙儿，这对我们个人技术能力的提升，以及整个团队协作效率的提高，那可是大有裨益，可以说帮助不要太大！让我们携手共进，在实践中深化对Struts2框架的理解，共同面对并解决各种技术挑战！

2023-04-28 14:54:56

寂静森林

Struts2

Struts2框架中模板加载失败问题：路径配置错误、初始化异常与文件编码不一致解析及视图渲染影响

...开发者在面对模板加载失败问题时能更快定位原因。同时，对于编码不一致引发的问题，社区推荐使用统一资源文件管理工具进行集中式管理和自动检测，以确保项目内所有文件遵循相同的编码规范。此外，随着前后端分离架构的流行，部分开发者开始探讨如何将FreeMarker或Velocity与现代前端框架如React、Vue等结合使用，通过RESTful API接口传输数据模型至前端渲染，从而实现更高效、灵活的应用构建方式。一篇深度解析文章指出，尽管这种模式下模板引擎的角色有所变化，但其依旧在服务端渲染、邮件模板生成等方面发挥着重要作用。另外值得注意的是，由于历史漏洞问题，Struts2的安全性一直受到广泛关注。为此，开发者在实际运用中应密切关注CVE公告，并及时更新至修复相关漏洞的版本，尤其在配置模板路径和初始化引擎时，应遵循最小权限原则，避免因配置不当导致的安全风险。总之，在深入理解和解决Struts2框架中模板加载失败问题的基础上，广大开发者应当持续关注行业动态和技术发展趋势，适时调整和优化开发策略，既保证项目的稳定运行，也不断提升应用的整体性能和安全性。

2024-03-07 10:45:28

175

风轻云淡

Tomcat

细析Tomcat启动时的空指针异常：类加载器问题排查与代码修复案例

...加载器未能正确加载或初始化所需的类，导致了空指针异常。三、类加载器原理简述类加载器是Java运行时环境中负责加载类的机制。对于Tomcat，WebappClassLoader是最主要的类加载器，它负责从Web应用的类路径中加载类。如果类加载器找不到所需类，就可能导致空指针异常。四、问题定位与排查 1. 检查类路径（Classpath）确保你的类路径包含了所有需要的JAR文件，特别是Spring框架和相关依赖。比如说，你在pom.xml里列出了Spring Boot的依赖，那这些小宝贝JAR文件就得乖乖地加入咱们项目的“家庭相册”（类路径）！ xml org.springframework.boot spring-boot-starter-web 2. 检查类加载顺序 Spring Boot会使用两个类加载器，一个是Parent First ClassLoader，另一个是Application ClassLoader。确认它们是否按预期工作，避免相互覆盖或冲突。 3. 查看源码分析深入阅读Tomcat的WebappClassLoader源码，了解其加载过程，看看是否在某个阶段出了问题。你知道吗，"findClassInternal"这个小家伙就像是个游戏中的开关，要是你忘记给它输入班级名称，小心，空指针这个调皮鬼就可能跑出来捣蛋了！五、实例分析假设我们在一个Spring Boot项目中，尝试访问一个不存在的Controller： java @Controller public class NonExistentController { @GetMapping("/test") public String test() { return "Hello, World!"; } } 启动Tomcat后，由于NonExistentController未被正确加载，ContextLoaderListener会抛出空指针异常。这时，我们需要检查WebappClassLoader是否能够正确找到并加载这个类。六、解决方案与优化 1. 修复代码错误在上述例子中，只需将NonExistentController加入到项目中，或者确保类名拼写正确。 2. 配置元数据在Spring Boot中，可以使用@ComponentScan注解来指定要扫描的包，确保所有控制器都被正确加载。 java @SpringBootApplication @ComponentScan("com.example.demo.controllers") // 替换为你的实际包名 public class Application { public static void main(String[] args) { SpringApplication.run(Application.class, args); } } 3. 使用代理模式如果类加载器问题由第三方库引起，考虑使用代理模式（如Spring AOP）来替换有问题的部分，避免直接依赖于类加载器。七、结论解决Tomcat启动时的空指针异常涉及对类加载机制的深入理解。咱们得像侦探一样，一点一滴地排查那些藏在代码深处的类路径和加载顺序，找出那个捣蛋的源头，然后对症下药，修复它！你知道吗，面对这种难题，关键是要有点儿耐性和眼尖，因为答案常常藏在那些你可能轻易忽略的小角落里，就像寻宝一样，得仔仔细细地挖掘。

2024-04-09 11:00:45

267

心灵驿站

Hadoop

YARN ResourceManager初始化失败问题：排查Hadoop集群资源、配置文件错误与服务启动异常的解决方案

...rceManager初始化失败问题解决方案引言如果你是一名大数据工程师，那么你肯定对Hadoop这个名字并不陌生。你知道吗，那个叫Hadoop的开源大数据处理工具现在可火啦！不少公司都把它捧在手心里，广泛应用在自家的各种业务场景里头。这玩意儿就像个大数据处理的超级英雄，在企业界混得风生水起的！在Hadoop这个大家族里，有个不可或缺的角色名叫YARN（也就是“又一个资源协调器”这小名儿），它可是肩负重任的大管家，主要负责给各个任务分配资源、调度工作，可重要着呢！在实际工作中，我们常常会碰到一些让人挠头的小插曲，比如那个烦人的“YARN ResourceManager初始化不成功”的问题。这不，本文就要专门来和大家唠唠这个问题，掰开揉碎了详细分析，并且给出解决它的锦囊妙计。什么是YARN？首先，我们需要了解一下什么是YARN。简单来说呢，YARN就是个大管家，它在Hadoop2.x这个大家族里担任着资源管理和作业调度的重要角色。你可以把它想象成一个超级调度员，负责统筹协调所有资源的分配和各种任务的执行顺序，可厉害了！它就像个超级接班人，接手了Hadoop1.x那个老版本里MapReduce任务调度员的活儿，而且表现得更出色，不仅能更高效地给各种任务排兵布阵，还把任务管理这块搞得井井有条。在YARN这个大系统里，Resource Manager（RM）可是个举足轻重的角色。你就把它想象成一个超级大管家吧，它的日常工作就是紧盯着整个集群的资源状况，确保一切都在掌握之中。不仅如此，它还兼职了“调度员”的角色，各种类型的请求都会涌向它，然后由它来灵活调配、合理分配给各个部分去执行。 YARN ResourceManager初始化失败的原因当我们运行一个Hadoop应用时，YARN ResourceManager是最先启动的服务。如果出现“YARN ResourceManager初始化失败”的错误，通常会有很多种原因导致。下面我们就来一一剖析一下。 1. 集群资源不足当集群的物理资源不足时，例如CPU、内存等硬件资源紧张，就可能导致YARN ResourceManager无法正常初始化。此时需要考虑增加集群资源，例如增加服务器数量，升级硬件设备等。 2. YARN配置文件错误 YARN的运行依赖于一系列的配置文件，包括conf/hadoop-env.sh、core-site.xml、mapred-site.xml、yarn-site.xml等。要是这些配置文件里头有语法错误，或者设置得不太合理，就可能导致YARN ResourceManager启动时栽跟头，初始化失败。此时需要检查并修复配置文件。 3. YARN环境变量设置不当 YARN的运行还需要一些环境变量的支持，例如JAVA_HOME、HADOOP_HOME等。如果这些环境变量设置不当，也会导致YARN ResourceManager初始化失败。此时需要检查并设置正确的环境变量。 4. YARN服务未正确启动在YARN环境中，还需要启动一些辅助服务，例如NameNode、DataNode、Zookeeper等。如果这些服务未正确启动，也会导致YARN ResourceManager初始化失败。此时需要检查并确保所有服务都已正确启动。如何解决“YARN ResourceManager初始化失败”？了解了问题的原因后，接下来就是如何解决问题。根据上述提到的各种可能的原因，我们可以采取以下几种方法进行尝试： 1. 增加集群资源对于因为集群资源不足而导致的问题，最直接的解决办法就是增加集群资源。这可以通过添加新的服务器，或者升级现有的服务器硬件等方式实现。 2. 修复配置文件对于因为配置文件错误而导致的问题，我们需要仔细检查所有的配置文件，找出错误的地方并进行修复。同时，咱也得留意一下，改动配置文件这事儿，就像动了机器的小神经，可能会带来些意想不到的“副作用”。所以呢，在动手修改前，最好先做个全面体检——也就是充分测试啦，再给原来的文件留个安全备份，这样心里才更有底嘛。 3. 设置正确的环境变量对于因为环境变量设置不当而导致的问题，我们需要检查并设置正确的环境变量。如果你不清楚环境变量到底该怎么设置，别担心，这里有两个实用的解决办法。首先呢，你可以翻阅一下Hadoop官方网站的官方文档，那里面通常会有详尽的指导步骤；其次，你也可以尝试在互联网上搜一搜相关的教程或者攻略，网上有很多热心网友分享的经验，总有一款适合你。 4. 启动辅助服务对于因为辅助服务未正确启动而导致的问题，我们需要检查并确保所有服务都已正确启动。要是服务启动碰到状况了，不妨翻翻相关的文档资料，或者找专业的高手来帮帮忙。总结总的来说，解决“YARN ResourceManager初始化失败”这个问题需要我们具备一定的专业知识和技能。但是，只要我们有足够多的耐心和敏锐的观察力，就可以按照上面提到的办法，一步一步地把各种可能性都排查个遍，最后稳稳地找到那个真正能解决问题的好法子。最后，我想说的是，虽然这是一个比较棘手的问题，但我们只要有足够的信心和毅力，就一定能迎刃而解！

2024-01-17 21:49:06

565

青山绿水-t

Apache Solr

Apache Solr配置错误排查与解决方案：集群配置、数据源驱动类及安全漏洞修复实践

...ll Import）失败时，如文中所述由于驱动配置或JNDI名称未指定，就会触发此类异常。这个错误提示通常意味着Solr无法正确连接到外部数据源或者执行SQL查询来获取索引数据。 CoreContainer , 在Apache Solr中，CoreContainer是管理Solr核心集合（Solr Core）的主要容器类。它负责加载、初始化、监控和卸载Solr核心，并在集群环境下协调多个节点之间的状态和服务。在文章给出的代码示例中，CoreContainer用于启动Solr集群并查询其包含的核心集合的状态信息。 JMX (Java Management Extensions) , JMX是一种Java技术标准，用于管理和监控Java应用程序的各种资源，包括内存使用情况、线程池状态以及服务配置等。在Solr安全漏洞排查部分，建议关闭不必要的JMX服务以减少潜在的安全风险，防止恶意用户通过JMX接口远程访问和操控系统。全文索引 (Full-text Indexing) , 全文索引是一种将文档内容转换为可搜索格式的过程，允许用户搜索文本中的任何词组或短语。在Apache Solr中，全文索引是其主要功能之一，能够对大量非结构化数据进行高效检索。当遇到“全文索引导入失败”的问题时，需要排查与全文索引构建过程相关的配置和数据源连接问题。

2023-05-31 15:50:32

496

山涧溪流-t

Nacos

Nacos读不到配置文件？排查路径权限+网络连接终解决

...s服务器配置文件读取失败：我的排查之旅一、问题初现为什么Nacos读不到配置？事情得从头说起。我最近在做一个微服务项目，用了阿里巴巴的Nacos作为配置中心。哎呀，本来事情都挺顺的，结果有一天突然发现一个服务启动的时候，Nacos居然找不到配置文件了！我当时那个慌啊，心一下子提到了嗓子眼儿。 “不可能啊，之前都好好的，怎么今天就出问题了呢？”我心里嘀咕着。于是我赶紧翻看日志，发现报了一个错：“Config file not found in Nacos”。这下脑子更乱了，心里直嘀咕：“完啦，Nacos服务器该不会是罢工了吧？” 一想到这儿，赶紧三步并作两步跑去查看Nacos的状态，结果一看，嘿，人家还挺精神地在那里工作呢！ “不对劲啊，难道是我自己的代码出了问题？”我开始怀疑自己是不是哪里写错了。为了验证这个假设，我先尝试重启服务，但还是不行。然后我又跑到Nacos的配置管理页面瞅了一眼，嘿，发现配置文件确实已经上传成功了，路径啥的一点问题都没有，挺顺利的！这让我更加困惑了。 “真是奇怪，到底是哪里出问题了呢？”我决定一步步排查这个问题。 --- 二、初步排查配置路径和权限首先，我想到的第一个可能性就是配置路径的问题。其实 Nacos 是靠路径来找配置文件的，要是路径搞错了，那它就压根找不到文件，更别提读出来了。我打开代码，仔细检查了Nacos客户端的初始化部分： java NacosConfigService configService = NacosFactory.createConfigService("http://localhost:8848"); 这段代码看起来没问题啊，路径明明指向的是本地的Nacos服务器。而且我之前测试的时候也是这么写的，一直都没问题。 “会不会是配置路径格式变了？”我又重新检查了一遍Nacos的配置管理页面，确认路径确实正确无误。然后我又检查了权限设置，确保服务有权限访问这些配置。 “权限应该没问题吧，毕竟之前都好好的。”我自言自语道。不过嘛，我总觉得不放心，就随手叫上咱们的运维小伙伴帮我看了一下Nacos服务端的配置权限。没想到一看还真发现了点小问题，仔细一排查才发现权限其实没啥大事儿，一切正常！ “看来不是路径和权限的问题，那问题到底出在哪呢？”我有点沮丧，但还是不死心，继续往下查。 --- 三、深入排查网络连接与超时设置接下来，我开始怀疑是不是网络连接出了问题。毕竟Nacos是基于网络通信的，如果网络不通畅，那自然会导致读取失败。我先检查了Nacos服务端的日志，发现并没有什么异常。再瞧瞧服务端的那个监听端口，嘿，8848端口不仅开着呢，而且服务还稳稳地在跑着，一点问题没有！ “难道是客户端的网络问题？”我心中一动，赶紧查看了服务端的防火墙规则，确认没有阻断任何请求。接着我又尝试ping了一下Nacos服务端的IP地址，结果发现网络连通性很好。 “网络应该没问题啊，那会不会是超时时间设置得太短了？”我灵机一动，想到之前在其他项目中遇到过类似的问题，可能是客户端等待响应的时间太短，导致请求超时。于是我修改了Nacos客户端的配置，增加了超时时间： java Properties properties = new Properties(); properties.put(PropertyKeyConst.SERVER_ADDR, "localhost:8848"); properties.put(PropertyKeyConst.CONNECT_TIMEOUT_MS, "5000"); // 增加到5秒 NacosConfigService configService = NacosFactory.createConfigService(properties); 重新启动服务后，问题依然存在。看来超时时间也不是主要原因。 “真是搞不懂啊，难道是Nacos本身的问题？”我有些泄气，但还是决定继续深挖下去。 --- 四、终极排查代码逻辑与异常处理最后，我决定从代码逻辑入手，看看是不是程序内部的某些逻辑出了问题。于是我打开了Nacos客户端的源码，开始逐行分析。在Nacos客户端的实现中，有一个方法是用来获取配置的： java String content = configService.getConfig(dataId, group, timeoutMs); 我仔细检查了这个方法的调用点，发现它是在服务启动时被调用的。你瞧，服务一启动呢，就会加载一堆东西，像数据库连接池啦，缓存配置啦，各种各样的“装备”都得准备好，这样它才能顺利开工干活呀！ “会不会是某个配置项的加载顺序影响了Nacos的读取？”我突然想到这一点。我琢磨着这事儿，干脆把所有的配置加载顺序仔仔细细捋了一遍，就为了确保Nacos的配置能在服务刚启动的时候就给安排上，别拖到后面出了幺蛾子。同时，我还加强了异常处理逻辑，给Nacos的读取操作加上了try-catch块，以便捕获具体的异常信息： java try { String content = configService.getConfig(dataId, group, timeoutMs); System.out.println("Config loaded successfully: " + content); } catch (NacosException e) { System.err.println("Failed to load config: " + e.getMessage()); } 经过一番调整后，我再次启动服务，终于看到了一条令人振奋的消息：“Config loaded successfully”。 “太好了！”我长舒一口气，“原来问题就出在这里啊。” --- 五、总结与感悟经过这次折腾，我对Nacos有了更深的理解。Nacos这东西确实挺牛的，是个超棒的配置管理工具，但用着用着你会发现，它也不是完美无缺的，各种小问题啊、坑啊，时不时就冒出来折腾你一下。其实吧，这些问题真不一定是Nacos自己惹的祸，八成是咱们的代码写得有点问题，或者是环境配错了，带偏了Nacos。 “其实啊，调试的过程就像侦探破案一样，需要耐心和细心。我坐在电脑前忍不住感慨：“哎，有时候觉得这问题看起来平平无奇的，可谁知道背后可能藏着啥惊天大秘密呢！”” 总之，这次经历让我明白了一个道理：遇到问题不要慌，要冷静分析，逐步排查。只有这样，才能找到问题的根本原因，解决问题。希望我的经验能对大家有所帮助，如果有类似的问题，不妨按照这个思路试试看！

2025-04-06 15:56:57

清风徐来

Go-Spring

Go语言：错误处理与日志记录的最佳实践与案例分析

...in() { // 初始化日志器 sugarLogger := zap.NewExample().Sugar() defer sugarLogger.Sync() http.HandleFunc("/", func(w http.ResponseWriter, r http.Request) { sugarLogger.Info("Processing request", zap.String("method", r.Method), zap.String("path", r.URL.Path)) }) err := http.ListenAndServe(":8080", nil) if err != nil { sugarLogger.Fatal("Server start error", zap.Error(err)) } } 在这个例子中，我们使用了go.uber.org/zap库来初始化日志器。咱们用个俏皮点的糖糖(Sugar())功能做了一个小版的日志记录工具，这样就能更轻松地往里面塞进各种日志信息了。就像是给日记本添上了便利贴，想记录啥就直接贴上去，简单又快捷！当服务器启动失败时，日志器会自动记录错误信息并结束程序执行。 3. 结合错误处理与日志记录的最佳实践在实际应用中，错误处理和日志记录通常是紧密相连的。正确的错误处理策略应该包括： - 异常捕获：确保捕获所有潜在的错误，并适当处理或记录它们。 - 上下文信息：在日志中包含足够的上下文信息，帮助快速定位问题根源。 - 日志级别：根据错误的严重程度选择合适的日志级别（如INFO、ERROR）。 - 错误重试：对于可以重试的操作，实现重试机制，并在日志中记录重试尝试。示例代码： go package main import ( "context" "math/rand" "time" "go.uber.org/zap" ) func main() { rand.Seed(time.Now().UnixNano()) ctx, cancel := context.WithTimeout(context.Background(), 5time.Second) defer cancel() for i := 0; i < 10; i++ { err := makeNetworkCall(ctx) if err != nil { zap.Sugar().Errorf("Network call %d failed: %s", i, err) } else { zap.Sugar().Infof("Network call %d succeeded", i) } time.Sleep(1 time.Second) } } func makeNetworkCall(ctx context.Context) error { time.Sleep(time.Duration(rand.Intn(10)) time.Millisecond) return fmt.Errorf("network call failed after %d ms", rand.Intn(10)) } 在这个例子中，我们展示了如何在一个循环中处理网络调用，同时利用context来控制调用的超时时间。在每次调用失败时，我们记录详细的错误信息和调用次数。这种做法有助于在出现问题时快速响应和诊断。结论通过上述实践，我们可以看到GoSpring如何通过结构化错误处理和日志记录来提升应用的健壮性和维护性。哎呀，兄弟！如果咱们能好好执行这些招数，那可真是大有裨益啊！不仅能大大缩短遇到问题时，咱们得花多少时间去修复，还能省下一大笔银子呢！更棒的是，还能让咱们团队里的小伙伴们，心往一处想，劲往一处使，互相理解，配合得天衣无缝。这感觉，就像是大家在一块儿打游戏，每个人都有自己的角色，但又都为了一个共同的目标而努力，多带劲啊！哎呀，你知道吗？当咱们的应用越做越大，用GoSpring的那些工具和好方法，简直就是如虎添翼啊！这样咱就能打造出一个既稳如泰山又快如闪电，还特别容易打理的系统。想象一下，就像给你的小花园施肥浇水，让每一朵花都长得茁壮又美丽，是不是感觉棒极了？所以啊，别小看了这些工具和最佳实践，它们可是你建大事业的得力助手！

2024-07-31 16:06:44

277

月下独酌

转载文章

[转载]SQLite损坏修复

...。 SQLite损坏修复问题背景目前后台服务器应该是不保存聊天记录，口袋助理iOS端的所有聊天记录都存储在一个 SQLite 数据库中，一旦这个数据库损坏，将会丢失用户的聊天记录。解决思路预防措施： SQLite 是一个号称每行代码都有对应测试的成熟框架，其代码问题导致的 bug 非常少见。而一般损坏原因主要有3点：空间不足设备断电或 AppCrash 文件 sync 失败针对空间不足：通过中度的使用和观察，我发现 iOS 端的空间占用是相对合理的，并没有对存储空间的明显浪费。并且 App 会在数据库写入时检查可用空间，如果不足时会抛出空间不足的提示。针对设备断电或App崩溃：设备断电属于不可抗力。而 App 崩溃目前我们准备上线 APM 监控平台，预期在一到两个版本的迭代中把崩溃率降低到千分之一以下的行业优秀水平。针对文件 sync 失败：调整 synchronous = FULL ，保证每个事务的操作都能写入文件。目前CoreData的默认配置项。调整 fullfsync = 1 ，保证写入文件顺序和提交顺序一致，拒绝设备重排顺序以优化性能。此项会降低性能。对比得出写入性能大概降低至默认值的25%左右。优化效果：根据微信的实践，调整配置项后，损坏率可以降低一半，但并不能完全避免损坏，所以我们还是需要补救措施。补救措施：通过查阅 SQLite 的相关资料，发现修复损坏数据库的两种思路和四种方案。思路一：数据导出 .dump修复从 master 表中读出一个个表的信息，根据根节点地址和创表语句来 select 出表里的数据，能 select 多少是多少，然后插入到一个新 DB 中。每个SQLite DB都有一个sqlite_master表，里面保存着全部table和index的信息（table本身的信息，不包括里面的数据哦），遍历它就可以得到所有表的名称和 CREATE TABLE ...的SQL语句，输出CREATE TABLE语句，接着使用SELECT FROM ... 通过表名遍历整个表，每读出一行就输出一个INSERT语句，遍历完后就把整个DB dump出来了。这样的操作，和普通查表是一样的，遇到损坏一样会返回SQLITE_CORRUPT，我们忽略掉损坏错误，继续遍历下个表，最终可以把所有没损坏的表以及损坏了的表的前半部分读取出来。将 dump 出来的SQL语句逐行执行，最终可以得到一个等效的新DB。思路二：数据备份拷贝：不能再直白的方式。由于SQLite DB本身是文件（主DB + journal 或 WAL），直接把文件复制就能达到备份的目的。 .dump备份：上一个恢复方案用到的命令的本来目的。在DB完好的时候执行.dump，把 DB所有内容输出为 SQL语句，达到备份目的，恢复的时候执行SQL即可。 Backup API： SQLite自身提供的一套备份机制，按 Page 为单位复制到新 DB，支持热备份。综合思路：备份master表+数据导出 WCDB框架：数据库完整时备份master表，数据库损坏时通过使用已备份的master表读取损坏数据库来恢复数据。成功率大概是70%。缺点在于我们目前项目使用的是CoreData框架，迁移成本非常的高。没有办法使用。补救措施选型原则：这么多的方案孰优孰劣？作为一个移动APP，我们追求的就是用户体验，根据资料推断只有万分之一不到的用户会发生DB损坏，不能为了极个别牺牲全体用户的体验。不影响用户体验的方法就是好方案。主要考量指标如下：一：恢复成功率由于牵涉到用户核心数据，“姑且一试”的方案是不够的，虽说 100% 成功率不太现实，但 90% 甚至 99% 以上的成功率才是我们想要的。二：备份大小：原本用户就可能有2GB 大的 DB，如果备份数据本身也有2GB 大小，用户想必不会接受。三：备份性能：性能则主要影响体验和备份成功率，作为用户不感知的功能，占用太多系统资源造成卡顿是不行的，备份耗时越久，被系统杀死等意外事件发生的概率也越高。数据导出方案考量：恢复成功率大概是30%。不需要事先备份，故备份大小和备份性能都是最优的。备份方案考量：备份方案的理论恢复成功率都为100%，需要考量的即为备份大小和性能。拷贝：备份大小等于原文件大小。备份性能最好，直接拷贝文件，不需要运算。 Backup API：备份大小等于原文件大小。备份性能最差，原因是热备份，需要用到锁机制。 .dump：因为重新进行了排序，备份大小小于原文件。备份性能居中，需要遍历数据库生成语句。可以看出，比较折中的选择是 Dump ，备份大小具有明显优势，备份性能尚可，恢复性能较差但由于需要恢复的场景较少，算是可以接受的短板。深入钻研即使优化后的方案，对于大DB备份也是耗时耗电，对于移动APP来说，可能未必有这样的机会做这样重度的操作，或者频繁备份会导致卡顿和浪费使用空间。备份思路的高成本迫使我们从另外的方案考虑，于是我们再次把注意力放在之前的Dump方案。 Dump 方案本质上是尝试从坏DB里读出信息，这个尝试一般来说会出现两种结果： DB的基本格式仍然健在，但个别数据损坏，读到损坏的地方SQLite返回SQLITE_CORRUPT错误，但已读到的数据得以恢复。基本格式丢失（文件头或sqlite_master损坏），获取有哪些表的时候就返回SQLITE_CORRUPT，根本没法恢复。第一种可以算是预期行为，毕竟没有损坏的数据能部分恢复。从成功率来看，不少用户遇到的是第二种情况，这种有没挽救的余地呢？要回答这个问题，先得搞清楚sqlite_master是什么。它是一个每个SQLite DB都有的特殊的表，无论是查看官方文档Database File Format，还是执行SQL语句 SELECT FROM sqlite_master;，都可得知这个系统表保存以下信息：表名、类型（table/index）、创建此表/索引的SQL语句，以及表的RootPage。sqlite_master的表名、表结构都是固定的，由文件格式定义，RootPage 固定为 page 1。正常情况下，SQLite 引擎打开DB后首次使用，需要先遍历sqlite_master，并将里面保存的SQL语句再解析一遍，保存在内存中供后续编译SQL语句时使用。假如sqlite_master损坏了无法解析，“Dump恢复”这种走正常SQLite 流程的方法，自然会卡在第一步了。为了让sqlite_master受损的DB也能打开，需要想办法绕过SQLite引擎的逻辑。由于SQLite引擎初始化逻辑比较复杂，为了避免副作用，没有采用hack的方式复用其逻辑，而是决定仿造一个只可以读取数据的最小化系统。虽然仿造最小化系统可以跳过很多正确性校验，但sqlite_master里保存的信息对恢复来说也是十分重要的，特别是RootPage，因为它是表对应的B-tree结构的根节点所在地，没有了它我们甚至不知道从哪里开始解析对应的表。 sqlite_master信息量比较小，而且只有改变了表结构的时候（例如执行了CREATE TABLE、ALTER TABLE 等语句）才会改变，因此对它进行备份成本是非常低的，一般手机典型只需要几毫秒到数十毫秒即可完成，一致性也容易保证，只需要执行了上述语句的时候重新备份一次即可。有了备份，我们的逻辑可以在读取DB自带的sqlite_master失败的时候使用备份的信息来代替。到此，初始化必须的数据就保证了，可以仿造读取逻辑了。我们常规使用的读取DB的方法（包括dump方式恢复），都是通过执行SQL语句实现的，这牵涉到SQLite系统最复杂的子系统——SQL执行引擎。我们的恢复任务只需要遍历B-tree所有节点，读出数据即可完成，不需要复杂的查询逻辑，因此最复杂的SQL引擎可以省略。同时，因为我们的系统是只读的，写入恢复数据到新 DB 只要直接调用 SQLite 接口即可，因而可以省略同样比较复杂的B-tree平衡、Journal和同步等逻辑。最后恢复用的最小系统只需要： VFS读取部分的接口（Open/Read/Close），或者直接用stdio的fopen/fread、Posix的open/read也可以 B-tree解析逻辑 Database File Format 详细描述了SQLite文件格式，参照之实现B-tree解析可读取 SQLite DB。实现了上面的逻辑，就能读出DB的数据进行恢复了，但还有一个小插曲。我们知道，使用SQLite查询一个表，每一行的列数都是一致的，这是Schema层面保证的。但是在Schema的下面一层——B-tree层，没有这个保证。 B-tree的每一行（或者说每个entry、每个record）可以有不同的列数，一般来说，SQLite插入一行时， B-tree里面的列数和实际表的列数是一致的。但是当对一个表进行了ALTER TABLE ADD COLUMN操作，整个表都增加了一列，但已经存在的B-tree行实际上没有做改动，还是维持原来的列数。当SQLite查询到ALTER TABLE前的行，缺少的列会自动用默认值补全。恢复的时候，也需要做同样的判断和支持，否则会出现缺列而无法插入到新的DB。解析B-tree方案上线后，成功率约为78%。这个成功率计算方法为恢复成功的 Page 数除以总 Page 数。由于是我们自己的系统，可以得知总 Page 数，使用恢复 Page 数比例的计算方法比人数更能反映真实情况。 B-tree解析好处是准备成本较低，不需要经常更新备份，对大部分表比较少的应用备份开销也小到几乎可以忽略，成功恢复后能还原损坏时最新的数据，不受备份时限影响。坏处是，和Dump一样，如果损坏到表的中间部分，比如非叶子节点，将导致后续数据无法读出。落地实践：剥离封装RepairKit：从WCDB框架中，剥离修复组件，并且封装其C++的原始API为OC管理类。备份 master 表的时机：我们发现 SQLite 里面 B+树算法的实现是向下分裂的，也就是说当一个叶子页满了需要分裂时，原来的叶子页会成为内部节点，然后新申请两个页作为他的叶子页。这就保证了根节点一旦下来，是再也不会变动的。master 表只会在新创建表或者删除一个表时才会发生变化，而CoreData的机制表明每一次数据库的变动都要改动版本标识，那么我通过缓存和查询版本标识的变动来确定何时进行备份，避免频繁备份。备份文件有效性：既然 DB 可以损坏，那么这个备份文件也会损坏，怎么办呢？我用了双备份，每一个版本备份两个文件，如果一个备份恢复失败，就会启动另一个备份文件恢复。介入恢复时机：当CoreData初始化SQLite前，校验SQLite的Head完整性，如果不完整，进行介入修复。经过我深入研究证明了这已经是最佳做法。本篇文章为转载内容。原文链接：https://blog.csdn.net/a66666225/article/details/81637368。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-23 18:22:40

127

转载

转载文章

[转载]【总结】AWS的(助理)架构师认证体系详解

...Z来满足允许模块的失败重启 – 无状态设计比有状态设计好 – 使用ELB、云监控去检测“实例”运行状态有引导参数的实例（实现自动配置） – 例如：加入user data在启动的时候，告知它应该做的事情在关闭实例的时候，保存其配置和个性化 – 例如用DynamoDB保存session信息弹性后就不会为了超配资源而浪费钱了 4.4 安全是整体的事，需要在每个层面综合考虑基础架构层计算/网络架构层数据层应用层 4.5 最小授权原则只付于操作者完成工作的必要权限所有用户的操作必须授权三种类型的权限能操作AWS – 主账户 – IAM用户 – 授权服务(主要是开发的app） 5 设计：高可用、高效率、可容错、可扩展的系统本部分的目标是设计出高可用、高效率低成本、可容错、可扩展的系统架构 - 高可用 – 了解AWS服务自身的高可靠性（例如弹性负载均衡）—-因为ELB是可以多AZ部署的 – 用好这些服务可以减少可用性的后顾之忧 - 高效率(低成本) – 了解自己的容量需求，避免超额分配 – 利用不同的价格策略，例如：使用预留实例 – 尽量使用AWS的托管服务（如SNS、SQS） - 可容错 – 了解HA和容错的区别 – 如果说HA是结果，那么容错则是保障HA的一个重要策略 – HA强调系统不要出问题，而容错是在系统出了问题后尽量不要影响业务 - 可扩展性 – 需要了解AWS哪些服务自身就可以扩展，例如SQS、ELB – 了解自动伸缩组（AS）运用好 AWS 7大架构设计原则的：松耦合、实现弹性 6 实施和部署设计本部分的在设计的基础上找到合适的工具来实现对比第一部分“设计”，第一章主要针对用什么，而第二章则讨论怎么用主要考核AWS云的核心的服务目录和核心服务，包括：计算机和网络 – EC2、VPC 存储和内容分发 – S3、Glacier 数据库相关分类 – RDS 部署和管理服务 – CloudFormation、CloudWatch、IAM 应用服务 – SQS、SNS 7 数据安全数据安全的基础，是AWS责任共担的安全模型模型，必须要读懂数据安全包括4个层面：基础设施层、计算/网络层、数据层、应用层 - 基础设施层 1. 基础硬件安全 2. 授权访问、流程等 - 计算/网络层 1. 主要靠VPC保障网络（防护、路由、网络隔离、易管理） 2. 认识安全组和NACLs以及他们的差别安全组比ACL多一点，安全组可以针对其他安全组，ACL只能针对IP 安全组只允许统一，ACL可以设置拒绝安全组有状态！很重要（只要一条入站规则通过，那么出站也可以自动通过），ACL没有状态（必须分别指定出站、入站规则）安全组的工作的对象是网卡（实例）、ACL工作的对象是子网认识4种网关，以及他们的差别共有4种网关，支撑流量进出VPC internet gatway：互联网的访问 virtual private gateway：负责VPN的访问 direct connect：负责企业直连网络的访问 vpc peering：负责VPC的peering的访问数据层数据传输安全 – 进入和出AWS的安全 – AWS内部传输安全通过https访问API 链路的安全 – 通过SSL访问web – 通过IP加密访问VPN – 使用直连 – 使用OFFLINE的导入导出数据的持久化保存 – 使用EBS – 使用S3访问访问 – 使用IAM策略 – 使用bucket策略 – 访问控制列表临时授权 – 使用签名的URL 加密 – 服务器端加密 – 客户端加密应用层主要强调的是共担风险模型多种类型的认证鉴权给用户在应用层的保障建议 – 选择一种认证鉴权机制（而不要不鉴权） – 用安全的密码和强安全策略 – 保护你的OS（如打开防火墙） – 用强壮的角色来控制权限（RBAC）判断AWS和用户分担的安全中的标志是，哪些是AWS可以控制的，那些不能，能的就是AWS负责，否则就是用户（举个例子：安全组的功能由AWS负责—是否生效，但是如何使用是用户负责—自己开放所有端口跟AWS无关） AWS可以保障的用户需要保障的工具与服务操作系统物理内部流程安全应用程序物理基础设施安全组网络设施虚拟化设施 OS防火墙网络规则管理账号 8 故障排除问题经常包括的类型： - EC2实例的连接性问题 - 恢复EC2实例或EBS卷上的数据 - 服务使用限制问题 8.1 EC2实例的连接性问题经常会有多个原因造成无法连接外部VPC到内部VPC的实例 – 网关（IGW–internet网关、VPG–虚拟私有网关）的添加问题 – 公司网络到VPC的路由规则设置问题 – VPC各个子网间的路由表问题 – 弹性IP和公有IP的问题 – NACLs（网络访问规则） – 安全组 – OS层面的防火墙 8.2 恢复EC2实例或EBS卷上的数据注意EBS或EC2没有任何强绑定关系 – EBS是可以从旧实例上分离的 – 如有必要尽快做将EBS卷挂载到新的、健康的实例上执行流程可以针对恢复没有工作的启动卷（boot volume） – 将root卷分离出来 – 像数据一样挂载到其他实例 – 修复文件 – 重新挂载到原来的实例中重新启动 8.3 服务使用限制问题 AWS有很多软性限制 – 例如AWS初始化的时候，每个类型的EBS实例最多启动20个还有一些硬性限制例如 – 每个账号最多拥有100个S3的bucket – …… 别的服务限制了当前服务 – 例如无法启动新EC2实例，原因可能是EBS卷达到上限 – Trusted Advisor这个工具可以根据服务水平的不同给出你一些限制的参考（从免费试用，到商业试用，和企业试用的建议）常见的软性限制公共的限制 – 每个用户最多创建20个实例，或更少的实例类型 – 每个区域最多5个弹性ip – 每个vpc最多100个安全组 – 最多20个负载均衡 – 最多20个自动伸缩组 – 5000个EBS卷、10000个快照，4w的IOPS和总共20TB的磁盘 – …更多则需要申请了你不需要记住限制 – 知道限制，并保持数值敏感度就好 – 日后遇到问题时可以排除掉软限制的相关的问题 9. 总结 9.1 认证的主要目标是：确认架构师能否搜集需求，并且使用最佳实践，在AWS中构建出这个系统是否能为应用的整个生命周期给出指导意见 9.2 希望架构师(助理或专家级)考试前的准备：深度掌握至少1门高级别语言（c，c++，java等）掌握AWS的三份白皮书 – aws概览 – aws安全流程 – aws风险和应对 – 云中的存储选项 – aws的架构最佳实践按照客户需求，使用AWS组件来部署混合系统的经验使用AWS架构中心网站了解更多信息 9.3 经验方面的建议助理架构师 – 至少6个月的实际操作经验、在AWS中管理生产系统的经验 – 学习过AWS的基本课程专家架构师 – 至少2年的实际操作经验、在AWS中管理多种不同种类的复杂生产系统的经验（多种服务、动态伸缩、高可用、重构或容错） – 在AWS中执行构建的能力，架构的高级概念能力 9.4 相关资源认证学习的资源地址 - 可以自己练习，模拟考试需要付费的接下来就去网上报名参加考试本篇文章为转载内容。原文链接：https://blog.csdn.net/QXK2001/article/details/51292402。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-29 22:08:40

270

转载

转载文章

[转载]一文看懂 .NET 的异常处理机制、原则以及最佳实践

...了很多专业模式中才会初始化的类型实例（然而没有完成初始化），产生大量的额外异常；我们说程序雪崩了，多数功能再也无法正常使用了。当然如果任务已全部完成，仅仅在对外通知的时候出现了异常，那么这个时候不需要恢复状态，因为实际上已经完成了任务。你可能会有些担心如果我没有任何手段可以恢复错误怎么办？那这个时候就不要处理异常！——如果不知道如何恢复错误，请不要处理异常！让异常交给更上一层的模块处理，或者交给整个应用程序全局异常处理模块进行统一处理（这个后面会讲到）。另外，异常不能用于在正常执行过程中更改程序的流程。异常只能用于报告和处理错误条件。 finally 块的作用是清理资源。虽然 .NET 的垃圾回收机制可以在回收类型实例的时候帮助我们回收托管资源（例如 FileStream 类打开的文件），但那个时机不可控。因此我们需要在 finally 块中确保资源可被回收，这样当重新使用这个文件的时候能够立刻使用而不会被占用。一段异常处理代码中可能没有 catch 块而有 finally 块，这个时候的重点是清理资源，通常也不知道如何正确处理这个错误。一段异常处理代码中也可能 try 块留空，而只在 finally 里面写代码，这是为了“线程终止”安全考虑。在 .NET Core 中由于不支持线程终止因此可以不用这么写。详情可以参考：.NET/C 异常处理：写一个空的 try 块代码，而把重要代码写到 finally 中（Constrained Execution Regions） - walterlv。该不该引发异常？什么情况下该引发异常？答案是——这真的是一个异常情况！于是，我们可能需要知道什么是“异常情况”。一个可以参考的判断方法是——判断这件事发生的频率：如果这件事并不常见，当它发生时确实代表发生了一个错误，那么这件事情就可以认为是异常。如果这件事经常发生，代码中正常情况就应该处理这件事情，那么这件事情就不应该被认为是异常（而是正常流程的一部分）。例如这些情况都应该认为是异常：方法中某个参数不应该传入 null 时但传入了 null 这是开发者使用这个方法时没有遵循此方法的契约导致的，让开发者改变调用此方法的代码就可以完全避免这件事情发生而下面这些情况则不应该认为是异常：用户输入了一串字符，你需要将这串字符转换为数字用户输入的内容本身就千奇百怪，出现非数字的输入再正常不过了，对非数字的处理本就应该成为正常流程的一部分对于这些不应该认为是异常的情况，编写的代码就应该尽可能避免异常。有两种方法来避免异常：先判断再使用。例如读取文件之前，先判断文件是否存在；例如读取文件流时先判断是否已到达文件末尾。如果提前判断的成本过高，可采用 TryDo 模式来完成，例如字符串转数字中的 TryParse 方法，字典中的 TryGetValue 方法。对极为常见的错误案例返回 null（或默认值），而不是引发异常。极其常见的错误案例可被视为常规控制流。通过在这些情况下返回 NULL（或默认值），可最大程度地减小对应用的性能产生的影响。（后面会专门说 null）而当存在下列一种或多种情况时，应引发异常：方法无法完成其定义的功能。根据对象的状态，对某个对象进行不适当的调用。请勿有意从自己的源代码中引发 System.Exception、System.SystemException、System.NullReferenceException 或 System.IndexOutOfRangeException。该不该捕获异常？在前面 try-catch-finally 小节中，我们提到了 catch 块中应该写哪些代码，那里其实已经说明了哪些情况下应该处理异常，哪些情况下不应该处理异常。一句总结性的话是——如果知道如何从错误中恢复，那么就捕获并处理异常，否则交给更上层的业务去捕获异常；如果所有层都不知道如何处理异常，就交给全局异常处理模块进行处理。应用程序全局处理异常对于 .NET 程序，无论是 .NET Framework 还是 .NET Core，都有下面这三个可以全局处理的异常。这三个都是事件，可以自行监听。 AppDomain.UnhandledException 应用程序域未处理的异常，任何线程中未处理掉的异常都会进入此事件中当这里能够收到事件，意味着应用程序现在频临崩溃的边缘（从设计上讲，都到这里了，也再没有任何代码能够使得程序从错误中恢复了）不过也可以配置 legacyUnhandledExceptionPolicy 防止后台线程抛出的异常让程序崩溃退出建议在这个事件中记录崩溃日志，然后对应用程序进行最后的拯救恢复操作（例如保存用户的文档数据） AppDomain.FirstChanceException 应用程序域中的第一次机会异常我们前面说过，一个异常被捕获时，其堆栈信息将包含从 throw 块到 catch 块之间的所有帧，而在第一次机会异常事件中，只是刚刚 throw 出来，还没有被任何 catch 块捕捉，因此在这个事件中堆栈信息永远只会包含一帧（不过可以稍微变通一下在第一次机会异常 FirstChanceException 中获取比较完整的异常堆栈）注意第一次机会异常事件即便异常会被 catch 也会引发，因为它引发在 catch 之前不要认为异常已经被 catch 就万事大吉可以无视这个事件了。前面我们说过异常仅在真的是异常的情况才应该引发，因此如果这个事件中引发了异常，通常也真的意味着发生了错误（差别只是我们能否从错误中恢复而已）。如果你经常在正常的操作中发现可以通过此事件监听到第一次机会异常，那么一定是应用程序或框架中的异常设计出了问题（可能把正常应该处理的流程当作了异常，可能内部实现代码错误，可能出现了使用错误），这种情况一定是要改代码修 Bug 的。而一些被认为是异常的情况下收到此事件则是正常的。 TaskScheduler.UnobservedTaskException 在使用 async / await 关键字编写异步代码的时候，如果一直有 await 传递，那么异常始终可以被处理到；但中间有异步任务没有 await 导致异常没有被传递的时候，就会引发此事件。如果在此事件中监听到异常，通常意味着代码中出现了不正确的 async / await 的使用（要么应该修改实现避免异常，要么应该正确处理异常并从中恢复错误）对于 GUI 应用程序，还可以监听 UI 线程上专属的全局异常： WPF：Application.DispatcherUnhandledException 或者 Dispatcher.UnhandledException Windows Forms：Application.ThreadException 关于这些全局异常的处理方式和示例代码，可以参阅博客： WPF UnhandledException - Iron 的博客 - CSDN博客抛出哪些异常？任何情况下都不应该抛出这些异常：过于抽象，以至于无法表明其含义 Exception 这可是顶级基类，这都抛出来了，使用者再也无法正确地处理此异常了 SystemException 这是各种异常的基类，本身并没有明确的意义 ApplicationException 这是各种异常的基类，本身并没有明确的意义由 CLR 引发的异常 NullReferenceException 试图在空引用上执行某些方法，除了告诉实现者出现了意料之外的 null 之外，没有什么其它价值了 IndexOutOfRangeException 使用索引的时候超出了边界 InvalidCastException 表示试图对某个类型进行强转但类型不匹配 StackOverflow 表示栈溢出，这通常说明实现代码的时候写了不正确的显式或隐式的递归 OutOfMemoryException 表示托管堆中已无法分出期望的内存空间，或程序已经没有更多内存可用了 AccessViolationException 这说明使用非托管内存时发生了错误 BadImageFormatException 这说明了加载的 dll 并不是期望中的托管 dll TypeLoadException 表示类型初始化的时候发生了错误 .NET 设计失误 FormatException 因为当它抛出来时无法准确描述到底什么错了首先是你自己不应该抛出这样的异常。其次，你如果在运行中捕获到了上面这些异常，那么代码一定是写得有问题。如果是捕获到了上面 CLR 的异常，那么有两种可能：你的代码编写错误（例如本该判空的代码没有判空，又如索引数组超出界限）你使用到的别人写的代码编写错误（那你就需要找到它改正，或者如果开源就去开源社区中修复吧）而一旦捕获到了上面其他种类的异常，那就找到抛这个异常的人，然后对它一帧狂扁即可。其他的异常则是可以抛出的，只要你可以准确地表明错误原因。另外，尽量不要考虑抛出聚合异常 AggregateException，而是优先使用 ExceptionDispatchInfo 抛出其内部异常。详见：使用 ExceptionDispatchInfo 捕捉并重新抛出异常 - walterlv。异常的分类在该不该引发异常小节中我们说到一个异常会被引发，是因为某个方法声称的任务没有成功完成（失败），而失败的原因有四种：方法的使用者用错了（没有按照方法的契约使用）方法的执行代码写错了方法执行时所在的环境不符合预期简单说来，就是：使用错误，实现错误、环境错误。使用错误： ArgumentException 表示参数使用错了 ArgumentNullException 表示参数不应该传入 null ArgumentOutOfRangeException 表示参数中的序号超出了范围 InvalidEnumArgumentException 表示参数中的枚举值不正确 InvalidOperationException 表示当前状态下不允许进行此操作（也就是说存在着允许进行此操作的另一种状态） ObjectDisposedException 表示对象已经 Dispose 过了，不能再使用了 NotSupportedException 表示不支持进行此操作（这是在说不要再试图对这种类型的对象调用此方法了，不支持） PlatformNotSupportedException 表示在此平台下不支持（如果程序跨平台的话） NotImplementedException 表示此功能尚在开发中，暂时请勿使用实现错误：前面由 CLR 抛出的异常代码主要都是实现错误 NullReferenceException 试图在空引用上执行某些方法，除了告诉实现者出现了意料之外的 null 之外，没有什么其它价值了 IndexOutOfRangeException 使用索引的时候超出了边界 InvalidCastException 表示试图对某个类型进行强转但类型不匹配 StackOverflow 表示栈溢出，这通常说明实现代码的时候写了不正确的显式或隐式的递归 OutOfMemoryException 表示托管堆中已无法分出期望的内存空间，或程序已经没有更多内存可用了 AccessViolationException 这说明使用非托管内存时发生了错误 BadImageFormatException 这说明了加载的 dll 并不是期望中的托管 dll TypeLoadException 表示类型初始化的时候发生了错误环境错误： IOException 下的各种子类 Win32Exception 下的各种子类 …… 另外，还剩下一些不应该抛出的异常，例如过于抽象的异常和已经过时的异常，这在前面一小结中有说明。其他一些常见异常的原因和解决方法在平时的开发当中，你可能会遇到这样一些异常，它不像是自己代码中抛出的那些常见的异常，但也不包含我们自己的异常堆栈。这里介绍一些常见这些异常的原因和解决办法。 AccessViolationException 当出现此异常时，说明非托管内存中发生了错误。如果要解决问题，需要从非托管代码中着手调查。这个异常是访问了不允许的内存时引发的。在原因上会类似于托管中的 NullReferenceException。参考资料 Handling and throwing exceptions in .NET - Microsoft Docs Exceptions and Exception Handling - C Programming Guide - Microsoft Docs 我的博客会首发于 https://blog.walterlv.com/，而 CSDN 会从其中精选发布，但是一旦发布了就很少更新。如果在博客看到有任何不懂的内容，欢迎交流。我搭建了 dotnet 职业技术学院欢迎大家加入。本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布，但务必保留文章署名吕毅（包含链接：https://walterlv.blog.csdn.net/），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。如有任何疑问，请与我联系。本篇文章为转载内容。原文链接：https://blog.csdn.net/WPwalter/article/details/94610764。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-13 13:38:26

转载

转载文章

[转载]软件供应链安全威胁：从“奥创纪元”到“无限战争”

...ssue，并跟进漏洞修复过程；在第一次修复之后，复核并指出修复代码无效，给出了有效patch。这个过程是常规操作。漏洞疑点有意思的是，在漏洞披露邮件中，Pavel重点谈了自己对这系列漏洞的一些周边发现，也是这里提到的原因。其中，关于存在漏洞的代码，作者表述：我最初认为，这些问题是libvnc开发者自己代码中的错误，但看起来并非如此。其中有一些（如CoRRE数据处理函数中的堆缓冲区溢出），出现在AT&T实验室1999年的代码中，而后被很多软件开发者原样复制（在Github上搜索一下HandleCoRREBPP函数，你就知道），LibVNC和TightVNC也是如此。为了证实，翻阅了这部分代码，确实在其中数据处理相关代码文件看到了剑桥和AT&T实验室的文件头GPL声明注释，中国菜刀这证实这些文件是直接从最初剑桥实验室版本VNC移植过来的，且使用方式是直接代码包含，而非独立库引用方式。在官方开源发布并停止更新后，LibVNC使用的这部分代码基本没有改动——除了少数变量命名方式的统一，以及本次漏洞修复。通过搜索，我找到了2000年发布的相关代码文件，确认这些文件与LibVNC中引入的原始版本一致。另外，Pavel同时反馈了TightVNC中相同的问题。TightVNC与LibVNC没有继承和直接引用关系，但上述VNC代码同样被TightVNC使用，问题的模式不约而同。Pavel测试发现在Ubuntu最新版本TightVNC套件（1.3.10版本）中同样存在该问题，上报给当前软件所有者GlavSoft公司，但对方声称目前精力放在不受GPL限制的TightVNC 2.x版本开发中，对开源的1.x版本漏洞代码“可能会进行修复”。看起来，这个问题被踢给了各大Linux发行版社区来焦虑了——如果他们愿意接锅。问题思考在披露邮件中，Pavel认为，这些代码bug“如此明显，让人无法相信之前没被人发现过……也许是因为某些特殊理由才始终没得到修复”。事实上，我们都知道目前存在一些对开源基础软件进行安全扫描的大型项目，例如Google的OSS；同时，仍然存活的开源项目也越来越注重自身代码发布前的安全扫描，Fortify、Coverity的扫描也成为很多项目和平台的标配。在这样一些眼睛注视下，为什么还有这样的问题？我认为就这个具体事例来说，可能有如下两个因素： ·上游已死。仍然在被维护的代码，存在版本更迭，也存在外界的持续关注、漏洞报告和修复、开发的迭代，对于负责人的开发者，持续跟进、评估、同步代码的改动是可能的。但是一旦一份代码走完了生命周期，就像一段史实一样会很少再被改动。 ·对第三方上游代码的无条件信任。我们很多人都有过基础组件、中间件的开发经历，不乏有人使用Coverity开启全部规则进行代码扫描、严格修复所有提示的问题甚至编程规范warning；报告往往很长，其中也包括有源码形式包含的第三方代码中的问题。但是，我们一方面倾向于认为这些被广泛使用的代码不应存在问题（不然早就被人挖过了），一方面考虑这些引用的代码往往是组件或库的形式被使用，应该有其上下文才能认定是否确实有可被利用的漏洞条件，现在单独扫描这部分代码一般出来的都是误报。所以这些代码的问题都容易被忽视。但是透过这个具体例子，再延伸思考相关的实践，这里最根本的问题可以总结为一个模式：复制粘贴风险。复制粘贴并不简单意味着剽窃，实际是当前软件领域、互联网行业发展的基础模式，但其中有一些没人能尝试解决的问题： ·在传统代码领域，如C代码中，对第三方代码功能的复用依赖，往往通过直接进行库的引入实现，第三方代码独立而完整，也较容易进行整体更新；这是最简单的情况，只需要所有下游使用者保证仅使用官方版本，跟进官方更新即可；但在实践中很难如此贯彻，这是下节讨论的问题。 ·有些第三方发布的代码，模式就是需要被源码形式包含到其他项目中进行统一编译使用（例如腾讯的开源Json解析库RapidJSON，就是纯C++头文件形式）。在开源领域有如GPL等规约对此进行规范，下游开发者遵循协议，引用代码，强制或可选地显式保留其GPL声明，可以进行使用和更改。这样的源码依赖关系，结合规范化的changelog声明代码改动，侧面也是为开发过程中跟进考虑。但是一个成型的产品，比如企业自有的服务端底层产品、中间件，新版本的发版更新是复杂的过程，开发者在旧版本仍然“功能正常”的情况下往往倾向于不跟进新版本；而上游代码如果进行安全漏洞修复，通常也都只在其最新版本代码中改动，安全修复与功能迭代并存，如果没有类似Linux发行版社区的努力，旧版本代码完全没有干净的安全更新patch可用。 ·在特定场景下，有些开发实践可能不严格遵循开源代码协议限定，引入了GPL等协议保护的代码而不做声明（以规避相关责任），丢失了引入和版本的信息跟踪；在另一些场景下，可能存在对开源代码进行大刀阔斧的修改、剪裁、定制，以符合自身业务的极端需求，但是过多的修改、人员的迭代造成与官方代码严重的失同步，丧失可维护性。 ·更一般的情况是，在开发中，开发者个体往往心照不宣的存在对网上代码文件、代码片段的复制-粘贴操作。被参考的代码，可能有上述的开源代码，也可能有各种Github作者练手项目、技术博客分享的代码片段、正式开源项目仅用来说明用法的不完备示例代码。这些代码的引入完全无迹可寻，即便是作者自己也很难解释用了什么。这种情况下，上面两条认定的那些与官方安全更新失同步的问题同样存在，且引入了独特的风险：被借鉴的代码可能只是原作者随手写的、仅仅是功能成立的片段，甚至可能是恶意作者随意散布的有安全问题的代码。由此，问题进入了最大的发散空间。在Synopsys下BLACKDUCK软件之前发布的《2018 Open Source Security and Risk Analysis Report》中分析，96%的应用中包含有开源组件和代码，开源代码在应用全部代码中的占比约为57%，78%的应用中在引用的三方开源代码中存在历史漏洞。也就是说，现在互联网上所有厂商开发的软件、应用，其开发人员自己写的代码都是一少部分，多数都是借鉴来的。而这还只是可统计、可追溯的；至于上面提到的非规范的代码引用，如果也纳入进来考虑，三方代码占应用中的比例会上升到多少？曾经有分析认为至少占80%，我们只期望不会更高。 Ⅱ. 从碎片到乱刃：OpenSSH在野后门一览在进行基础软件梳理时，回忆到反病毒安全软件提供商ESET在2018年十月发布的一份白皮书《THE DARK SIDE OF THE FORSSHE: A landscape of OpenSSH backdoors》。其站在一个具有广泛用户基础的软件提供商角度，给出了一份分析报告，数据和结论超出我们对于当前基础软件使用全景的估量。以下以我的角度对其中一方面进行解读。一些必要背景 SSH的作用和重要性无需赘言；虽然我们站在传统互联网公司角度，可以认为SSH是通往生产服务器的生命通道，但当前多样化的产业环境已经不止于此（如之前libssh事件中，不幸被我言中的，SSH在网络设备、IoT设备上（如f5）的广泛使用）。 OpenSSH是目前绝大多数SSH服务端的基础软件，有完备的开发团队、发布规范、维护机制，本身是靠谱的。如同绝大多数基础软件开源项目的做法，OpenSSH对漏洞有及时的响应，针对最新版本代码发出安全补丁，但是各大Linux发行版使用的有各种版本的OpenSSH，这些社区自行负责将官方开发者的安全补丁移植到自己系统搭载的低版本代码上。天空彩白皮书披露的现状如果你是一个企业的运维管理人员，需要向企业生产服务器安装OpenSSH或者其它基础软件，最简单的方式当然是使用系统的软件管理安装即可。但是有时候，出于迁移成本考虑，可能企业需要在一个旧版本系统上，使用较新版本的OpenSSL、OpenSSH等基础软件，这些系统不提供，需要自行安装；或者需要一个某有种特殊特性的定制版本。这时，可能会选择从某些rpm包集中站下载某些不具名第三方提供的现成的安装包，或者下载非官方的定制化源码本地编译后安装，总之从这里引入了不确定性。这种不确定性有多大？我们粗估一下，似乎不应成为问题。但这份白皮书给我们看到了鲜活的数据。 ESET研究人员从OpenSSH的一次历史大规模Linux服务端恶意软件Windigo中获得启示，采用某种巧妙的方式，面向在野的服务器进行数据采集，主要是系统与版本、安装的OpenSSH版本信息以及服务端程序文件的一个特殊签名。整理一个签名白名单，包含有所有能搜索到的官方发布二进制版本、各大Linux发行版本各个版本所带的程序文件版本，将这些标定为正常样本进行去除。最终结论是： ·共发现了几百个非白名单版本的OpenSSH服务端程序文件ssh和sshd； ·分析这些样本，将代码部分完全相同，仅仅是数据和配置不同的合并为一类，且分析判定确认有恶意代码的，共归纳为 21个各异的恶意OpenSSH家族； ·在21个恶意家族中，有12个家族在10月份时完全没有被公开发现分析过；而剩余的有一部分使用了历史上披露的恶意代码样本，甚至有源代码； ·所有恶意样本的实现，从实现复杂度、代码混淆和自我保护程度到代码特征有很大跨度的不同，但整体看，目的以偷取用户凭证等敏感信息、回连外传到攻击者为主，其中有的攻击者回连地址已经存在并活跃数年之久； ·这些后门的操控者，既有传统恶意软件黑产人员，也有APT组织； ·所有恶意软件或多或少都在被害主机上有未抹除的痕迹。ESET研究者尝试使用蜜罐引诱出攻击者，但仍有许多未解之谜。这场对抗，仍未取胜。白皮书用了大篇幅做技术分析报告，此处供细节分析，不展开分析，以下为根据恶意程序复杂度描绘的21个家族图谱：问题思考问题引入的可能渠道，我在开头进行了一点推测，主要是由人的原因切入的，除此以外，最可能的是恶意攻击者在利用各种方法入侵目标主机后，主动替换了目标OpenSSH为恶意版本，从而达成攻击持久化操作。但是这些都是止血的安全运维人员该考虑的事情；关键问题是，透过表象，这显露了什么威胁形式？这个问题很好回答，之前也曾经反复说过：基础软件碎片化。如上一章节简单提到，在开发过程中有各种可能的渠道引入开发者不完全了解和信任的代码；在运维过程中也是如此。二者互相作用，造成了软件碎片化的庞杂现状。在企业内部，同一份基础软件库，可能不同的业务线各自定制一份，放到企业私有软件仓库源中，有些会有人持续更新供自己产品使用，有些由系统软件基础设施维护人员单独维护，有些则可能是开发人员临时想起来上传的，他们自己都不记得；后续用到的这个基础软件的开发和团队，在这个源上搜索到已有的库，很大概率会倾向于直接使用，不管来源、是否有质量背书等。长此以往问题会持续发酵。而我们开最坏的脑洞，是否可能有黑产人员入职到内部，提交个恶意基础库之后就走人的可能？现行企业安全开发流程中审核机制的普遍缺失给这留下了空位。将源码来源碎片化与二进制使用碎片化并起来考虑，我们不难看到一个远远超过OpenSSH事件威胁程度的图景。但这个问题不是仅仅靠开发阶段规约、运维阶段规范、企业内部管控、行业自查、政府监管就可以根除的，最大的问题归根结底两句话：不可能用一场战役对抗持续威胁；不可能用有限分析对抗无限未知。 Ⅲ. 从自信到自省：RHEL、CentOS backport版本BIND漏洞 2018年12月20日凌晨，在备战冬至的软件供应链安全大赛决赛时，我注意到漏洞预警平台捕获的一封邮件。但这不是一个漏洞初始披露邮件，而是对一个稍早已披露的BIND在RedHat、CentOS发行版上特定版本的1day漏洞CVE-2018-5742，由BIND的官方开发者进行额外信息澄(shuǎi)清(guō)的邮件。一些必要背景关于BIND 互联网的一个古老而基础的设施是DNS，这个概念在读者不应陌生。而BIND“是现今互联网上最常使用的DNS软件，使用BIND作为服务器软件的DNS服务器约占所有DNS服务器的九成。BIND现在由互联网系统协会负责开发与维护参考。”所以BIND的基础地位即是如此，因此也一向被大量白帽黑帽反复测试、挖掘漏洞，其开发者大概也一直处在紧绷着应对的处境。关于ISC和RedHat 说到开发者，上面提到BIND的官方开发者是互联网系统协会（ISC）。ISC是一个老牌非营利组织，目前主要就是BIND和DHCP基础设施的维护者。而BIND本身如同大多数历史悠久的互联网基础开源软件，是4个UCB在校生在DARPA资助下于1984年的实验室产物，直到2012年由ISC接管。那么RedHat在此中是什么角色呢？这又要提到我之前提到的Linux发行版和自带软件维护策略。Red Hat Enterprise Linux（RHEL）及其社区版CentOS秉持着稳健的软件策略，每个大的发行版本的软件仓库，都只选用最必要且质量久经时间考验的软件版本，哪怕那些版本实在是老掉牙。这不是一种过分的保守，事实证明这种策略往往给RedHat用户在最新漏洞面前提供了保障——代码总是跑得越少，潜在漏洞越多。但是这有两个关键问题。一方面，如果开源基础软件被发现一例有历史沿革的代码漏洞，那么官方开发者基本都只为其最新代码负责，在当前代码上推出修复补丁。另一方面，互联网基础设施虽然不像其上的应用那样爆发性迭代，但依然持续有一些新特性涌现，其中一些是必不可少的，但同样只在最新代码中提供。两个刚需推动下，各Linux发行版对长期支持版本系统的软件都采用一致的策略，即保持其基础软件在一个固定的版本，但对于这些版本软件的最新漏洞、必要的最新软件特性，由发行版维护者将官方开发者最新代码改动“向后移植”到旧版本代码中，即backport。这就是基础软件的“官宣”碎片化的源头。讲道理，Linux发行版维护者与社区具有比较靠谱的开发能力和监督机制，backport又基本就是一些复制粘贴工作，应当是很稳当的……但真是如此吗？ CVE-2018-5742漏洞概况 CVE-2018-5742是一个简单的缓冲区溢出类型漏洞，官方评定其漏洞等级moderate，认为危害不大，漏洞修复不积极，披露信息不多，也没有积极给出代码修复patch和新版本rpm包。因为该漏洞仅在设置DEBUG_LEVEL为10以上才会触发，由远程攻击者构造畸形请求造成BIND服务崩溃，在正常的生产环境几乎不可能具有危害，RedHat官方也只是给出了用户自查建议。这个漏洞只出现在RHEL和CentOS版本7中搭载的BIND 9.9.4-65及之后版本。RedHat同ISC的声明中都证实，这个漏洞的引入原因，是RedHat在尝试将BIND 9.11版本2016年新增的NTA机制向后移植到RedHat 7系中固定搭载的BIND 9.9版本代码时，偶然的代码错误。NTA是DNS安全扩展（DNSSEC）中，用于在特定域关闭DNSSEC校验以避免不必要的校验失败的机制；但这个漏洞不需要对NTA本身有进一步了解。漏洞具体分析官方没有给出具体分析，但根据CentOS社区里先前有用户反馈的bug，我得以很容易还原漏洞链路并定位到根本原因。若干用户共同反馈，其使用的BIND 9.9.4-RedHat-9.9.4-72.el7发生崩溃（coredump），并给出如下的崩溃时调用栈backtrace：这个调用过程的逻辑为，在9 dns_message_logfmtpacket函数判断当前软件设置是否DEBUG_LEVEL大于10，若是，对用户请求数据包做日志记录，先后调用8 dns_message_totext、7 dns_message_sectiontotext、6 dns_master_rdatasettotext、5 rdataset_totext将请求进行按协议分解分段后写出。由以上关键调用环节，联动RedHat在9.9.4版本BIND源码包中关于引入NTA特性的源码patch，进行代码分析，很快定位到问题产生的位置，在上述backtrace中的5，masterdump.c文件rdataset_totext函数。漏洞相关代码片段中，RedHat进行backport后，这里引入的代码为：这里判断对于请求中的注释类型数据，直接通过isc_buffer_putstr宏对缓存进行操作，在BIND工程中自定义维护的缓冲区结构对象target上，附加一字节字符串（一个分号）。而漏洞就是由此产生：isc_buffer_putstr中不做缓冲区边界检查保证，这里在缓冲区已满情况下将造成off-by-one溢出，并触发了缓冲区实现代码中的assertion。而ISC上游官方版本的代码在这里是怎么写的呢？找到ISC版本BIND 9.11代码，这里是这样的：这里可以看到，官方代码在做同样的“附加一个分号”这个操作时，审慎的使用了做缓冲区剩余空间校验的str_totext函数，并额外做返回值成功校验。而上述提到的str_totext函数与RETERR宏，在移植版本的masterdump.c中，RedHat开发者也都做了保留。但是，查看代码上下文发现，在RedHat开发者进行代码移植过程中，对官方代码进行了功能上的若干剪裁，包括一些细分数据类型记录的支持；而这里对缓冲区写入一字节，也许开发者完全没想到溢出的可能，所以自作主张地简化了代码调用过程。问题思考这个漏洞本身几乎没什么危害，但是背后足以引起思考。没有人在“借”别人代码时能不出错不同于之前章节提到的那种场景——将代码文件或片段复制到自己类似的代码上下文借用——backport作为一种官方且成熟的做法，借用的代码来源、粘贴到的代码上下文，是具有同源属性的，而且开发者一般是追求稳定性优先的社区开发人员，似乎质量应该有足够保障。但是这里的关键问题是：代码总要有一手、充分的语义理解，才能有可信的使用保障；因此，只要是处理他人的代码，因为不够理解而错误使用的风险，只可能减小，没办法消除。如上分析，本次漏洞的产生看似只是做代码移植的开发者“自作主张”之下“改错了”。但是更广泛且可能的情况是，原始开发者在版本迭代中引入或更新大量基础数据结构、API的定义，并用在新的特性实现代码中；而后向移植开发人员仅需要最小规模的功能代码，所以会对增量代码进行一定规模的修改、剪裁、还原，以此适应旧版本基本代码。这些过程同样伴随着第三方开发人员不可避免的“望文生义”，以及随之而来的风险。后向移植操作也同样助长了软件碎片化过程，其中每一个碎片都存在这样的问题；每一个碎片在自身生命周期也将有持续性影响。多级复制粘贴无异于雪上加霜这里简单探讨的是企业通行的系统和基础软件建设实践。一些国内外厂商和社区发布的定制化Linux发行版，本身是有其它发行版，如CentOS特定版本渊源的，在基础软件上即便同其上游发行版最新版本间也存在断层滞后。RedHat相对于基础软件开发者之间已经隔了一层backport，而我们则人为制造了二级风险。在很多基础而关键的软件上，企业系统基础设施的维护者出于与RedHat类似的初衷，往往会决定自行backport一份拷贝；通过早年心脏滴血事件的洗礼，即暴露出来OpenSSL一个例子。无论是需要RHEL还没来得及移植的新版本功能特性，还是出于对特殊使用上下文场景中更高执行效率的追求，企业都可能自行对RHEL上基础软件源码包进行修改定制重打包。这个过程除了将风险幂次放大外，也进一步加深了代码的不可解释性（包括基础软件开发人员流动性带来的不可解释）。 Ⅳ. 从武功到死穴：从systemd-journald信息泄露一窥API误用 1月10日凌晨两点，漏洞预警平台爬收取一封漏洞披露邮件。披露者是Qualys，那就铁定是重型发布了。最后看披露漏洞的目标，systemd？这就非常有意思了。一些必要背景 systemd是什么，不好简单回答。Linux上面软件命名，习惯以某软件名后带个‘d’表示后台守护管理程序；所以systemd就可以说是整个系统的看守吧。而即便现在描述了systemd是什么，可能也很快会落伍，因为其初始及核心开发者Lennart Poettering（供职于Red Hat）描述它是“永无开发完结完整、始终跟进技术进展的、统一所有发行版无止境的差异”的一种底层软件。笼统讲有三个作用：中央化系统及设置管理；其它软件开发的基础框架；应用程序和系统内核之间的胶水。如今几乎所有Linux发行版已经默认提供systemd，包括RHEL/CentOS 7及后续版本。总之很基础、很底层、很重要就对了。systemd本体是个主要实现init系统的框架，但还有若干关键组件完成其它工作；这次被爆漏洞的是其journald组件，是负责系统事件日志记录的看守程序。额外地还想简单提一句Qualys这个公司。该公司创立于1999年，官方介绍为信息安全与云安全解决方案企业，to B的安全业务非常全面，有些也是国内企业很少有布局的方面；例如上面提到的涉及碎片化和代码移植过程的历史漏洞移动，也在其漏洞管理解决方案中有所体现。但是我们对这家公司粗浅的了解来源于其安全研究团队近几年的发声，这两年间发布过的，包括有『stack clash』、『sudo get_tty_name提权』、『OpenSSH信息泄露与堆溢出』、『GHOST：glibc gethostbyname缓冲区溢出』等大新闻（仅截至2017年年中）。从中可见，这个研究团队专门啃硬骨头，而且还总能开拓出来新的啃食方式，往往爆出来一些别人没想到的新漏洞类型。从这个角度，再联想之前刷爆朋友圈的《安全研究者的自我修养》所倡导的“通过看历史漏洞、看别人的最新成果去举一反三”的理念，可见差距。 CVE-2018-16866漏洞详情这次漏洞披露，打包了三个漏洞： ·16864和16865是内存破坏类型 ·16866是信息泄露 ·而16865和16866两个漏洞组和利用可以拿到root shell。漏洞分析已经在披露中写的很详细了，这里不复述；而针对16866的漏洞成因来龙去脉，Qualys跟踪的结果留下了一点想象和反思空间，我们来看一下。漏洞相关代码片段是这样的（漏洞修复前）：读者可以先肉眼过一遍这段代码有什么问题。实际上我一开始也没看出来，向下读才恍然大悟。这段代码中，外部信息输入通过buf传入做记录处理。输入数据一般包含有空白字符间隔，需要分隔开逐个记录，有效的分隔符包括空格、制表符、回车、换行，代码中将其写入常量字符串；在逐字符扫描输入数据字符串时，将当前字符使用strchr在上述间隔符字符串中检索是否匹配，以此判断是否为间隔符；在240行，通过这样的判断，跳过记录单元字符串的头部连续空白字符。但是问题在于，strchr这个极其基础的字符串处理函数，对于C字符串终止字符'\0'的处理上有个坑：'\0'也被认为是被检索字符串当中的一个有效字符。所以在240行，当当前扫描到的字符为字符串末尾的NULL时，strchr返回的是WHITESPACE常量字符串的终止位置而非NULL，这导致了越界。看起来，这是一个典型的问题：API误用（API mis-use），只不过这个被误用的库函数有点太基础，让我忍不住想是不是还会有大量的类似漏洞……当然也反思我自己写的代码是不是也有同样情况，然而略一思考就释然了——我那么笨的代码都用for循环加if判断了:) 漏洞引入和消除历史有意思的是，Qualys研究人员很贴心地替我做了一步漏洞成因溯源，这才是单独提这个漏洞的原因。漏洞的引入是在2015年的一个commit中：在GitHub中，定位到上述2015年的commit信息，这里commit的备注信息为： journald: do not strip leading whitespace from messages. Keep leading whitespace for compatibility with older syslog implementations. Also useful when piping formatted output to the logger command. Keep removing trailing whitespace. OK，看起来是一个兼容性调整，对记录信息不再跳过开头所有连续空白字符，只不过用strchr的简洁写法比较突出开发者精炼的开发风格（并不），说得过去。之后在2018年八月的一个当时尚未推正式版的另一次commit中被修复了，先是还原成了ec5ff4那次commit之前的写法，然后改成了加校验的方式：虽然Qualys研究者认为上述的修改是“无心插柳”的改动，但是在GitHub可以看到，a6aadf这次commit是因为有外部用户反馈了输入数据为单个冒号情况下journald堆溢出崩溃的issue，才由开发者有目的性地修复的；而之后在859510这个commit再次改动回来，理由是待记录的消息都是使用单个空格作为间隔符的，而上一个commit粗暴地去掉了这种协议兼容性特性。如果没有以上纠结的修改和改回历史，也许我会倾向于怀疑，在最开始漏洞引入的那个commit，既然改动代码没有新增功能特性、没有解决什么问题（毕竟其后三年，这个改动的代码也没有被反映issue），也并非出于代码规范等考虑，那么这么轻描淡写的一次提交，难免有人为蓄意引入漏洞的嫌疑。当然，看到几次修复的原因，这种可能性就不大了，虽然大家仍可以保留意见。但是抛开是否人为这个因素，单纯从代码的漏洞成因看，一个传统但躲不开的问题仍值得探讨：API误用。 API误用：程序员何苦为难程序员如果之前的章节给读者留下了我反对代码模块化和复用的印象，那么这里需要正名一下，我们认可这是当下开发实践不可避免的趋势，也增进了社会开发速度。而API的设计决定了写代码和用代码的双方“舒适度”的问题，由此而来的API误用问题，也是一直被当做单纯的软件工程课题讨论。在此方面个人并没有什么研究，自然也没办法系统地给出分类和学术方案，只是谈一下自己的经验和想法。一篇比较新的学术文章总结了API误用的研究，其中一个独立章节专门分析Java密码学组件API误用的实际，当中引述之前论文认为，密码学API是非常容易被误用的，比如对期望输入数据（数据类型，数据来源，编码形式）要求的混淆，API的必需调用次序和依赖缺失（比如缺少或冗余多次调用了初始化函数、主动资源回收函数）等。凑巧在此方面我有一点体会：曾经因为业务方需要，需要使用C++对一个Java的密码基础中间件做移植。Java对密码学组件支持，有原生的JDK模块和权威的BouncyCastle包可用；而C/C++只能使用第三方库，考虑到系统平台最大兼容和最小代码量，使用Linux平台默认自带的OpenSSL的密码套件。但在开发过程中感受到了OpenSSL满满的恶意：其中的API设计不可谓不反人类，很多参数没有明确的说明（比如同样是表示长度的函数参数，可能在不同地方分别以字节/比特/分组数为计数单位）；函数的线程安全没有任何解释标注，需要自行试验；不清楚函数执行之后，是其自行做了资源释放还是需要有另外API做gc，不知道资源释放操作时是否规规矩矩地先擦除后释放……此类问题不一而足，导致经过了漫长的测试之后，这份中间件才提供出来供使用。而在业务场景中，还会存在比如其它语言调用的情形，这些又暴露出来OpenSSL API误用的一些完全无从参考的问题。这一切都成为了噩梦；当然这无法为我自己开解是个不称职开发的指责，但仅就OpenSSL而言其API设计之恶劣也是始终被人诟病的问题，也是之后其他替代者宣称改进的地方。当然，问题是上下游都脱不了干系的。我们自己作为高速迭代中的开发人员，对于二方、三方提供的中间件、API，又有多少人能自信地说自己仔细、认真地阅读过开发指南和API、规范说明呢？做过通用产品技术运营的朋友可能很容易理解，自己产品的直接用户日常抛出不看文档的愚蠢问题带来的困扰。对于密码学套件，这个问题还好办一些，毕竟如果在没有背景知识的情况下对API望文生义地一通调用，绝大多数情况下都会以抛异常形式告终；但还是有很多情况，API误用埋下的是长期隐患。不是所有API误用情形最终都有机会发展成为可利用的安全漏洞，但作为一个由人的因素引入的风险，这将长期存在并困扰软件供应链（虽然对安全研究者、黑客与白帽子是很欣慰的事情）。可惜，传统的白盒代码扫描能力，基于对代码语义的理解和构建，但是涉及到API则需要预先的抽象，这一点目前似乎仍然是需要人工干预的事情；或者轻量级一点的方案，可以case by case地分析，为所有可能被误用的API建模并单独扫描，这自然也有很强局限性。在一个很底层可信的开发者还对C标准库API存在误用的现实内，我们需要更多的思考才能说接下来的解法。 Ⅴ. 从规则到陷阱：NASA JIRA误配置致信息泄露血案软件的定义包括了代码组成的程序，以及相关的配置、文档等。当我们说软件的漏洞、风险时，往往只聚焦在其中的代码中；关于软件供应链安全风险，我们的比赛、前面分析的例子也都聚焦在了代码的问题；但是真正的威胁都来源于不可思议之处，那么代码之外有没有可能存在来源于上游的威胁呢？这里就借助实例来探讨一下，在“配置”当中可能栽倒的坑。引子：发不到500英里以外的邮件？让我们先从一个轻松愉快的小例子引入。这个例子初见于Linux中国的一篇译文。简单说，作者描述了这么一个让人啼笑皆非的问题：单位的邮件服务器发送邮件，发送目标距离本地500英里范围之外的一律失败，邮件就像悠悠球一样只能飞出一定距离。这个问题本身让描述者感到尴尬，就像一个技术人员被老板问到“为什么从家里笔记本上Ctrl-C后不能在公司台式机上Ctrl-V”一样。经过令人窒息的分析操作后，笔者定位到了问题原因：笔者作为负责的系统管理员，把SunOS默认安装的Senmail从老旧的版本5升级到了成熟的版本8，且对应于新版本诸多的新特性进行了对应配置，写入配置文件sendmail.cf；但第三方服务顾问在对单位系统进行打补丁升级维护时，将系统软件“升级”到了系统提供的最新版本，因此将Sendmail实际回退到了版本5，却为了软件行为一致性，原样保留了高版本使用的配置文件。但Sendmail并没有在大版本间保证配置文件兼容性，这导致很多版本5所需的配置项不存在于保留下来的sendmail.cf文件中，程序按默认值0处理；最终引起问题的就是，邮件服务器与接收端通信的超时时间配置项，当取默认配置值0时，邮件服务器在1个单位时间（约3毫秒）内没有收到网络回包即认为超时，而这3毫秒仅够电信号打来回飞出500英里。这个“故事”可能会给技术人员一点警醒，错误的配置会导致预期之外的软件行为，但是配置如何会引入软件供应链方向的安全风险呢？这就引出了下一个重磅实例。 JIRA配置错误致NASA敏感信息泄露案例我们都听过一个事情，马云在带队考察美国公司期间问Google CEO Larry Page自视谁为竞争对手，Larry的回答是NASA，因为最优秀的工程师都被NASA的梦想吸引过去了。由此我们显然能窥见NASA的技术水位之高，这样的人才团队大概至少是不会犯什么低级错误的。但也许需要重新定义“低级错误”……1月11日一篇技术文章披露，NASA某官网部署使用的缺陷跟踪管理系统JIRA存在错误的配置，可分别泄漏内部员工（JIRA系统用户）的全部用户名和邮件地址，以及内部项目和团队名称到公众，如下：问题的原因解释起来也非常简单：JIRA系统的过滤器和配置面板中，对于数据可见性的配置选项分别选定为All users和Everyone时，系统管理人员想当然地认为这意味着将数据对所有“系统用户”开放查看，但是JIRA的这两个选项的真实效果逆天，是面向“任意人”开放，即不限于系统登录用户，而是任何查看页面的人员。看到这里，我不厚道地笑了……“All users”并不意味着“All ‘users’”，意不意外，惊不惊喜？但是这种字面上把戏，为什么没有引起NASA工程师的注意呢，难道这样逆天的配置项没有在产品手册文档中加粗标红提示吗？本着为JIRA产品设计找回尊严的态度，我深入挖掘了一下官方说明，果然在Atlassian官方的一份confluence文档（看起来更像是一份增补的FAQ）中找到了相关说明：所有未登录访客访问时，系统默认认定他们是匿名anonymous用户，所以各种权限配置中的all users或anyone显然应该将匿名用户包括在内。在7.2及之后版本中，则提供了“所有登录用户”的选项。可以说是非常严谨且贴心了。比较讽刺的是，在我们的软件供应链安全大赛·C源代码赛季期间，我们设计圈定的恶意代码攻击目标还包括JIRA相关的敏感信息的窃取，但是却想不到有这么简单方便的方式，不动一行代码就可以从JIRA中偷走数据。软件的使用，你“配”吗？无论是开放的代码还是成型的产品，我们在使用外部软件的时候，都是处于软件供应链下游的消费者角色，为了要充分理解上游开发和产品的真实细节意图，需要我们付出多大的努力才够“资格”？上一章节我们讨论过源码使用中必要细节信息缺失造成的“API误用”问题，而软件配置上的“误用”问题则复杂多样得多。从可控程度上讨论，至少有这几种因素定义了这个问题： ·软件用户对必要配置的现有文档缺少了解。这是最简单的场景，但又是完全不可避免的，这一点上我们所有有开发、产品或运营角色经验的应该都曾经体会过向不管不顾用户答疑的痛苦，而所有软件使用者也可以反省一下对所有软件的使用是否都以完整细致的文档阅读作为上手的准备工作，所以不必多说。 ·软件拥有者对配置条目缺少必要明确说明文档。就JIRA的例子而言，将NASA工程师归为上一条错误有些冤枉，而将JIRA归为这条更加合适。在边角但重要问题上的说明通过社区而非官方文档形式发布是一种不负责任的做法，但未引发安全事件的情况下还有多少这样的问题被默默隐藏呢？我们没办法要求在使用软件之前所有用户将软件相关所有文档、社区问答实现全部覆盖。这个问题范围内一个代表性例子是对配置项的默认值以及对应效果的说明缺失。 ·配置文件版本兼容性带来的误配置和安全问题。实际上，上面的SunOS Sendmail案例足以点出这个问题的存在性，但是在真实场景下，很可能不会以这么戏剧性形式出现。在企业的系统运维中，系统的版本迭代常见，但为软件行为一致性，配置的跨版本迁移是不可避免的操作；而且软件的更新迭代也不只会由系统更新推动，还有大量出于业务性能要求而主动进行的定制化升级，对于中小企业基础设施建设似乎是一个没怎么被提及过的问题。 ·配置项组合冲突问题。尽管对于单个配置项可能明确行为与影响，但是特定的配置项搭配可能造成不可预知的效果。这完全有可能是由于开发者与用户在信息不对等的情况下产生：开发者认为用户应该具有必需的背景知识，做了用户应当具备规避配置冲突能力的假设。一个例子是，对称密码算法在使用ECB、CBC分组工作模式时，从密码算法上要求输入数据长度必须是分组大小的整倍数，但如果用户搭配配置了秘钥对数据不做补齐（nopadding），则引入了非确定性行为：如果密码算法库对这种组合配置按某种默认补齐方式操作数据则会引起歧义，但如果在算法库代码层面对这种组合抛出错误则直接影响业务。 ·程序对配置项处理过程的潜在暗箱操作。这区别于简单的未文档化配置项行为，仅特指可能存在的蓄意、恶意行为。从某种意义上，上述“All users”也可以认为是这样的一种陷阱，通过浅层次暗示，引导用户做出错误且可能引起问题的配置。另一种情况是特定配置组合情况下触发恶意代码的行为，这种触发条件将使恶意代码具有规避检测的能力，且在用户基数上具有一定概率的用户命中率。当然这种情况由官方开发者直接引入的可能性很低，但是在众包开发的情况下如果存在，那么扫描方案是很难检测的。 Ⅵ. 从逆流到暗流：恶意代码溯源后的挑战如果说前面所说的种种威胁都是面向关键目标和核心系统应该思考的问题，那么最后要抛出一个会把所有人拉进赛场的理由。除了前面所有那些在软件供应链下游被动污染受害的情况，还有一种情形：你有迹可循的代码，也许在不经意间会“反哺”到黑色产业链甚至特殊武器中；而现在研究用于对程序进行分析和溯源的技术，则会让你陷入百口莫辩的境地。案例：黑产代码模块溯源疑云 1月29日，猎豹安全团队发布技术分析通报文章《电信、百度客户端源码疑遭泄漏，驱魔家族窃取隐私再起波澜》，矛头直指黑产上游的恶意信息窃取代码模块，认定其代码与两方产品存在微妙的关联：中国电信旗下“桌面3D动态天气”等多款软件，以及百度旗下“百度杀毒”等软件（已不可访问）。文章中举证有三个关键点。首先最直观的，是三者使用了相同的特征字符串、私有文件路径、自定义内部数据字段格式；其次，在关键代码位置，三者在二进制程序汇编代码层面具有高度相似性；最终，在一定范围的非通用程序逻辑上，三者在经过反汇编后的代码语义上显示出明显的雷同，并提供了如下两图佐证（图片来源）：文章指出的涉事相关软件已经下线，对于上述样本文件的相似度试验暂不做复现，且无法求证存在相似、疑似同源的代码在三者中占比数据。对于上述指出的代码雷同现象，猎豹安全团队认为：我们怀疑该病毒模块的作者通过某种渠道(比如“曾经就职”)，掌握有中国电信旗下部分客户端/服务端源码，并加以改造用于制作窃取用户隐私的病毒，另外在该病毒模块的代码中，我们还发现“百度”旗下部分客户端的基础调试日志函数库代码痕迹，整个“驱魔”病毒家族疑点重重，其制作传播背景愈发扑朔迷离。这样的推断，固然有过于直接的依据（例如三款代码中均使用含有“baidu”字样的特征注册表项）；但更进一步地，需要注意到，三个样本在所指出的代码位置，具有直观可见的二进制汇编代码结构的相同，考虑到如果仅仅是恶意代码开发者先逆向另外两份代码后借鉴了代码逻辑，那么在面临反编译、代码上下文适配重构、跨编译器和选项的编译结果差异等诸多不确定环节，仍能保持二进制代码的雷同，似乎确实是只有从根本上的源代码泄漏（抄袭）且保持相同的开发编译环境才能成立。但是我们却又无法做出更明确的推断。这一方面当然是出于严谨避免过度解读；而从另一方面考虑，黑产代码的一个关键出发点就是“隐藏自己”，而这里居然如此堂而皇之地照搬了代码，不但没有进行任何代码混淆、变形，甚至没有抹除疑似来源的关键字符串，如果将黑产视为智商在线的对手，那这里背后是否有其它考量，就值得琢磨了。代码的比对、分析、溯源技术水准上文中的安全团队基于大量样本和粗粒度比对方法，给出了一个初步的判断和疑点。那么是否有可能获得更确凿的分析结果，来证实或证伪同源猜想呢？无论是源代码还是二进制，代码比对技术作为一种基础手段，在软件供应链安全分析上都注定仍然有效。在我们的软件供应链安全大赛期间，针对PE二进制程序类型的题目，参赛队伍就纷纷采用了相关技术手段用于目标分析，包括：同源性分析，用于判定与目标软件相似度最高的同软件官方版本；细粒度的差异分析，用于尝试在忽略编译差异和特意引入的混淆之外，定位特意引入的恶意代码位置。当然，作为比赛中针对性的应对方案，受目标和环境引导约束，这些方法证明了可行性，却难以保证集成有最新技术方案。那么做一下预言，在不计入情报辅助条件下，下一代的代码比对将能够到达什么水准？这里结合近一年和今年内，已发表和未发表的学术领域顶级会议的相关文章来简单展望： ·针对海量甚至全量已知源码，将可以实现准确精细化的“作者归属”判定。在ACM CCS‘18会议上曾发表的一篇文章《Large-Scale and Language-Oblivious Code Authorship Identification》，描述了使用RNN进行大规模代码识别的方案，在圈定目标开发者，并预先提供每个开发者的5-7份已知的代码文件后，该技术方案可以很有效地识别大规模匿名代码仓库中隶属于每个开发者的代码：针对1600个Google Code Jam开发者8年间的所有代码可以实现96%的成功识别率，而针对745个C代码开发者于1987年之后在GitHub上面的全部公开代码仓库，识别率也高达94.38%。这样的结果在当下的场景中，已经足以实现对特定人的代码识别和跟踪（例如，考虑到特定开发人员可能由于编码习惯和规范意识，在时间和项目跨度上犯同样的错误）；可以预见，在该技术方向上，完全可以期望摆脱特定已知目标人的现有数据集学习的过程，并实现更细粒度的归属分析，例如代码段、代码行、提交历史。 ·针对二进制代码，更准确、更大规模、更快速的代码主程序分析和同源性匹配。近年来作为一项程序分析基础技术研究，二进制代码相似性分析又重新获得了学术界和工业界的关注。在2018年和2019（已录用）的安全领域四大顶级会议上，每次都会有该方向最新成果的展示，如S&P‘2019上录用的《Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscation and Compiler Optimization》，实现无先验知识的条件下的最优汇编代码级别克隆检测，针对漏洞库的漏洞代码检测可实现0误报、100%召回。而2018年北京HITB会议上，Google Project Zero成员、二进制比对工具BinDiff原始作者Thomas Dullien，探讨了他借用改造Google自家SimHash算法思想，用于针对二进制代码控制流图做相似性检测的尝试和阶段结果；这种引入规模数据处理的思路，也可期望能够在目前其他技术方案大多精细化而低效的情况下，为高效、快速、大规模甚至全量代码克隆检测勾出未来方案。 ·代码比对方案对编辑、优化、变形、混淆的对抗。近年所有技术方案都以对代码“变种”的检测有效性作为关键衡量标准，并一定程度上予以保证。上文CCS‘18论文工作，针对典型源代码混淆（如Tigress）处理后的代码，大规模数据集上可有93.42%的准确识别率；S&P‘19论文针对跨编译器和编译选项、业界常用的OLLVM编译时混淆方案进行试验，在全部可用的混淆方案保护之下的代码仍然可以完成81%以上的克隆检测。值得注意的是以上方案都并非针对特定混淆方案单独优化的，方法具有通用价值；而除此以外还有很多针对性的的反混淆研究成果可用；因此，可以认为在采用常规商用代码混淆方案下，即便存在隐藏内部业务逻辑不被逆向的能力，但仍然可以被有效定位代码复用和开发者自然人。代码溯源技术面前的“挑战” 作为软件供应链安全的独立分析方，健壮的代码比对技术是决定性的基石；而当脑洞大开，考虑到行业的发展，也许以下两种假设的情景，将把每一个“正当”的产品、开发者置于尴尬的境地。代码仿制在本章节引述的“驱魔家族”代码疑云案例中，黑产方面通过某种方式获得了正常代码中，功能逻辑可以被自身复用的片段，并以某种方法将其在保持原样的情况下拼接形成了恶意程序。即便在此例中并非如此，但这却暴露了隐忧：将来是不是有这种可能，我的正常代码被泄漏或逆向后出现在恶意软件中，被溯源后扣上黑锅？这种担忧可能以多种渠道和形式成为现实。从上游看，内部源码被人为泄漏是最简单的形式（实际上，考虑到代码的完整生命周期似乎并没有作为企业核心数据资产得到保护，目前实质上有没有这样的代码在野泄漏还是个未知数），而通过程序逆向还原代码逻辑也在一定程度上可获取原始代码关键特征。从下游看，则可能有多种方式将恶意代码伪造得像正常代码并实现“碰瓷”。最简单地，可以大量复用关键代码特征（如字符串，自定义数据结构，关键分支条件，数据记录和交换私有格式等）。考虑到在进行溯源时，分析者实际上不需要100%的匹配度才会怀疑，因此仅仅是仿造原始程序对于第三方公开库代码的特殊定制改动，也足以将公众的疑点转移。而近年来类似自动补丁代码搜索生成的方案也可能被用来在一份最终代码中包含有二方甚至多方原始代码的特征和片段。基于开发者溯源的定点渗透既然在未来可能存在准确将代码与自然人对应的技术，那么这种技术也完全可能被黑色产业利用。可能的忧患包括强针对性的社会工程，结合特定开发者历史代码缺陷的漏洞挖掘利用，联动第三方泄漏人员信息的深层渗透，等等。这方面暂不做联想展开。〇. 没有总结作为一场旨在定义“软件供应链安全”威胁的宣言，阿里安全“功守道”大赛将在后续给出详细的分解和总结，其意义价值也许会在一段时间之后才能被挖掘。但是威胁的现状不容乐观，威胁的发展不会静待；这一篇随笔仅仅挑选六个侧面做摘录分析，可即将到来的趋势一定只会进入更加发散的境地，因此这里，没有总结。本篇文章为转载内容。原文链接：https://blog.csdn.net/systemino/article/details/90114743。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-05 13:33:43

300

转载

Tesseract

Tesseract OCR在离线环境下的语言数据包管理与德语文档识别实践

Tesseract：强大的OCR技术与应对网络故障的语言数据更新策略 1. 引言在数字化的世界中，光学字符识别（OCR）技术已经深入到我们生活的方方面面。Tesseract这款OCR引擎，你知道吧？它可是Google家的开源宝贝！人家厉害着呢，识别准确率贼高，而且能在各种平台上游刃有余地运行。因此，它在咱们这个圈子里，那可真是名声响当当，收获了一大片的认可和赞誉呢！不过，在实际用起来的时候，由于网络抽风或者各种不靠谱的原因，有时候我们没法及时把最新的语言数据包拽下来，这可不就让Tesseract的表现力大打折扣嘛。这篇东西咱们要聊的就是这个问题，并且我还会手把手教你，用实例代码演示，在没有网络的情况下，如何聪明又妥善地管理和运用Tesseract的语言数据。 2. Tesseract与语言数据包 Tesseract支持多国语言的文本识别，但默认安装时并不包含所有语言的数据包。通常，我们需要通过命令行或API调用在线下载所需的语言数据。例如，对于简体中文的支持，我们可以运行如下命令： bash tesseract --download-chinese-simplified 但是，当面临网络故障时，这个过程显然会受阻。那么，我们该如何提前准备并合理管理这些语言数据呢？ 3. 离线下载与本地安装语言数据情景化思考：“哎呀，我正急需使用Tesseract识别一份德语文档，偏偏这时网络出了状况，我该怎么办？”别急，这里有个办法！为了应对网络不稳定或者无网络的情况，我们可以在正常网络环境下预先下载所需的语言数据包，然后手动安装。以下载德语（deu）语言包为例，首先访问[Tesseract官方GitHub仓库](https://github.com/tesseract-ocr/tessdata)下载对应的文件tessdata/deu.traineddata，保存至本地磁盘。接着，将该文件复制到Tesseract的tessdata目录下（假设Tesseract已安装在/usr/share/tesseract-ocr/4.00/tessdata路径下）： bash cp ~/Downloads/deu.traineddata /usr/share/tesseract-ocr/4.00/tessdata/ 这样，在没有网络连接时，Tesseract依然能够识别德语文本。 4. 使用Tesseract进行离线OCR识别实战现在，我们已经有了离线的语言数据，来看看如何在Python中使用Tesseract进行离线OCR识别： python import pytesseract from PIL import Image 设置Tesseract的data_dir参数为包含离线语言数据的目录 pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract' pytesseract.tesseract_data_dir = '/usr/share/tesseract-ocr/4.00' 打开一张德语文档图片 img = Image.open('german_text.png') 使用德语进行识别 text = pytesseract.image_to_string(img, lang='deu') print(text) 上述代码示例展示了即使在网络故障情况下，我们仍然可以利用预先下载好的德语数据包对图像进行有效识别。 5. 结论与探讨面对网络故障带来的挑战，我们可以采取主动策略，提前下载并妥善管理Tesseract所需的各种语言数据包。同时呢，真正搞懂并灵活运用这种离线处理技术，可不仅仅是在特殊环境下让咱们更溜地使用Tesseract，更能让我们在平时的开发和运维工作中倍儿轻松，游刃有余，像玩儿似的。当然啦，随着技术不断升级、进步，我们也巴巴地盼着Tesseract未来能够推出更省心、更智能的离线数据管理方案。这样一来，甭管在什么环境下，开发者和用户都能毫无后顾之忧地畅享OCR技术带来的种种便捷，那感觉，就像夏天吃冰棍儿一样爽快！

2023-02-20 16:48:31

138

青山绿水

Java

JavaScript中变量a的属性x为何出现undefined：原因分析与解决策略这个既切题且有针对性，涵盖了的主要内容，包括JavaScript环境、变量a的属性x为何会是undefined这一问题的原因（引用错误和未声明/初始化），以及如何通过声明初始化和属性检查来避免此类错误的发生。同时，它严格遵守了所给关键词的使用要求，并在50个字以内表达了的核心。

...ript社区关于变量初始化和属性检测的最佳实践。最近，ECMAScript 2021（ES2021）新增了一项名为“可选链操作符(?.)”的特性，极大地简化了对可能未定义或不存在的对象属性的访问。这个新语法允许我们在尝试访问嵌套对象属性时，如果任一中间层属性为null或undefined，则表达式整体返回undefined，而不会抛出错误。例如，在使用可选链操作符的情况下，a?.x 如果a为undefined或null，那么整个表达式将直接返回undefined，而不会尝试访问a的x属性。此外，TypeScript等强类型语言也在不断推动静态类型检查以预防运行时的undefined错误。通过类型注解，开发者可以在编译阶段就发现诸如a.x可能出现的undefined问题，从而提前进行修复。同时，业界对于避免undefined错误也提出了诸多编程规范建议，如始终初始化变量、合理使用默认参数、以及在函数内部显式检查变量状态等。这些措施不仅有助于减少程序中的undefined异常，也能提升代码质量和维护性。综上所述，随着JavaScript语言的发展和完善，开发者们有了更多策略和工具来应对和避免undefined带来的困扰，使得我们的代码更加健壮、可靠。

2023-09-05 19:24:29

314

晚秋落叶_t

MySQL

怎么查看自己电脑mysql的密码

...技术文档，及时了解并修复可能存在的安全漏洞，全面提升MySQL数据库系统的安全保障能力。

2024-02-18 15:42:33

121

码农

Apache Lucene

Apache Lucene初始化时避免NoSuchDirectoryException：确保文件目录存在的实践方法

...继续给Lucene走初始化流程了，这时候就得抛出个异常来提醒你。例如，下面的代码尝试初始化一个名为test的Lucene实例： java Directory directory = FSDirectory.open(new File("test")); Analyzer analyzer = new StandardAnalyzer(); IndexWriterConfig config = new IndexWriterConfig(analyzer); IndexWriter writer = new IndexWriter(directory, config); 如果test目录不存在，这段代码就会抛出NoSuchDirectoryException异常。解决NoSuchDirectoryException找不到目录异常的方法为了解决这个问题，我们需要在初始化Lucene之前，先创建这个目录。我们可以使用Java的File类来创建这个目录。以下是一个示例： java try { File dir = new File("test"); if (!dir.exists()) { boolean success = dir.mkdir(); if (!success) { throw new RuntimeException("Failed to create directory."); } } Directory directory = FSDirectory.open(dir); Analyzer analyzer = new StandardAnalyzer(); IndexWriterConfig config = new IndexWriterConfig(analyzer); IndexWriter writer = new IndexWriter(directory, config); } catch (IOException e) { // Handle IOExceptions here. } 在这个示例中，我们首先检查test目录是否已经存在。如果不存在，我们就尝试创建它。如果创建失败，我们就抛出一个运行时异常。如果创建成功，我们就使用这个目录来初始化Lucene。这样，即使test目录不存在，我们的代码也可以正常运行，并且能够创建一个新的目录。结论总的来说，NoSuchDirectoryException找不到目录异常是我们在使用Lucene时经常会遇到的问题。但是，只要我们掌握了正确的解决方案，就可以轻松地解决这个问题。在我们动手初始化Lucene之前，有个小窍门可以确保目录已经准备就绪，那就是用Java里的File类来亲手创建这个目录，这样一来，一切就能稳妥进行啦！这样一来，哪怕目录压根不存在，我们的代码也能稳稳地运行起来，并且顺手就把新的目录给创建了。

2023-01-08 20:44:16

463

心灵驿站-t

Java

java中处理异常的方式和语句

...错误时找出问题并实施修复。在Java中，我们可以采用try-catch块来应对错误，以下是一个简单的采用try-catch块的例子： try { // 需要检测的代码 } catch (Exception e) { // 错误应对代码 } 在try块中，我们可以放置一段可能会抛出错误的代码。如果该代码抛出了一个错误，程序就会马上跳转到catch块中执行错误应对代码。catch块中的代码将负责应对错误，比如记载日志、告知用户或解决问题。我们另外采用finally块来应对一些需要在try块执行后必须执行的代码。finally块中的代码无论try块是否成功执行都将被执行。 try { // 需要检测的代码 } catch (Exception e) { // 错误应对代码 } finally { // 一定会执行的代码 } 当我们采用try-catch块时，有几个重要的注意点：我们需要在catch块中指定具体的错误类型，这样才能正确的捕捉到对应的错误。我们可以采用throw关键字在代码中手动抛出一个错误。在Java中有多种常见错误，比如ArithmeticException（算术错误）、NullPointerException（空指针错误）、ArrayIndexOutOfBoundsException（数组越界错误）等。

2024-01-13 22:39:29

335

键盘勇士

AngularJS

AngularJS中'$rootScope'报错：'noctrl Controller '0' not found'问题的控制器注册与模块排查及解决方案

...Scope 找寻并初始化一个名为“0”的控制器时失败。 angular.module() , 在AngularJS中，angular.module() 是用于创建和获取模块的核心方法。模块是AngularJS应用的基本构建块，负责组织相关组件（如控制器、指令、服务等）。通过调用该方法，开发者可以声明一个新的模块或者引用已经存在的模块，并在其上添加或配置各种组件，例如在示例代码中，myModule.controller( MyCtrl , function($scope) ... )就是在myApp模块中注册了一个名为MyCtrl的控制器。 angular.bootstrap() , 这是一个启动AngularJS应用程序的方法。在HTML文档加载完成后，开发者使用 angular.bootstrap() 方法来手动初始化指定的DOM元素，并告诉AngularJS使用哪个模块来启动应用。在给出的文章示例中，angular.bootstrap(document, myApp ) 表示将整个文档（document）作为应用的根元素，并使用名为 myApp 的模块来启动和编译整个应用程序。这样，AngularJS就可以开始解析DOM中的指令和表达式，执行相应的业务逻辑，并与用户进行交互。

2024-01-18 15:53:01

430

春暖花开-t

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

wall message - 向所有已登录用户发送消息。