在大数据处理和日志分析领域，Logstash作为Elastic Stack的核心组件之一，其对数据的高效过滤与排序功能对于提升数据分析准确性和效率至关重要。最近，在Logstash社区中，针对“Sortfilter: Cannot sort array of different types”这一经典问题的讨论热度不减，开发团队正积极寻求更为优化、智能的解决方案。今年初，Elastic公司发布的新版本Logstash改进了对复杂数据类型的支持，增强了内部排序算法的能力，使其能够更灵活地处理混合类型的数组。例如，新增的自定义排序策略选项允许用户根据实际需求定义不同类型元素之间的比较规则，从而避免因类型不匹配导致的排序错误。此外，为了更好地指导用户进行数据预处理，官方文档也更新了一系列详尽的最佳实践指南，深入剖析如何结合mutate、grok等插件对不同结构和类型的日志字段进行标准化转换，以确保后续排序操作顺利进行。同时，业界专家建议，在设计日志收集和处理架构时，应当充分考虑数据质量及一致性的问题，从源头减少异构数据产生，通过合理配置Logstash管道，实现数据的规范化和有效利用。总之，随着技术的发展和社区的共同努力，尽管“Sortfilter: Cannot sort array of different types”的挑战仍然存在，但通过不断完善的工具支持和持续演进的数据治理策略，这一问题已逐渐得到更加妥善且灵活的解决，有力推动了基于Elastic Stack的大数据处理与分析应用的进步。

2023-03-09 18:30:41

303

秋水共长天一色

Logstash

数据流管道执行顺序解决：确保预期数据处理流程的配置策略

...输入（Input）、过滤器（Filter）和输出（Output）。输入负责从数据源读取数据，过滤器对数据进行清洗、转换等操作，而输出则将处理后的数据发送到目的地。二、配置文件的重要性配置文件是Logstash的核心，其中包含了所有输入、过滤器和输出的定义以及它们之间的连接方式。正确理解并编写配置文件是避免管道执行顺序问题的关键。三、常见问题及解决策略 1. 配置顺序影响 - 问题：假设我们有一个包含多个过滤器的管道，每个过滤器都依赖于前一个过滤器的结果。如果配置顺序不当，可能会导致某些过滤器无法正确接收到数据。 - 解决策略： - 确保每个过滤器在配置文件中的位置能够反映其执行顺序。好嘞，咱们换个说法，听起来更接地气些。比如，想象一下，如果你想要吃人家煮的面，那得先等人家把面煮好啊，对吧？所以，如果A需要B的结果，那B就得提前准备好，要么和A同时开始，这样A才能用上B的结果，对不？ - 使用 Logstash 的 logstash-filter 插件，可以设置过滤器的依赖关系，确保按正确的顺序执行。 2. 插件优先级 - 问题：当两个或多个插件执行相同操作时，优先级决定哪个插件会先执行。 - 解决策略： - 在 Logstash 配置文件中明确指定插件的顺序，优先级高的插件会先执行。 - 使用 logstash-filter 插件中的 if 条件语句，动态选择执行哪个过滤器。 3. 复杂的逻辑处理 - 问题：当管道内包含复杂的逻辑判断和条件执行时，可能会因为条件未被正确满足而导致执行顺序混乱。 - 解决策略： - 清晰地定义每个过滤器的逻辑，确保每个条件都经过仔细考虑和测试。 - 使用日志记录功能，跟踪数据流和过滤器执行情况，以便于调试和理解执行顺序。四、示例代码以下是一个简单的 Logstash 示例配置文件，展示了如何配置管道执行顺序： yaml input { beats { port => 5044 } } filter { if "event" in [ "error", "warning" ] { grok { match => { "message" => "%{GREEDYDATA:time} %{GREEDYDATA:facility} %{GREEDYDATA:level} %{GREEDYDATA:message}" } } } else { grok { match => { "message" => "%{TIMESTAMP_ISO8601:timestamp} %{WORD:facility} %{NUMBER:level} %{GREEDYDATA:message}" } } } } output { stdout {} } 在这个示例中，我们根据事件类型的不同（错误或警告），使用不同的解析模式来处理日志信息。这种逻辑判断确保了数据处理的顺序性和针对性。五、总结解决 Logstash 管道执行顺序问题的关键在于仔细规划配置文件，确保逻辑清晰、顺序合理。哎呀，你知道吗？用那些插件里的高级功能，比如条件判断和管理依赖，就像有了魔法一样，能让我们精准掌控数据怎么走，哪儿该停，哪儿该转，超级方便！就像是给程序穿上了智能衣，它就能聪明地知道什么时候该做什么了，是不是感觉更鲜活、更有个性了呢？哎呀，你懂的，在实际操作中，咱们得经常去试错和微调设置，就像厨师做菜一样，边尝边改，才能找到那个最对味的秘方。这样做的好处可大了，能帮咱们揪出那些藏在角落里的小问题，还能让整个过程变得更加流畅，效率蹭蹭往上涨，你说是不是？

2024-09-26 15:39:34

冬日暖阳

ElasticSearch

异步采集非业务数据：配置Elasticsearch与Logstash实战

...告诉你，当你得去扒拉日志、监控指标这些非业务数据时，Elasticsearch 真的就像是你的救命稻草。想象一下，你有一个电商网站，每天都有大量的用户访问、购买商品。不过呢，除了这些基本的交易数据，你是不是还想知道用户都是怎么逛你的网站的，他们在每个页面上花了多长时间啊？这些数据虽然不会直接让销售额飙升，但对提升用户体验和改进产品设计可是大有裨益。这就是我们为什么要异步采集非业务数据的原因。 2. 选择合适的数据采集工具既然要采集非业务数据，那么选择合适的工具就显得尤为重要了。这里有几个流行的开源工具可以考虑： - Logstash: 它是Elastic Stack的一部分，专门用于日志收集。 - Fluentd: 一个开源的数据收集器，支持多种数据源。 - Telegraf: 一款轻量级的代理，用于收集各种系统和应用的度量数据。这些工具各有特点，可以根据你的具体需求选择最适合的一个。比如，假如你的数据主要来自日志文件，那Logstash绝对是个好帮手；但要是你需要监控的是系统性能指标，那Telegraf可能会更对你的胃口。 3. 配置Elasticsearch以接收数据接下来，我们要确保Elasticsearch已经配置好，能够接收来自不同数据源的数据。首先，你需要安装并启动Elasticsearch。假设你已经安装好了，接下来要做的就是配置索引模板（Index Template）。 json PUT _template/my_template { "index_patterns": ["my-index-"], "settings": { "number_of_shards": 1, "number_of_replicas": 1 }, "mappings": { "_source": { "enabled": true }, "properties": { "timestamp": { "type": "date" }, "message": { "type": "text" } } } } 上面这段代码定义了一个名为my_template的模板，适用于所有以my-index-开头的索引。这个模板里头设定了索引的分片数和副本数，还定义了两个字段：一个存时间戳叫timestamp，另一个存消息内容叫message。 4. 使用Logstash采集数据现在我们有了Elasticsearch，也有了数据采集工具，接下来就是让它们协同工作。这里我们以Logstash为例，看看如何将日志数据采集到Elasticsearch中。首先，你需要创建一个Logstash配置文件（.conf），指定输入源、过滤器和输出目标。 conf input { file { path => "/var/log/nginx/access.log" start_position => "beginning" } } filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } date { match => [ "timestamp", "dd/MMM/yyyy:HH:mm:ss Z" ] } } output { elasticsearch { hosts => ["localhost:9200"] index => "nginx-access-%{+YYYY.MM.dd}" } } 这段配置文件告诉Logstash从/var/log/nginx/access.log文件读取数据，使用Grok过滤器解析日志格式，然后将解析后的数据存入Elasticsearch中。这里的hosts参数指定了Elasticsearch的地址，index参数定义了索引的命名规则。 5. 实战演练分析数据最后，让我们来看看如何通过Elasticsearch查询和分析这些数据。好了，假设你已经把日志数据成功导入到了Elasticsearch里，现在你想看看最近一天内哪些网址被访问得最多。 bash GET /nginx-access-/_search { "size": 0, "aggs": { "top_pages": { "terms": { "field": "request", "size": 10 } } } } 这段查询语句会返回过去一天内访问量最高的10个URL。通过这种方式，你可以快速获取关键信息，从而做出相应的决策。 6. 总结与展望通过这篇文章，我们学习了如何使用Elasticsearch异步采集非业务数据，并进行了简单的分析。这个过程让我们更懂用户的套路，还挖出了不少宝贝，帮我们更好地升级产品和服务。当然，实际操作中可能会遇到各种问题和挑战，但只要保持耐心，不断实践和探索，相信你一定能够掌握这项技能。希望这篇教程能对你有所帮助，如果你有任何疑问或者建议，欢迎随时留言交流！ --- 好了，朋友们，今天的分享就到这里。希望你能从中获得灵感，开始你的Elasticsearch之旅。记住，技术的力量在于应用，让我们一起用它来创造更美好的世界吧！

2024-12-29 16:00:49

飞鸟与鱼_

Logstash

Logstash+Elasticsearch：实时索引与日志分析中的Grok过滤器和批量处理

...下，你正面对着一大堆日志数据，每天都得迅速搞定它们的分析和查找，这时候，Logstash加上Elasticsearch简直就是你的超级英雄搭档，简直不要太好用！ 1.1 什么是Logstash？ Logstash 是一个开源的数据收集引擎，它能够从多个来源采集数据，然后进行转换，最后输出到各种存储系统中。它的设计初衷就是用来处理日志和事件数据的，但其实它的能力远不止于此。这家伙挺能来事儿的，不仅能搞定各种输入插件——比如文件啊、网页数据啊、数据库啥的，还能用过滤插件整点儿花样，比如说正则表达式匹配或者修改字段之类的。最后，它还支持不少输出插件，比如往Elasticsearch或者Kafka里面扔数据，简直不要太方便！这种灵活性使得Logstash成为了处理复杂数据流的理想选择。 1.2 Elasticsearch：实时搜索与分析的利器 Elasticsearch 是一个基于Lucene构建的开源分布式搜索引擎，它提供了强大的全文搜索功能，同时也支持结构化搜索、数值搜索以及地理空间搜索等多种搜索类型。此外，Elasticsearch还拥有出色的实时分析能力，这得益于其独特的倒排索引机制。当你将数据导入Elasticsearch后，它会自动对数据进行索引，从而大大提高了查询速度。 2. 实时索引优化让数据飞起来现在我们已经了解了Logstash和Elasticsearch各自的特点，接下来就让我们看看如何通过它们来实现高效的实时索引优化吧！ 2.1 数据采集与预处理首先，我们需要利用Logstash从各种数据源采集数据。好嘞，咱们换个说法：比如说，我们要从服务器的日志里挖出点儿有用的东西，就像找宝藏一样，目标就是那些访问时间、用户ID和请求的网址这些信息。我们可以用Filebeat这个工具来读取日志文件，然后再用Grok这个插件来解析这些数据，让信息变得更清晰易懂。下面是一个具体的配置示例： yaml input { file { path => "/var/log/nginx/access.log" start_position => "beginning" } } filter { grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } } 这段配置告诉Logstash，从/var/log/nginx/access.log这个路径下的日志文件开始读取，并使用Grok插件中的COMBINEDAPACHELOG模式来解析每一行日志内容。这样子一来，原始的文本信息就被拆成了一个个有组织的小块儿，给接下来的处理铺平了道路，简直不要太方便！ 2.2 高效索引策略一旦数据被Logstash处理完毕，下一步就是将其导入Elasticsearch。为了确保索引操作尽可能高效，我们可以采取一些策略： - 批量处理：减少网络往返次数，提高吞吐量。 - 动态映射：允许Elasticsearch根据文档内容自动创建字段类型，简化索引管理。 - 分片与副本：合理设置分片数量和副本数量，平衡查询性能与集群稳定性。下面是一个简单的Logstash输出配置示例，演示了如何将处理后的数据批量发送给Elasticsearch： yaml output { elasticsearch { hosts => ["localhost:9200"] index => "nginx-access-%{+YYYY.MM.dd}" document_type => "_doc" user => "elastic" password => "changeme" manage_template => false template => "/path/to/template.json" template_name => "nginx-access" template_overwrite => true flush_size => 5000 idle_flush_time => 1 } } 在这段配置中，我们设置了批量大小为5000条记录，以及空闲时间阈值为1秒，这意味着当达到这两个条件之一时，Logstash就会将缓冲区内的数据一次性发送至Elasticsearch。此外，我还指定了自定义的索引模板，以便更好地控制字段映射规则。 3. 实战案例打造高性能日志分析平台好了，理论讲得差不多了，接下来让我们通过一个实际的例子来看看这一切是如何运作的吧！假设你是一家电商网站的运维工程师，最近你们网站频繁出现访问异常的问题，客户投诉不断。为了找出问题根源，你需要对Nginx服务器的日志进行深入分析。幸运的是，你们已经部署了Logstash和Elasticsearch作为日志处理系统。 3.1 日志采集与预处理首先，我们需要确保Logstash能够正确地从Nginx服务器上采集到所有相关的日志信息。根据上面说的设置，我们可以搞一个Logstash配置文件，用来从特定的日志文件里扒拉出重要的信息。嘿，为了让大家看日志的时候能更轻松明了，我们可以加点小技巧，比如说统计每个用户逛网站的频率，或者找出那些怪怪的访问模式啥的。这样一来，信息就一目了然啦！ 3.2 索引优化与查询分析接下来，我们将这些处理后的数据发送给Elasticsearch进行索引存储。有了合适的索引设置，就算同时来一大堆请求，我们的查询也能嗖嗖地快，不会拖泥带水的。比如说，在上面那个输出配置的例子里面，我们调高了批量处理的门槛，同时把空闲时间设得比较短，这样就能大大加快数据写入的速度啦！一旦数据被成功索引，我们就可以利用Elasticsearch的强大查询功能来进行深度分析了。比如说，你可以写个DSL查询，找出最近一周内访问量最大的10个页面；或者，你还可以通过用户ID捞出某个用户的操作记录，看看能不能从中发现问题。 4. 结语拥抱变化，不断探索通过以上介绍，相信大家已经对如何使用Logstash与Elasticsearch实现高效的实时索引优化有了一个全面的认识。当然啦，技术这东西总是日新月异的，所以我们得保持一颗好奇的心，不停地学新技术，这样才能更好地迎接未来的各种挑战嘛！希望这篇文章能对你有所帮助，如果你有任何疑问或建议，欢迎随时留言交流。让我们一起加油，共同成长！

2024-12-17 15:55:35

追梦人

JSON

json 属性过滤器

...深入理解JSON属性过滤器这一实用工具之后，我们可以进一步探索其在现代Web开发和数据处理中的实际应用。近日，随着API经济的快速发展，高效精准地处理API返回的大量JSON数据成为了众多开发者关注的焦点。例如，前端工程师在对接后端接口时，经常需要根据页面需求筛选并显示部分JSON数据，此时JSON属性过滤器就显得尤为重要。据TechCrunch报道，许多现代JavaScript框架如React、Vue.js等已内建或推荐使用专门的数据处理库（如Lodash、Ramda等），它们提供了丰富的函数以简化JSON属性过滤操作，极大地提升了开发效率和代码可读性。这些库不仅支持基础的属性提取，还能进行深度查找和复杂条件下的过滤。同时，在大数据和云计算领域，像Apache Spark等分布式计算框架也支持对JSON数据进行高效的属性过滤与转换，以便于后续分析与存储。通过运用特定的过滤策略，企业能够快速从海量JSON日志或其他半结构化数据中提炼关键信息，辅助业务决策。此外，对于那些注重隐私保护和数据最小化原则的应用场景，JSON属性过滤技术同样发挥着不可或缺的作用。在GDPR等相关法规的要求下，开发者必须确保只收集和传输必要的用户数据，这时精细到属性级别的过滤功能就能有效防止数据泄露风险。总之，JSON属性过滤器及其相关技术不仅是提升开发效率的重要手段，也是应对当前大数据时代挑战，实现数据安全、合规使用的必备工具。无论是前端交互逻辑优化，还是后端大规模数据处理，乃至云端数据合规流通，深入理解和掌握JSON属性过滤方法都将带来显著的价值提升。

2023-02-21 22:09:00

545

电脑达人

Tomcat

Tomcat部署中的web.xml配置错误：聚焦Servlet、URL映射与必要元素缺失问题解析

...应。 Filter（过滤器） , Filter在Java Web开发中是一种可插入的网络组件，它能对Web应用程序接收到的请求和发送出的响应进行预处理或后处理操作。通过在web.xml文件中配置Filter，开发者可以定制一系列通用功能，例如登录验证、字符编码转换、日志记录等，这些功能将在请求到达目标资源（如Servlet）之前或响应发送给客户端之后执行。 Listener（监听器） , Listener在Java Servlet规范中是一种特殊的类，它实现了特定的监听接口，用于监听Web应用程序中的特定事件，如Servlet上下文初始化、会话创建与销毁、属性修改等。当这些事件发生时，监听器会自动触发其相关方法，使得开发者可以在特定的生命周期阶段添加自定义行为，增强了程序的灵活性和可扩展性。 web.xml文件 , web.xml文件全称为Web应用程序部署描述符，它是Java Web应用程序的标准配置文件，遵循XML格式。该文件主要定义了应用的基本结构和启动参数，包括Servlet映射、Filter配置、Listener注册、初始化参数设定等内容。Tomcat等Servlet容器在启动时会解析web.xml文件，根据其中的配置信息加载并管理Web应用程序的不同组件及其生命周期。

2023-08-20 15:01:52

345

醉卧沙场

Kibana

Kibana中Elasticsearch默认搜索查询优化：精确匹配、range查询与bool复合查询在数据分析中的应用实例

...不包含所需数据的深度解析与优化策略 1. 引言大家好，当你在使用Kibana进行数据分析时，是否曾遇到过这样的困扰：明明Elasticsearch中存储了大量宝贵的数据，但在Kibana中执行搜索查询时，返回的结果却并不尽如人意——它们可能不够全面，甚至漏掉了你真正需要的关键信息。这就是我们今天要探讨的主题：“Kibana的默认搜索查询不准确或不包含所需数据”。来吧，咱们一起钻得深一点，把这个问题摸个透彻。我打算通过实实在在的例子，手把手教你如何巧妙地优化查询，从而捞到更精准、更全面的信息。 2. Kibana搜索查询基础原理首先，我们需要理解Kibana搜索背后的机制。Kibana是基于Elasticsearch的可视化平台，默认的搜索查询其实采用了Elasticsearch的“match”查询，它会对索引中的所有字段进行全文本搜索。不过呢，这种模糊匹配的方法，在某些特定情况下可能不太灵光。比如说，当我们面对结构严谨的数据，或者需要找的东西必须严丝合缝地匹配时，搜出来的结果就可能不尽人意了。 3. 默认搜索查询的问题案例（以下代码示例假设我们有一个名为"logstash-"的索引，其中包含日志数据） json GET logstash-/_search { "query": { "match": { "message": "error" } } } 上述代码表示在"logstash-"的所有文档中查找含有"error"关键词的消息。但是，你知道吗，就算消息内容显示是“application has no error”，这个记录也会被挖出来，这明显不是我们想要的结果啊。 4. 优化搜索查询的方法（1）精准匹配查询为了精确匹配某个字段的内容，我们可以采用term查询而非match查询。 json GET logstash-/_search { "query": { "term": { "status.keyword": "error" } } } 在这个例子中，我们针对"status"字段进行精确匹配，".keyword"后缀确保了我们是在对已分析过的非文本字段进行查询。（2）范围查询和多条件查询如果你需要根据时间范围或者多个条件筛选数据，可以使用range和bool复合查询。 json GET logstash-/_search { "query": { "bool": { "must": [ { "term": { "status.keyword": "error" } }, { "range": { "@timestamp": { "gte": "now-1d", "lte": "now" } } } ] } } } 此处的例子展示了同时满足状态为"error"且在过去24小时内的日志记录。 5. 总结与思考 Kibana的默认搜索查询方式虽便捷，但其灵活性和准确性在面对复杂需求时可能会有所欠缺。熟悉并灵活运用Elasticsearch的各种查询“独门语言”（DSL，也就是领域特定语言），就像掌握了一套搜索大法，能够让你随心所欲地定制查询条件，这样一来，搜出来的结果不仅更贴切你想要的，而且信息更全面、准确度蹭蹭上涨，就像是给搜索功能插上了小翅膀一样。这就像是拥有一把精巧的钥匙，能够打开Elasticsearch这座数据宝库中每一扇隐藏的门。所以，下次当你在Kibana中发现搜索结果不尽如人意时，请不要急于怀疑数据的质量，而是尝试调整你的查询策略，让数据告诉你它的故事。记住了啊，每一次咱们对查询方法的改良和优化，其实就像是在数据的世界里不断挖掘宝藏，步步深入，逐渐揭开它的神秘面纱。这不仅是我们对数据理解越来越透彻的过程，更是咱们提升数据分析功力、练就火眼金睛的关键步骤！

2023-05-29 19:00:46

487

风轻云淡

Saiku

Saiku与LDAP集成认证失败问题排查及解决方案：聚焦配置错误、权限问题与网络故障修复

...集成认证失败问题深度解析及解决方案一、引言在大数据分析领域，Saiku以其强大的数据可视化和多维数据分析能力广受企业用户的青睐。然而，在真正动手部署的时候，咱们可能会遇到这么个情况：想把Saiku和公司内部的那个LDAP（也就是轻量级目录访问协议）整一块儿，实现单点登录的便利功能，结果却碰到了认证失败的问题。这无疑给我们的工作带来了困扰。这篇文会采用一种边探索边唠嗑的方式，一步步把这个问题掰开了、揉碎了讲明白，并且我还会手把手地带你瞅瞅实例代码，实实在在地演示一下如何把这个棘手的问题给妥妥地解决掉。二、理解Saiku与LDAP集成 1. LDAP基础介绍 LDAP是一种开源的、分布式的、为用户提供网络目录服务的应用协议。对企业来讲，这玩意儿就像是个超级大管家，能够把所有用户的账号信息一把抓，统一管理起来。这样一来，用户在不同系统间穿梭的时候，验证身份的流程就能变得轻松简单，再也不用像以前那样繁琐复杂了。 2. Saiku与LDAP集成原理 Saiku支持与LDAP集成，从而允许用户使用LDAP中的凭证直接登录到Saiku平台，无需单独在Saiku中创建账户。当你尝试登录Saiku的时候，它会超级贴心地把你输入的用户名和密码打包好，然后嗖的一下子送到LDAP服务器那里去“验明正身”。三、认证失败常见原因及排查 1. 配置错误（1）连接参数不准确：确保Saiku配置文件中关于LDAP的相关参数如URL、DN（Distinguished Name）、Base DN等设置正确无误。 properties Saiku LDAP配置示例 ldap.url=ldap://ldap.example.com:389 ldap.basedn=ou=People,dc=example,dc=com ldap.security.principal=uid=admin,ou=Admins,dc=example,dc=com ldap.security.credentials=password （2）过滤器设置不当：检查user.object.class和user.filter属性是否能够正确匹配到LDAP中的用户条目。 2. 权限问题确保用于验证的LDAP账户有足够的权限去查询用户信息。 3. 网络问题检查Saiku服务器与LDAP服务器之间的网络连通性。四、实战调试与解决方案 1. 日志分析通过查看Saiku和LDAP的日志，我们可以获取更详细的错误信息，例如连接超时、认证失败的具体原因等，从而确定问题所在。 2. 代码层面调试在Saiku源码中找到处理LDAP认证的部分，如： java DirContext ctx = new InitialDirContext(env); Attributes attrs = ctx.getAttributes(bindDN, new String[] { "cn" }); 可以通过添加调试语句或日志输出，实时观察变量状态以及执行过程。 3. 解决方案实施根据排查结果调整相关配置或修复代码，例如： - 如果是配置错误，修正相应配置并重启Saiku服务； - 如果是权限问题，联系LDAP管理员调整权限； - 若因网络问题，检查防火墙设置或优化网络环境。五、总结面对Saiku与LDAP集成认证失败的问题，我们需要从多个角度进行全面排查：从配置入手，细致核查每项参数；利用日志深入挖掘潜在问题；甚至在必要时深入源码进行调试。经过我们一步步实打实的操作，最后肯定能把这个问题妥妥地解决掉，让Saiku和LDAP这对好伙伴之间搭建起一座坚稳的安全认证桥梁。这样一来，企业用户们就能轻轻松松、顺顺利利地进行大数据分析工作了，效率绝对杠杠的！在整个过程中，不断思考、不断尝试，是我们解决问题的关键所在。

2023-10-31 16:17:34

134

雪落无痕

SpringCloud

SpringCloud服务路由配置错误与失效：识别问题、排查步骤及组件解析这个涵盖了的核心内容，包括SpringCloud框架下的服务路由配置错误失效问题的识别，以及涉及到的服务注册中心、Gateway、Zuul等组件的功能解析和故障排查的具体步骤。同时，字数控制在了50个字以内，满足了要求。

...r Factory（过滤器小作坊）。这个过程就像这样：它会仔细瞅瞅每个HTTP请求的路径、方法、头信息这些细节，然后对上号了才会执行精确的路由指引。就像是个聪明的小管家，检查每个进门客人的“邀请函”，确保他们能准确到达预定的目的地。 java @Bean public RouteLocator customRouteLocator(RouteLocatorBuilder builder) { return builder.routes() .route("path_route", r -> r.path("/service-a/") .uri("lb://SERVICE-A")) .build(); } 上述代码定义了一个名为"path_route"的路由规则，当请求路径匹配"/service-a/"时，将会被路由至名为"SERVICE-A"的服务实例上。 2. 遇到的服务路由配置错误或失效场景 2.1 路由规则配置错误假设我们在配置路由规则时，不慎将服务名写错，如下： java .route("wrong_route", r -> r.path("/service-b/") .uri("lb://WRONG-SERVICE-A")) 此处错误地将服务名称配置为了"WRONG-SERVICE-A"，而实际上应指向"SERVICE-B"。在这种情况下，任何一个打算去找"/service-b/"的请求，都会因为摸不着目标服务而在路由的路上迷路，没法顺利完成它的任务。 2.2 服务实例未注册或下线即使路由规则配置无误，如果目标服务实例没有成功注册到Eureka或者Consul等服务注册中心，或者服务实例已经下线，路由也会失效。 2.3 负载均衡失效另外一种常见情况是，虽然服务实例存在且已注册，但由于负载均衡策略设置不当，导致路由无法有效分配请求到各个服务实例上。 3. 解决方案及排查步骤对于上述问题，我们可以采取以下策略来解决和排查： - 检查路由规则配置：确保每个路由规则的URI部分指向正确的服务名。 - 查看服务注册状态：登录服务注册中心，确认目标服务是否已成功注册并在线。若未注册或下线，则需要检查服务启动过程以及与注册中心的通信状况。 - 验证负载均衡策略：检查SpringCloud Gateway或Zuul中的负载均衡策略配置，确保其能够正常工作。例如，使用轮询、随机或权重等方式合理分配流量。 - 日志分析：深入阅读网关组件的日志输出，通常会记录详细的路由决策过程和结果，这对于定位问题非常有帮助。 4. 总结与思考面对服务路由配置错误或失效的问题，关键在于理解和掌握SpringCloud的核心路由机制，并具备一定的故障排查能力。同时呢，咱得时刻盯着服务的注册情况，一旦有变动就得立马响应。还有啊，及时调整和优化那个负载均衡策略，这可是保证服务路由始终保持高效稳定运行的关键招数。在实际动手操作中不断尝试、摸爬滚打，积累经验，才能让我们更溜地玩转SpringCloud这个超级给力的微服务工具箱，让服务路由那些小插曲不再阻碍咱们分布式系统的平稳运行。

2023-03-01 18:11:39

灵动之光

Kibana

Kibana中构建Elasticsearch数据可视化仪表板：从索引模式创建到柱状图与折线图的仪表板集成实践

...其中包含了服务器访问日志数据： json POST /logs/_doc { "timestamp": "2022-01-01T00:00:00Z", "method": "GET", "path": "/api/v1/data", "status_code": 200, "response_time_ms": 150 } 重复上述过程，填充足够多的日志数据以便进行更深入的分析。 2. 创建索引模式与发现视图 - 创建索引模式：在Kibana界面中，进入“管理”>“索引模式”，点击“创建索引模式”，输入索引名称logs，Kibana会自动检测字段类型并建立映射关系。 - 探索数据：进入“发现”视图，选择我们刚才创建的logs索引模式，Kibana会展示出所有日志记录。在这里，你可以实时搜索、筛选以及初步分析数据。 3. 初步构建可视化组件 - 创建可视化图表：进入“可视化”界面，点击“新建”，开始创建你的第一个可视化图表。例如，我们可以创建一个柱状图来展示不同HTTP方法的请求次数： a. 选择“柱状图”可视化类型。 b. 在“buckets”区域添加一个“terms”分桶，字段选择method。 c. 在“metrics”区域添加一个“计数”指标，计算每个方法的请求总数。保存这个可视化图表，命名为“HTTP方法请求统计”。 4. 构建仪表板 - 创建仪表板：进入“仪表板”界面，点击“新建”，创建一个新的空白仪表板。 - 添加可视化组件：点击右上角的“添加可视化”按钮，选择我们在第3步创建的“HTTP方法请求统计”图表，将其添加至仪表板中。 - 扩展仪表板：不止于此，我们可以继续创建其他可视化组件，比如折线图显示随着时间推移的响应时间变化，热力图展示不同路径和状态码的分布情况等，并逐一将它们添加到此仪表板上。 5. 自定义与交互性调整 Kibana的真正魅力在于其丰富的自定义能力和交互性设计。比如，你完全可以给每张图表单独设定过滤器规则，这样一来，整个仪表板上的数据就能像变魔术一样联动更新，超级炫酷。另外，你还能借助那个时间筛选器，轻轻松松地洞察到特定时间段内数据走势的变化，就像看一部数据演变的电影一样直观易懂。在整个创建过程中，你可能会遇到疑惑、困惑，甚至挫折，但请记住，这就是探索和学习的魅力所在。随着对Kibana的理解逐渐加深，你会发现它不仅是一个工具，更是你洞察数据、讲述数据故事的强大伙伴。尽情发挥你的创造力，让数据活起来，赋予其生动的故事性和价值性。总结来说，创建Kibana可视化仪表板的过程就像绘制一幅数据画卷，从准备画布（导入数据）开始，逐步添置元素（创建可视化组件），最后精心布局（构建仪表板），期间不断尝试、调整和完善，最终成就一份令人满意的可视化作品。在这个探索的过程中，你要像个充满好奇的小探险家一样，时刻保持对未知的热情，脑袋瓜子灵活运转，积极思考各种可能性。同时，也要有敢于动手实践的勇气，大胆尝试，别怕失败。这样下去，你肯定能在浩瀚的数据海洋中挖到那些藏得深深的宝藏，收获满满的惊喜。

2023-08-20 14:56:06

336

岁月静好

SpringCloud

Spring Cloud Gateway中的路由匹配与过滤器异常：微服务架构下的问题定位与解决方案实操

...相当于咱们系统的超级过滤器。不仅如此，它还负责给流量踩刹车、防止系统过载的限流熔断等一连串关键任务。可以说，没有它，我们整个系统的稳定性和健壮性可就大打折扣了，它绝对是咱们系统正常运行不可或缺的重要守护者。在实际动手开发和运维的时候，咱们免不了会碰到各种Spring Cloud Gateway捣乱的异常状况。这些小插曲如果没处理好，就有可能对整个微服务的大局造成连锁反应，影响不容小觑。这篇文咱可是要实实在在地聊聊Spring Cloud Gateway那些可能会碰到的异常状况，我不仅会掰开揉碎了用实例代码给你细细解析，还会手把手教你如何对症下药，给出相应的解决办法。二、Spring Cloud Gateway异常概述 1. 路由匹配异常在配置路由规则时，若规则设置不正确或者请求无法匹配到任何路由，Gateway会抛出异常。比方说，就像这样的情形：假如客户端向我们发送了一个请求，但是呢，在咱们的gateway路由配置里头，我们还没给这个请求对应的路径或者服务名设定好，这时候，这种问题就有可能冒出来啦。 java @Bean public RouteLocator customRouteLocator(RouteLocatorBuilder builder) { // 假设这里没有配置"/api/user"的路由，那么请求该路径就会出现404异常 return builder.routes() .route("product-service", r -> r.path("/api/product").uri("lb://PRODUCT-SERVICE")) .build(); } 2. 过滤器异常 Spring Cloud Gateway支持自定义过滤器，若过滤器内部逻辑错误或资源不足等，也可能引发异常。比如在开发权限校验过滤器的时候，假如咱们的验证逻辑不小心出了点小差错，就可能会让本来正常的请求被误判、给挡在外面了。 java @Component public class AuthFilter implements GlobalFilter, Ordered { @Override public Mono filter(ServerWebExchange exchange, GatewayFilterChain chain) { // 假设这里的token解析或校验过程出现问题 String token = exchange.getRequest().getHeaders().getFirst("Authorization"); // ...省略校验逻辑... if (isValidToken(token)) { return chain.filter(exchange); } else { // 若返回错误信息时处理不当，可能导致异常 return exchange.getResponse().setStatusCode(HttpStatus.UNAUTHORIZED).buildMono(); } } // ... } 三、异常排查与解决策略 1. 路由匹配异常： - 排查方法：首先检查路由配置是否正确且完整，确保所有接口都有对应的路由规则。 - 解决方案：添加或修复缺失或错误的路由规则。 2. 过滤器异常： - 排查方法：通过日志定位到具体哪个过滤器报错，然后审查过滤器内部逻辑。对于自定义过滤器，应重点检查业务逻辑和资源管理部分。 - 解决方案：修复过滤器内部的逻辑错误，保证过滤器能够正确执行并返回预期结果。同时呢，千万记得要做好应对突发状况的工作，就像在过滤器里头万一出了岔子，咱们得确保能给客户端一个明明白白的反馈信息，而不是啥也不说就直接把异常抛出去，让请求咔嚓一下就断掉了。四、总结与思考面对Spring Cloud Gateway的异常情况，我们需要具备敏锐的问题洞察力和严谨的排查手段。每一个异常背后都可能是架构设计、资源配置、代码实现等方面的疏漏。所以呢，咱们在日常敲代码的时候，不仅要死磕代码质量，还得把Spring Cloud Gateway的运作机理摸得门儿清。这样一来，当问题突然冒出来的时候，就能快速找到“病灶”，手到病除地解决它。这样子，我们的微服务架构才能真正硬气起来，随时准备好迎接那些复杂多变、让人头疼的业务场景和挑战。在实际开发中，每一次异常处理的过程都是我们深化技术认知，提升解决问题能力的良好契机。让我们一起在实战中不断积累经验，让Spring Cloud Gateway更好地服务于我们的微服务架构。

2023-07-06 09:47:52

晚秋落叶_

转载文章

[转载]软件供应链安全威胁：从“奥创纪元”到“无限战争”

...如腾讯的开源Json解析库RapidJSON，就是纯C++头文件形式）。在开源领域有如GPL等规约对此进行规范，下游开发者遵循协议，引用代码，强制或可选地显式保留其GPL声明，可以进行使用和更改。这样的源码依赖关系，结合规范化的changelog声明代码改动，侧面也是为开发过程中跟进考虑。但是一个成型的产品，比如企业自有的服务端底层产品、中间件，新版本的发版更新是复杂的过程，开发者在旧版本仍然“功能正常”的情况下往往倾向于不跟进新版本；而上游代码如果进行安全漏洞修复，通常也都只在其最新版本代码中改动，安全修复与功能迭代并存，如果没有类似Linux发行版社区的努力，旧版本代码完全没有干净的安全更新patch可用。 ·在特定场景下，有些开发实践可能不严格遵循开源代码协议限定，引入了GPL等协议保护的代码而不做声明（以规避相关责任），丢失了引入和版本的信息跟踪；在另一些场景下，可能存在对开源代码进行大刀阔斧的修改、剪裁、定制，以符合自身业务的极端需求，但是过多的修改、人员的迭代造成与官方代码严重的失同步，丧失可维护性。 ·更一般的情况是，在开发中，开发者个体往往心照不宣的存在对网上代码文件、代码片段的复制-粘贴操作。被参考的代码，可能有上述的开源代码，也可能有各种Github作者练手项目、技术博客分享的代码片段、正式开源项目仅用来说明用法的不完备示例代码。这些代码的引入完全无迹可寻，即便是作者自己也很难解释用了什么。这种情况下，上面两条认定的那些与官方安全更新失同步的问题同样存在，且引入了独特的风险：被借鉴的代码可能只是原作者随手写的、仅仅是功能成立的片段，甚至可能是恶意作者随意散布的有安全问题的代码。由此，问题进入了最大的发散空间。在Synopsys下BLACKDUCK软件之前发布的《2018 Open Source Security and Risk Analysis Report》中分析，96%的应用中包含有开源组件和代码，开源代码在应用全部代码中的占比约为57%，78%的应用中在引用的三方开源代码中存在历史漏洞。也就是说，现在互联网上所有厂商开发的软件、应用，其开发人员自己写的代码都是一少部分，多数都是借鉴来的。而这还只是可统计、可追溯的；至于上面提到的非规范的代码引用，如果也纳入进来考虑，三方代码占应用中的比例会上升到多少？曾经有分析认为至少占80%，我们只期望不会更高。 Ⅱ. 从碎片到乱刃：OpenSSH在野后门一览在进行基础软件梳理时，回忆到反病毒安全软件提供商ESET在2018年十月发布的一份白皮书《THE DARK SIDE OF THE FORSSHE: A landscape of OpenSSH backdoors》。其站在一个具有广泛用户基础的软件提供商角度，给出了一份分析报告，数据和结论超出我们对于当前基础软件使用全景的估量。以下以我的角度对其中一方面进行解读。一些必要背景 SSH的作用和重要性无需赘言；虽然我们站在传统互联网公司角度，可以认为SSH是通往生产服务器的生命通道，但当前多样化的产业环境已经不止于此（如之前libssh事件中，不幸被我言中的，SSH在网络设备、IoT设备上（如f5）的广泛使用）。 OpenSSH是目前绝大多数SSH服务端的基础软件，有完备的开发团队、发布规范、维护机制，本身是靠谱的。如同绝大多数基础软件开源项目的做法，OpenSSH对漏洞有及时的响应，针对最新版本代码发出安全补丁，但是各大Linux发行版使用的有各种版本的OpenSSH，这些社区自行负责将官方开发者的安全补丁移植到自己系统搭载的低版本代码上。天空彩白皮书披露的现状如果你是一个企业的运维管理人员，需要向企业生产服务器安装OpenSSH或者其它基础软件，最简单的方式当然是使用系统的软件管理安装即可。但是有时候，出于迁移成本考虑，可能企业需要在一个旧版本系统上，使用较新版本的OpenSSL、OpenSSH等基础软件，这些系统不提供，需要自行安装；或者需要一个某有种特殊特性的定制版本。这时，可能会选择从某些rpm包集中站下载某些不具名第三方提供的现成的安装包，或者下载非官方的定制化源码本地编译后安装，总之从这里引入了不确定性。这种不确定性有多大？我们粗估一下，似乎不应成为问题。但这份白皮书给我们看到了鲜活的数据。 ESET研究人员从OpenSSH的一次历史大规模Linux服务端恶意软件Windigo中获得启示，采用某种巧妙的方式，面向在野的服务器进行数据采集，主要是系统与版本、安装的OpenSSH版本信息以及服务端程序文件的一个特殊签名。整理一个签名白名单，包含有所有能搜索到的官方发布二进制版本、各大Linux发行版本各个版本所带的程序文件版本，将这些标定为正常样本进行去除。最终结论是： ·共发现了几百个非白名单版本的OpenSSH服务端程序文件ssh和sshd； ·分析这些样本，将代码部分完全相同，仅仅是数据和配置不同的合并为一类，且分析判定确认有恶意代码的，共归纳为 21个各异的恶意OpenSSH家族； ·在21个恶意家族中，有12个家族在10月份时完全没有被公开发现分析过；而剩余的有一部分使用了历史上披露的恶意代码样本，甚至有源代码； ·所有恶意样本的实现，从实现复杂度、代码混淆和自我保护程度到代码特征有很大跨度的不同，但整体看，目的以偷取用户凭证等敏感信息、回连外传到攻击者为主，其中有的攻击者回连地址已经存在并活跃数年之久； ·这些后门的操控者，既有传统恶意软件黑产人员，也有APT组织； ·所有恶意软件或多或少都在被害主机上有未抹除的痕迹。ESET研究者尝试使用蜜罐引诱出攻击者，但仍有许多未解之谜。这场对抗，仍未取胜。白皮书用了大篇幅做技术分析报告，此处供细节分析，不展开分析，以下为根据恶意程序复杂度描绘的21个家族图谱：问题思考问题引入的可能渠道，我在开头进行了一点推测，主要是由人的原因切入的，除此以外，最可能的是恶意攻击者在利用各种方法入侵目标主机后，主动替换了目标OpenSSH为恶意版本，从而达成攻击持久化操作。但是这些都是止血的安全运维人员该考虑的事情；关键问题是，透过表象，这显露了什么威胁形式？这个问题很好回答，之前也曾经反复说过：基础软件碎片化。如上一章节简单提到，在开发过程中有各种可能的渠道引入开发者不完全了解和信任的代码；在运维过程中也是如此。二者互相作用，造成了软件碎片化的庞杂现状。在企业内部，同一份基础软件库，可能不同的业务线各自定制一份，放到企业私有软件仓库源中，有些会有人持续更新供自己产品使用，有些由系统软件基础设施维护人员单独维护，有些则可能是开发人员临时想起来上传的，他们自己都不记得；后续用到的这个基础软件的开发和团队，在这个源上搜索到已有的库，很大概率会倾向于直接使用，不管来源、是否有质量背书等。长此以往问题会持续发酵。而我们开最坏的脑洞，是否可能有黑产人员入职到内部，提交个恶意基础库之后就走人的可能？现行企业安全开发流程中审核机制的普遍缺失给这留下了空位。将源码来源碎片化与二进制使用碎片化并起来考虑，我们不难看到一个远远超过OpenSSH事件威胁程度的图景。但这个问题不是仅仅靠开发阶段规约、运维阶段规范、企业内部管控、行业自查、政府监管就可以根除的，最大的问题归根结底两句话：不可能用一场战役对抗持续威胁；不可能用有限分析对抗无限未知。 Ⅲ. 从自信到自省：RHEL、CentOS backport版本BIND漏洞 2018年12月20日凌晨，在备战冬至的软件供应链安全大赛决赛时，我注意到漏洞预警平台捕获的一封邮件。但这不是一个漏洞初始披露邮件，而是对一个稍早已披露的BIND在RedHat、CentOS发行版上特定版本的1day漏洞CVE-2018-5742，由BIND的官方开发者进行额外信息澄(shuǎi)清(guō)的邮件。一些必要背景关于BIND 互联网的一个古老而基础的设施是DNS，这个概念在读者不应陌生。而BIND“是现今互联网上最常使用的DNS软件，使用BIND作为服务器软件的DNS服务器约占所有DNS服务器的九成。BIND现在由互联网系统协会负责开发与维护参考。”所以BIND的基础地位即是如此，因此也一向被大量白帽黑帽反复测试、挖掘漏洞，其开发者大概也一直处在紧绷着应对的处境。关于ISC和RedHat 说到开发者，上面提到BIND的官方开发者是互联网系统协会（ISC）。ISC是一个老牌非营利组织，目前主要就是BIND和DHCP基础设施的维护者。而BIND本身如同大多数历史悠久的互联网基础开源软件，是4个UCB在校生在DARPA资助下于1984年的实验室产物，直到2012年由ISC接管。那么RedHat在此中是什么角色呢？这又要提到我之前提到的Linux发行版和自带软件维护策略。Red Hat Enterprise Linux（RHEL）及其社区版CentOS秉持着稳健的软件策略，每个大的发行版本的软件仓库，都只选用最必要且质量久经时间考验的软件版本，哪怕那些版本实在是老掉牙。这不是一种过分的保守，事实证明这种策略往往给RedHat用户在最新漏洞面前提供了保障——代码总是跑得越少，潜在漏洞越多。但是这有两个关键问题。一方面，如果开源基础软件被发现一例有历史沿革的代码漏洞，那么官方开发者基本都只为其最新代码负责，在当前代码上推出修复补丁。另一方面，互联网基础设施虽然不像其上的应用那样爆发性迭代，但依然持续有一些新特性涌现，其中一些是必不可少的，但同样只在最新代码中提供。两个刚需推动下，各Linux发行版对长期支持版本系统的软件都采用一致的策略，即保持其基础软件在一个固定的版本，但对于这些版本软件的最新漏洞、必要的最新软件特性，由发行版维护者将官方开发者最新代码改动“向后移植”到旧版本代码中，即backport。这就是基础软件的“官宣”碎片化的源头。讲道理，Linux发行版维护者与社区具有比较靠谱的开发能力和监督机制，backport又基本就是一些复制粘贴工作，应当是很稳当的……但真是如此吗？ CVE-2018-5742漏洞概况 CVE-2018-5742是一个简单的缓冲区溢出类型漏洞，官方评定其漏洞等级moderate，认为危害不大，漏洞修复不积极，披露信息不多，也没有积极给出代码修复patch和新版本rpm包。因为该漏洞仅在设置DEBUG_LEVEL为10以上才会触发，由远程攻击者构造畸形请求造成BIND服务崩溃，在正常的生产环境几乎不可能具有危害，RedHat官方也只是给出了用户自查建议。这个漏洞只出现在RHEL和CentOS版本7中搭载的BIND 9.9.4-65及之后版本。RedHat同ISC的声明中都证实，这个漏洞的引入原因，是RedHat在尝试将BIND 9.11版本2016年新增的NTA机制向后移植到RedHat 7系中固定搭载的BIND 9.9版本代码时，偶然的代码错误。NTA是DNS安全扩展（DNSSEC）中，用于在特定域关闭DNSSEC校验以避免不必要的校验失败的机制；但这个漏洞不需要对NTA本身有进一步了解。漏洞具体分析官方没有给出具体分析，但根据CentOS社区里先前有用户反馈的bug，我得以很容易还原漏洞链路并定位到根本原因。若干用户共同反馈，其使用的BIND 9.9.4-RedHat-9.9.4-72.el7发生崩溃（coredump），并给出如下的崩溃时调用栈backtrace：这个调用过程的逻辑为，在9 dns_message_logfmtpacket函数判断当前软件设置是否DEBUG_LEVEL大于10，若是，对用户请求数据包做日志记录，先后调用8 dns_message_totext、7 dns_message_sectiontotext、6 dns_master_rdatasettotext、5 rdataset_totext将请求进行按协议分解分段后写出。由以上关键调用环节，联动RedHat在9.9.4版本BIND源码包中关于引入NTA特性的源码patch，进行代码分析，很快定位到问题产生的位置，在上述backtrace中的5，masterdump.c文件rdataset_totext函数。漏洞相关代码片段中，RedHat进行backport后，这里引入的代码为：这里判断对于请求中的注释类型数据，直接通过isc_buffer_putstr宏对缓存进行操作，在BIND工程中自定义维护的缓冲区结构对象target上，附加一字节字符串（一个分号）。而漏洞就是由此产生：isc_buffer_putstr中不做缓冲区边界检查保证，这里在缓冲区已满情况下将造成off-by-one溢出，并触发了缓冲区实现代码中的assertion。而ISC上游官方版本的代码在这里是怎么写的呢？找到ISC版本BIND 9.11代码，这里是这样的：这里可以看到，官方代码在做同样的“附加一个分号”这个操作时，审慎的使用了做缓冲区剩余空间校验的str_totext函数，并额外做返回值成功校验。而上述提到的str_totext函数与RETERR宏，在移植版本的masterdump.c中，RedHat开发者也都做了保留。但是，查看代码上下文发现，在RedHat开发者进行代码移植过程中，对官方代码进行了功能上的若干剪裁，包括一些细分数据类型记录的支持；而这里对缓冲区写入一字节，也许开发者完全没想到溢出的可能，所以自作主张地简化了代码调用过程。问题思考这个漏洞本身几乎没什么危害，但是背后足以引起思考。没有人在“借”别人代码时能不出错不同于之前章节提到的那种场景——将代码文件或片段复制到自己类似的代码上下文借用——backport作为一种官方且成熟的做法，借用的代码来源、粘贴到的代码上下文，是具有同源属性的，而且开发者一般是追求稳定性优先的社区开发人员，似乎质量应该有足够保障。但是这里的关键问题是：代码总要有一手、充分的语义理解，才能有可信的使用保障；因此，只要是处理他人的代码，因为不够理解而错误使用的风险，只可能减小，没办法消除。如上分析，本次漏洞的产生看似只是做代码移植的开发者“自作主张”之下“改错了”。但是更广泛且可能的情况是，原始开发者在版本迭代中引入或更新大量基础数据结构、API的定义，并用在新的特性实现代码中；而后向移植开发人员仅需要最小规模的功能代码，所以会对增量代码进行一定规模的修改、剪裁、还原，以此适应旧版本基本代码。这些过程同样伴随着第三方开发人员不可避免的“望文生义”，以及随之而来的风险。后向移植操作也同样助长了软件碎片化过程，其中每一个碎片都存在这样的问题；每一个碎片在自身生命周期也将有持续性影响。多级复制粘贴无异于雪上加霜这里简单探讨的是企业通行的系统和基础软件建设实践。一些国内外厂商和社区发布的定制化Linux发行版，本身是有其它发行版，如CentOS特定版本渊源的，在基础软件上即便同其上游发行版最新版本间也存在断层滞后。RedHat相对于基础软件开发者之间已经隔了一层backport，而我们则人为制造了二级风险。在很多基础而关键的软件上，企业系统基础设施的维护者出于与RedHat类似的初衷，往往会决定自行backport一份拷贝；通过早年心脏滴血事件的洗礼，即暴露出来OpenSSL一个例子。无论是需要RHEL还没来得及移植的新版本功能特性，还是出于对特殊使用上下文场景中更高执行效率的追求，企业都可能自行对RHEL上基础软件源码包进行修改定制重打包。这个过程除了将风险幂次放大外，也进一步加深了代码的不可解释性（包括基础软件开发人员流动性带来的不可解释）。 Ⅳ. 从武功到死穴：从systemd-journald信息泄露一窥API误用 1月10日凌晨两点，漏洞预警平台爬收取一封漏洞披露邮件。披露者是Qualys，那就铁定是重型发布了。最后看披露漏洞的目标，systemd？这就非常有意思了。一些必要背景 systemd是什么，不好简单回答。Linux上面软件命名，习惯以某软件名后带个‘d’表示后台守护管理程序；所以systemd就可以说是整个系统的看守吧。而即便现在描述了systemd是什么，可能也很快会落伍，因为其初始及核心开发者Lennart Poettering（供职于Red Hat）描述它是“永无开发完结完整、始终跟进技术进展的、统一所有发行版无止境的差异”的一种底层软件。笼统讲有三个作用：中央化系统及设置管理；其它软件开发的基础框架；应用程序和系统内核之间的胶水。如今几乎所有Linux发行版已经默认提供systemd，包括RHEL/CentOS 7及后续版本。总之很基础、很底层、很重要就对了。systemd本体是个主要实现init系统的框架，但还有若干关键组件完成其它工作；这次被爆漏洞的是其journald组件，是负责系统事件日志记录的看守程序。额外地还想简单提一句Qualys这个公司。该公司创立于1999年，官方介绍为信息安全与云安全解决方案企业，to B的安全业务非常全面，有些也是国内企业很少有布局的方面；例如上面提到的涉及碎片化和代码移植过程的历史漏洞移动，也在其漏洞管理解决方案中有所体现。但是我们对这家公司粗浅的了解来源于其安全研究团队近几年的发声，这两年间发布过的，包括有『stack clash』、『sudo get_tty_name提权』、『OpenSSH信息泄露与堆溢出』、『GHOST：glibc gethostbyname缓冲区溢出』等大新闻（仅截至2017年年中）。从中可见，这个研究团队专门啃硬骨头，而且还总能开拓出来新的啃食方式，往往爆出来一些别人没想到的新漏洞类型。从这个角度，再联想之前刷爆朋友圈的《安全研究者的自我修养》所倡导的“通过看历史漏洞、看别人的最新成果去举一反三”的理念，可见差距。 CVE-2018-16866漏洞详情这次漏洞披露，打包了三个漏洞： ·16864和16865是内存破坏类型 ·16866是信息泄露 ·而16865和16866两个漏洞组和利用可以拿到root shell。漏洞分析已经在披露中写的很详细了，这里不复述；而针对16866的漏洞成因来龙去脉，Qualys跟踪的结果留下了一点想象和反思空间，我们来看一下。漏洞相关代码片段是这样的（漏洞修复前）：读者可以先肉眼过一遍这段代码有什么问题。实际上我一开始也没看出来，向下读才恍然大悟。这段代码中，外部信息输入通过buf传入做记录处理。输入数据一般包含有空白字符间隔，需要分隔开逐个记录，有效的分隔符包括空格、制表符、回车、换行，代码中将其写入常量字符串；在逐字符扫描输入数据字符串时，将当前字符使用strchr在上述间隔符字符串中检索是否匹配，以此判断是否为间隔符；在240行，通过这样的判断，跳过记录单元字符串的头部连续空白字符。但是问题在于，strchr这个极其基础的字符串处理函数，对于C字符串终止字符'\0'的处理上有个坑：'\0'也被认为是被检索字符串当中的一个有效字符。所以在240行，当当前扫描到的字符为字符串末尾的NULL时，strchr返回的是WHITESPACE常量字符串的终止位置而非NULL，这导致了越界。看起来，这是一个典型的问题：API误用（API mis-use），只不过这个被误用的库函数有点太基础，让我忍不住想是不是还会有大量的类似漏洞……当然也反思我自己写的代码是不是也有同样情况，然而略一思考就释然了——我那么笨的代码都用for循环加if判断了:) 漏洞引入和消除历史有意思的是，Qualys研究人员很贴心地替我做了一步漏洞成因溯源，这才是单独提这个漏洞的原因。漏洞的引入是在2015年的一个commit中：在GitHub中，定位到上述2015年的commit信息，这里commit的备注信息为： journald: do not strip leading whitespace from messages. Keep leading whitespace for compatibility with older syslog implementations. Also useful when piping formatted output to the logger command. Keep removing trailing whitespace. OK，看起来是一个兼容性调整，对记录信息不再跳过开头所有连续空白字符，只不过用strchr的简洁写法比较突出开发者精炼的开发风格（并不），说得过去。之后在2018年八月的一个当时尚未推正式版的另一次commit中被修复了，先是还原成了ec5ff4那次commit之前的写法，然后改成了加校验的方式：虽然Qualys研究者认为上述的修改是“无心插柳”的改动，但是在GitHub可以看到，a6aadf这次commit是因为有外部用户反馈了输入数据为单个冒号情况下journald堆溢出崩溃的issue，才由开发者有目的性地修复的；而之后在859510这个commit再次改动回来，理由是待记录的消息都是使用单个空格作为间隔符的，而上一个commit粗暴地去掉了这种协议兼容性特性。如果没有以上纠结的修改和改回历史，也许我会倾向于怀疑，在最开始漏洞引入的那个commit，既然改动代码没有新增功能特性、没有解决什么问题（毕竟其后三年，这个改动的代码也没有被反映issue），也并非出于代码规范等考虑，那么这么轻描淡写的一次提交，难免有人为蓄意引入漏洞的嫌疑。当然，看到几次修复的原因，这种可能性就不大了，虽然大家仍可以保留意见。但是抛开是否人为这个因素，单纯从代码的漏洞成因看，一个传统但躲不开的问题仍值得探讨：API误用。 API误用：程序员何苦为难程序员如果之前的章节给读者留下了我反对代码模块化和复用的印象，那么这里需要正名一下，我们认可这是当下开发实践不可避免的趋势，也增进了社会开发速度。而API的设计决定了写代码和用代码的双方“舒适度”的问题，由此而来的API误用问题，也是一直被当做单纯的软件工程课题讨论。在此方面个人并没有什么研究，自然也没办法系统地给出分类和学术方案，只是谈一下自己的经验和想法。一篇比较新的学术文章总结了API误用的研究，其中一个独立章节专门分析Java密码学组件API误用的实际，当中引述之前论文认为，密码学API是非常容易被误用的，比如对期望输入数据（数据类型，数据来源，编码形式）要求的混淆，API的必需调用次序和依赖缺失（比如缺少或冗余多次调用了初始化函数、主动资源回收函数）等。凑巧在此方面我有一点体会：曾经因为业务方需要，需要使用C++对一个Java的密码基础中间件做移植。Java对密码学组件支持，有原生的JDK模块和权威的BouncyCastle包可用；而C/C++只能使用第三方库，考虑到系统平台最大兼容和最小代码量，使用Linux平台默认自带的OpenSSL的密码套件。但在开发过程中感受到了OpenSSL满满的恶意：其中的API设计不可谓不反人类，很多参数没有明确的说明（比如同样是表示长度的函数参数，可能在不同地方分别以字节/比特/分组数为计数单位）；函数的线程安全没有任何解释标注，需要自行试验；不清楚函数执行之后，是其自行做了资源释放还是需要有另外API做gc，不知道资源释放操作时是否规规矩矩地先擦除后释放……此类问题不一而足，导致经过了漫长的测试之后，这份中间件才提供出来供使用。而在业务场景中，还会存在比如其它语言调用的情形，这些又暴露出来OpenSSL API误用的一些完全无从参考的问题。这一切都成为了噩梦；当然这无法为我自己开解是个不称职开发的指责，但仅就OpenSSL而言其API设计之恶劣也是始终被人诟病的问题，也是之后其他替代者宣称改进的地方。当然，问题是上下游都脱不了干系的。我们自己作为高速迭代中的开发人员，对于二方、三方提供的中间件、API，又有多少人能自信地说自己仔细、认真地阅读过开发指南和API、规范说明呢？做过通用产品技术运营的朋友可能很容易理解，自己产品的直接用户日常抛出不看文档的愚蠢问题带来的困扰。对于密码学套件，这个问题还好办一些，毕竟如果在没有背景知识的情况下对API望文生义地一通调用，绝大多数情况下都会以抛异常形式告终；但还是有很多情况，API误用埋下的是长期隐患。不是所有API误用情形最终都有机会发展成为可利用的安全漏洞，但作为一个由人的因素引入的风险，这将长期存在并困扰软件供应链（虽然对安全研究者、黑客与白帽子是很欣慰的事情）。可惜，传统的白盒代码扫描能力，基于对代码语义的理解和构建，但是涉及到API则需要预先的抽象，这一点目前似乎仍然是需要人工干预的事情；或者轻量级一点的方案，可以case by case地分析，为所有可能被误用的API建模并单独扫描，这自然也有很强局限性。在一个很底层可信的开发者还对C标准库API存在误用的现实内，我们需要更多的思考才能说接下来的解法。 Ⅴ. 从规则到陷阱：NASA JIRA误配置致信息泄露血案软件的定义包括了代码组成的程序，以及相关的配置、文档等。当我们说软件的漏洞、风险时，往往只聚焦在其中的代码中；关于软件供应链安全风险，我们的比赛、前面分析的例子也都聚焦在了代码的问题；但是真正的威胁都来源于不可思议之处，那么代码之外有没有可能存在来源于上游的威胁呢？这里就借助实例来探讨一下，在“配置”当中可能栽倒的坑。引子：发不到500英里以外的邮件？让我们先从一个轻松愉快的小例子引入。这个例子初见于Linux中国的一篇译文。简单说，作者描述了这么一个让人啼笑皆非的问题：单位的邮件服务器发送邮件，发送目标距离本地500英里范围之外的一律失败，邮件就像悠悠球一样只能飞出一定距离。这个问题本身让描述者感到尴尬，就像一个技术人员被老板问到“为什么从家里笔记本上Ctrl-C后不能在公司台式机上Ctrl-V”一样。经过令人窒息的分析操作后，笔者定位到了问题原因：笔者作为负责的系统管理员，把SunOS默认安装的Senmail从老旧的版本5升级到了成熟的版本8，且对应于新版本诸多的新特性进行了对应配置，写入配置文件sendmail.cf；但第三方服务顾问在对单位系统进行打补丁升级维护时，将系统软件“升级”到了系统提供的最新版本，因此将Sendmail实际回退到了版本5，却为了软件行为一致性，原样保留了高版本使用的配置文件。但Sendmail并没有在大版本间保证配置文件兼容性，这导致很多版本5所需的配置项不存在于保留下来的sendmail.cf文件中，程序按默认值0处理；最终引起问题的就是，邮件服务器与接收端通信的超时时间配置项，当取默认配置值0时，邮件服务器在1个单位时间（约3毫秒）内没有收到网络回包即认为超时，而这3毫秒仅够电信号打来回飞出500英里。这个“故事”可能会给技术人员一点警醒，错误的配置会导致预期之外的软件行为，但是配置如何会引入软件供应链方向的安全风险呢？这就引出了下一个重磅实例。 JIRA配置错误致NASA敏感信息泄露案例我们都听过一个事情，马云在带队考察美国公司期间问Google CEO Larry Page自视谁为竞争对手，Larry的回答是NASA，因为最优秀的工程师都被NASA的梦想吸引过去了。由此我们显然能窥见NASA的技术水位之高，这样的人才团队大概至少是不会犯什么低级错误的。但也许需要重新定义“低级错误”……1月11日一篇技术文章披露，NASA某官网部署使用的缺陷跟踪管理系统JIRA存在错误的配置，可分别泄漏内部员工（JIRA系统用户）的全部用户名和邮件地址，以及内部项目和团队名称到公众，如下：问题的原因解释起来也非常简单：JIRA系统的过滤器和配置面板中，对于数据可见性的配置选项分别选定为All users和Everyone时，系统管理人员想当然地认为这意味着将数据对所有“系统用户”开放查看，但是JIRA的这两个选项的真实效果逆天，是面向“任意人”开放，即不限于系统登录用户，而是任何查看页面的人员。看到这里，我不厚道地笑了……“All users”并不意味着“All ‘users’”，意不意外，惊不惊喜？但是这种字面上把戏，为什么没有引起NASA工程师的注意呢，难道这样逆天的配置项没有在产品手册文档中加粗标红提示吗？本着为JIRA产品设计找回尊严的态度，我深入挖掘了一下官方说明，果然在Atlassian官方的一份confluence文档（看起来更像是一份增补的FAQ）中找到了相关说明：所有未登录访客访问时，系统默认认定他们是匿名anonymous用户，所以各种权限配置中的all users或anyone显然应该将匿名用户包括在内。在7.2及之后版本中，则提供了“所有登录用户”的选项。可以说是非常严谨且贴心了。比较讽刺的是，在我们的软件供应链安全大赛·C源代码赛季期间，我们设计圈定的恶意代码攻击目标还包括JIRA相关的敏感信息的窃取，但是却想不到有这么简单方便的方式，不动一行代码就可以从JIRA中偷走数据。软件的使用，你“配”吗？无论是开放的代码还是成型的产品，我们在使用外部软件的时候，都是处于软件供应链下游的消费者角色，为了要充分理解上游开发和产品的真实细节意图，需要我们付出多大的努力才够“资格”？上一章节我们讨论过源码使用中必要细节信息缺失造成的“API误用”问题，而软件配置上的“误用”问题则复杂多样得多。从可控程度上讨论，至少有这几种因素定义了这个问题： ·软件用户对必要配置的现有文档缺少了解。这是最简单的场景，但又是完全不可避免的，这一点上我们所有有开发、产品或运营角色经验的应该都曾经体会过向不管不顾用户答疑的痛苦，而所有软件使用者也可以反省一下对所有软件的使用是否都以完整细致的文档阅读作为上手的准备工作，所以不必多说。 ·软件拥有者对配置条目缺少必要明确说明文档。就JIRA的例子而言，将NASA工程师归为上一条错误有些冤枉，而将JIRA归为这条更加合适。在边角但重要问题上的说明通过社区而非官方文档形式发布是一种不负责任的做法，但未引发安全事件的情况下还有多少这样的问题被默默隐藏呢？我们没办法要求在使用软件之前所有用户将软件相关所有文档、社区问答实现全部覆盖。这个问题范围内一个代表性例子是对配置项的默认值以及对应效果的说明缺失。 ·配置文件版本兼容性带来的误配置和安全问题。实际上，上面的SunOS Sendmail案例足以点出这个问题的存在性，但是在真实场景下，很可能不会以这么戏剧性形式出现。在企业的系统运维中，系统的版本迭代常见，但为软件行为一致性，配置的跨版本迁移是不可避免的操作；而且软件的更新迭代也不只会由系统更新推动，还有大量出于业务性能要求而主动进行的定制化升级，对于中小企业基础设施建设似乎是一个没怎么被提及过的问题。 ·配置项组合冲突问题。尽管对于单个配置项可能明确行为与影响，但是特定的配置项搭配可能造成不可预知的效果。这完全有可能是由于开发者与用户在信息不对等的情况下产生：开发者认为用户应该具有必需的背景知识，做了用户应当具备规避配置冲突能力的假设。一个例子是，对称密码算法在使用ECB、CBC分组工作模式时，从密码算法上要求输入数据长度必须是分组大小的整倍数，但如果用户搭配配置了秘钥对数据不做补齐（nopadding），则引入了非确定性行为：如果密码算法库对这种组合配置按某种默认补齐方式操作数据则会引起歧义，但如果在算法库代码层面对这种组合抛出错误则直接影响业务。 ·程序对配置项处理过程的潜在暗箱操作。这区别于简单的未文档化配置项行为，仅特指可能存在的蓄意、恶意行为。从某种意义上，上述“All users”也可以认为是这样的一种陷阱，通过浅层次暗示，引导用户做出错误且可能引起问题的配置。另一种情况是特定配置组合情况下触发恶意代码的行为，这种触发条件将使恶意代码具有规避检测的能力，且在用户基数上具有一定概率的用户命中率。当然这种情况由官方开发者直接引入的可能性很低，但是在众包开发的情况下如果存在，那么扫描方案是很难检测的。 Ⅵ. 从逆流到暗流：恶意代码溯源后的挑战如果说前面所说的种种威胁都是面向关键目标和核心系统应该思考的问题，那么最后要抛出一个会把所有人拉进赛场的理由。除了前面所有那些在软件供应链下游被动污染受害的情况，还有一种情形：你有迹可循的代码，也许在不经意间会“反哺”到黑色产业链甚至特殊武器中；而现在研究用于对程序进行分析和溯源的技术，则会让你陷入百口莫辩的境地。案例：黑产代码模块溯源疑云 1月29日，猎豹安全团队发布技术分析通报文章《电信、百度客户端源码疑遭泄漏，驱魔家族窃取隐私再起波澜》，矛头直指黑产上游的恶意信息窃取代码模块，认定其代码与两方产品存在微妙的关联：中国电信旗下“桌面3D动态天气”等多款软件，以及百度旗下“百度杀毒”等软件（已不可访问）。文章中举证有三个关键点。首先最直观的，是三者使用了相同的特征字符串、私有文件路径、自定义内部数据字段格式；其次，在关键代码位置，三者在二进制程序汇编代码层面具有高度相似性；最终，在一定范围的非通用程序逻辑上，三者在经过反汇编后的代码语义上显示出明显的雷同，并提供了如下两图佐证（图片来源）：文章指出的涉事相关软件已经下线，对于上述样本文件的相似度试验暂不做复现，且无法求证存在相似、疑似同源的代码在三者中占比数据。对于上述指出的代码雷同现象，猎豹安全团队认为：我们怀疑该病毒模块的作者通过某种渠道(比如“曾经就职”)，掌握有中国电信旗下部分客户端/服务端源码，并加以改造用于制作窃取用户隐私的病毒，另外在该病毒模块的代码中，我们还发现“百度”旗下部分客户端的基础调试日志函数库代码痕迹，整个“驱魔”病毒家族疑点重重，其制作传播背景愈发扑朔迷离。这样的推断，固然有过于直接的依据（例如三款代码中均使用含有“baidu”字样的特征注册表项）；但更进一步地，需要注意到，三个样本在所指出的代码位置，具有直观可见的二进制汇编代码结构的相同，考虑到如果仅仅是恶意代码开发者先逆向另外两份代码后借鉴了代码逻辑，那么在面临反编译、代码上下文适配重构、跨编译器和选项的编译结果差异等诸多不确定环节，仍能保持二进制代码的雷同，似乎确实是只有从根本上的源代码泄漏（抄袭）且保持相同的开发编译环境才能成立。但是我们却又无法做出更明确的推断。这一方面当然是出于严谨避免过度解读；而从另一方面考虑，黑产代码的一个关键出发点就是“隐藏自己”，而这里居然如此堂而皇之地照搬了代码，不但没有进行任何代码混淆、变形，甚至没有抹除疑似来源的关键字符串，如果将黑产视为智商在线的对手，那这里背后是否有其它考量，就值得琢磨了。代码的比对、分析、溯源技术水准上文中的安全团队基于大量样本和粗粒度比对方法，给出了一个初步的判断和疑点。那么是否有可能获得更确凿的分析结果，来证实或证伪同源猜想呢？无论是源代码还是二进制，代码比对技术作为一种基础手段，在软件供应链安全分析上都注定仍然有效。在我们的软件供应链安全大赛期间，针对PE二进制程序类型的题目，参赛队伍就纷纷采用了相关技术手段用于目标分析，包括：同源性分析，用于判定与目标软件相似度最高的同软件官方版本；细粒度的差异分析，用于尝试在忽略编译差异和特意引入的混淆之外，定位特意引入的恶意代码位置。当然，作为比赛中针对性的应对方案，受目标和环境引导约束，这些方法证明了可行性，却难以保证集成有最新技术方案。那么做一下预言，在不计入情报辅助条件下，下一代的代码比对将能够到达什么水准？这里结合近一年和今年内，已发表和未发表的学术领域顶级会议的相关文章来简单展望： ·针对海量甚至全量已知源码，将可以实现准确精细化的“作者归属”判定。在ACM CCS‘18会议上曾发表的一篇文章《Large-Scale and Language-Oblivious Code Authorship Identification》，描述了使用RNN进行大规模代码识别的方案，在圈定目标开发者，并预先提供每个开发者的5-7份已知的代码文件后，该技术方案可以很有效地识别大规模匿名代码仓库中隶属于每个开发者的代码：针对1600个Google Code Jam开发者8年间的所有代码可以实现96%的成功识别率，而针对745个C代码开发者于1987年之后在GitHub上面的全部公开代码仓库，识别率也高达94.38%。这样的结果在当下的场景中，已经足以实现对特定人的代码识别和跟踪（例如，考虑到特定开发人员可能由于编码习惯和规范意识，在时间和项目跨度上犯同样的错误）；可以预见，在该技术方向上，完全可以期望摆脱特定已知目标人的现有数据集学习的过程，并实现更细粒度的归属分析，例如代码段、代码行、提交历史。 ·针对二进制代码，更准确、更大规模、更快速的代码主程序分析和同源性匹配。近年来作为一项程序分析基础技术研究，二进制代码相似性分析又重新获得了学术界和工业界的关注。在2018年和2019（已录用）的安全领域四大顶级会议上，每次都会有该方向最新成果的展示，如S&P‘2019上录用的《Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscation and Compiler Optimization》，实现无先验知识的条件下的最优汇编代码级别克隆检测，针对漏洞库的漏洞代码检测可实现0误报、100%召回。而2018年北京HITB会议上，Google Project Zero成员、二进制比对工具BinDiff原始作者Thomas Dullien，探讨了他借用改造Google自家SimHash算法思想，用于针对二进制代码控制流图做相似性检测的尝试和阶段结果；这种引入规模数据处理的思路，也可期望能够在目前其他技术方案大多精细化而低效的情况下，为高效、快速、大规模甚至全量代码克隆检测勾出未来方案。 ·代码比对方案对编辑、优化、变形、混淆的对抗。近年所有技术方案都以对代码“变种”的检测有效性作为关键衡量标准，并一定程度上予以保证。上文CCS‘18论文工作，针对典型源代码混淆（如Tigress）处理后的代码，大规模数据集上可有93.42%的准确识别率；S&P‘19论文针对跨编译器和编译选项、业界常用的OLLVM编译时混淆方案进行试验，在全部可用的混淆方案保护之下的代码仍然可以完成81%以上的克隆检测。值得注意的是以上方案都并非针对特定混淆方案单独优化的，方法具有通用价值；而除此以外还有很多针对性的的反混淆研究成果可用；因此，可以认为在采用常规商用代码混淆方案下，即便存在隐藏内部业务逻辑不被逆向的能力，但仍然可以被有效定位代码复用和开发者自然人。代码溯源技术面前的“挑战” 作为软件供应链安全的独立分析方，健壮的代码比对技术是决定性的基石；而当脑洞大开，考虑到行业的发展，也许以下两种假设的情景，将把每一个“正当”的产品、开发者置于尴尬的境地。代码仿制在本章节引述的“驱魔家族”代码疑云案例中，黑产方面通过某种方式获得了正常代码中，功能逻辑可以被自身复用的片段，并以某种方法将其在保持原样的情况下拼接形成了恶意程序。即便在此例中并非如此，但这却暴露了隐忧：将来是不是有这种可能，我的正常代码被泄漏或逆向后出现在恶意软件中，被溯源后扣上黑锅？这种担忧可能以多种渠道和形式成为现实。从上游看，内部源码被人为泄漏是最简单的形式（实际上，考虑到代码的完整生命周期似乎并没有作为企业核心数据资产得到保护，目前实质上有没有这样的代码在野泄漏还是个未知数），而通过程序逆向还原代码逻辑也在一定程度上可获取原始代码关键特征。从下游看，则可能有多种方式将恶意代码伪造得像正常代码并实现“碰瓷”。最简单地，可以大量复用关键代码特征（如字符串，自定义数据结构，关键分支条件，数据记录和交换私有格式等）。考虑到在进行溯源时，分析者实际上不需要100%的匹配度才会怀疑，因此仅仅是仿造原始程序对于第三方公开库代码的特殊定制改动，也足以将公众的疑点转移。而近年来类似自动补丁代码搜索生成的方案也可能被用来在一份最终代码中包含有二方甚至多方原始代码的特征和片段。基于开发者溯源的定点渗透既然在未来可能存在准确将代码与自然人对应的技术，那么这种技术也完全可能被黑色产业利用。可能的忧患包括强针对性的社会工程，结合特定开发者历史代码缺陷的漏洞挖掘利用，联动第三方泄漏人员信息的深层渗透，等等。这方面暂不做联想展开。〇. 没有总结作为一场旨在定义“软件供应链安全”威胁的宣言，阿里安全“功守道”大赛将在后续给出详细的分解和总结，其意义价值也许会在一段时间之后才能被挖掘。但是威胁的现状不容乐观，威胁的发展不会静待；这一篇随笔仅仅挑选六个侧面做摘录分析，可即将到来的趋势一定只会进入更加发散的境地，因此这里，没有总结。本篇文章为转载内容。原文链接：https://blog.csdn.net/systemino/article/details/90114743。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-05 13:33:43

300

转载

JSON

Ashx在ASP.NET中处理与解析JSON数据：从HttpApplicationRequest到JsonConvert.DeserializeObject的实践

...编写，同时也易于机器解析和生成。 4. 如何使用Ashx处理JSON数据？首先，我们需要定义一个Ashx方法来处理我们的请求。这个方法呐，它得接收一个叫“request”的小家伙作为参数，其实呢，这玩意儿就是一个HttpApplicationRequest对象，里头装着这次请求的所有详细信息，一丁点儿也没落下。 csharp public void HandleHttpRequest(HttpContext context) { // 获取请求的内容 string requestContent = context.Request.InputStream.ReadToEnd(); // 将请求内容转换为JSON对象 dynamic jsonObject = JsonConvert.DeserializeObject(requestContent); // 在这里处理你的JSON数据... // 返回响应 context.Response.Write("处理成功"); } 在这个方法中，我们首先获取了请求的内容，然后使用JsonConvert.DeserializeObject方法将其转换为一个动态类型的JSON对象。这样，我们就可以方便地访问和操作JSON数据了。 5. 总结 Ashx是一个强大的工具，可以帮助我们在ASP.NET中处理各种HTTP请求。尤其是当我们碰上要处理JSON数据这事儿，用Ashx可是能帮咱们省不少力，让事情变得轻松简单多了。当你把请求的内容成功转换成JSON格式后，就等于把它变成一个我们熟悉的.NET对象，这样一来，处理JSON数据就跟玩普通.NET对象一样简单轻松，毫无压力啦！ 6. 深入探讨然而，这只是一个基础的例子。实际上，我们可以使用Ashx做更多的事情。比如说，咱们可以在动手解析JSON数据之前，先给请求做个“体检”确认其靠谱性；又或者，在我们成功搞定数据之后，再添点额外的“小料”，让它更加饱满丰富。此外，我们也需要注意安全问题。虽然“JsonConvert.DeserializeObject”这个小家伙能够自动挡下不少常见的JSON攻击招式，但我们仍然得瞪大眼睛，确保喂给它的数据确实是货真价实、没毛病的。总的来说，Ashx是一个非常有用的工具，但我们也需要谨慎使用，以防止可能的安全问题。

2023-06-29 14:38:59

549

灵动之光-t

Cassandra

优化边缘：Cassandra中UNLOGGED TABLES的选择策略——聚焦数据完整性与性能权衡

...ilter , 布隆过滤器（Bloom Filter）。日志记录 , 在数据库系统中，日志记录是指对所有写入操作的跟踪，以便在系统故障后恢复数据。Cassandra的普通表格类型会将写入操作记录在日志中，而UNLOGGED TABLES则跳过此步骤，以减少I/O和提高写入性能，但这也意味着在系统崩溃后，数据可能无法完全恢复。

2024-06-12 10:55:34

492

青春印记

SpringBoot

Spring Boot中HTTP请求鉴权失败处理：全局异常处理器与状态码、错误原因的自定义响应实践

...细原因进行实时监控与日志记录，以满足更严格的审计需求和故障排查场景。此外，对于企业级应用的安全防护，除了基础的鉴权之外，还需要关注如CSRF（跨站请求伪造）、XSS（跨站脚本攻击）等常见安全风险，并借助Spring Security提供的过滤器链和其他安全配置来有效抵御这些威胁。因此，在构建安全的Web应用过程中，深入理解和灵活运用Spring Boot与Spring Security框架所提供的工具与策略显得尤为重要。

2023-07-21 22:51:44

105

山涧溪流_t

Logstash

Logstash 输出插件与输出目标兼容性解析及解决方案：运用HTTP插件扩展数据发送范围至Elasticsearch及其他目标

...公司开发的一款强大的日志收集、处理和分析工具。它能够把各种来源的数据，比如日志文件啦、数据库里的信息呀，甚至是网络流量那些乱七八糟的东西，一股脑儿地收集起来，集中到一个地方进行统一处理。接着呢，我们可以灵活运用 Logstash 那些超级实用的插件，对这些数据进行各种预处理操作，就比如筛选掉无用的信息、转换数据格式、解析复杂的数据结构等等。最后一步，就是把这些已经处理得妥妥当当的数据，发送到各种各样的目的地去，像是 Elasticsearch、Kafka、Solr 等等，就像快递小哥把包裹精准投递到各个收件人手中一样。二、问题出现的原因那么，为什么会出现"输出插件不支持所有输出目标"的问题呢？其实，这主要归咎于 Logstash 的架构设计。在 Logstash 中，每个输入插件都会负责从源数据源获取数据，然后将这些数据传递给一个或多个中间插件（也称为管道），这些中间插件会根据需求对数据进行进一步处理。最后，这些经过处理的数据会被传递给输出插件，输出插件将数据发送到指定的目标。虽然 Logstash 支持大量的输入、中间和输出插件，但是并不是所有的插件都能支持所有的输出目标。比如说，有些输出插件啊，它就有点“挑食”，只能把数据送到 Elasticsearch 或 Kafka 这两个特定的地方，而对于其他目的地，它们就爱莫能助了。这就解释了为啥我们偶尔会碰到“输出插件不支持所有输出目标”的问题啦。三、如何解决这个问题？要解决这个问题，我们通常需要找到一个能够支持我们所需输出目标的输出插件。幸运的是，Logstash 提供了大量的输出插件，几乎可以满足我们的所有需求。如果我们找不到直接支持我们所需的输出目标的插件，那么我们也可以尝试使用一些通用的输出插件，例如 HTTP 插件。这个HTTP插件可厉害了，它能帮我们把数据送到任何兼容HTTP接口的地方去，这样一来，咱们就能随心所欲地定制数据发送的目的地啦！以下是一个使用 HTTP 插件将数据发送到自定义 API 的示例： ruby input { generator { lines => ["Hello, World!"] } } filter { grok { match => [ "message", "%{GREEDYDATA:message}"] } } output { http { url => "http://example.com/api/v1/messages" method => "POST" body => "%{message}" } } 在这个示例中，我们首先使用一个生成器插件生成一条消息。然后，我们使用一个 Grok 插件来解析这条消息。最后，我们使用一个 HTTP 插件将这条消息发送到我们自定义的 API。四、结论总的来说，"输出插件不支持所有输出目标" 是一个常见的问题，但是只要我们选择了正确的输出插件，或者利用通用的输出插件自定义数据发送的目标，就能很好地解决这个问题。在实际应用中，我们应该根据我们的具体需求来选择最合适的输出插件，同时也要注意及时更新 Logstash 的版本，以获取最新的插件和支持。最后，我希望这篇文章能帮助你更好地理解和使用 Logstash，如果你有任何问题或建议，欢迎随时向我反馈。

2023-11-18 22:01:19

303

笑傲江湖-t

Struts2

Struts2实战：精确调试：拦截器顺序异常追踪与配置纠偏

...的操作，如数据验证、日志记录、事务管理等。拦截器分为三种类型。 XML配置 , Struts2框架中的配置文件通常采用XML格式，如struts.xml，用于定义拦截器链、Action映射、过滤器等组件的配置。开发者通过配置这些元素，决定拦截器的执行顺序、属性和行为，以实现应用的功能需求。动态拦截器栈 , 这是Struts2新引入的一个特性，允许在运行时根据需要动态改变拦截器的执行顺序。通过Spring AOP（面向切面编程）或其他类似技术，可以根据不同的场景或用户请求条件，调整拦截器链，提高了应用的灵活性和适应性。 Spring Boot集成 , Spring Boot是一个快速构建生产级Java应用的框架，它可以简化Struts2的集成过程，提供自动配置和依赖注入等功能，使得开发者能够更高效地开发和管理Web应用。面向切面编程（AOP） , AOP是软件设计模式的一种，它将关注点从传统的“业务逻辑”分离出来，专注于横切关注点（如事务管理、日志记录），并通过拦截器机制与业务逻辑相结合，提高代码的可复用性和可维护性。 Spring AOP , Spring框架提供了对AOP的支持，允许开发者在Struts2中使用Spring的代理机制实现动态拦截器栈，从而实现更精细的控制和更高的灵活性。

2024-04-28 11:00:36

126

时光倒流

AngularJS

AngularJS单页应用中的国际化实现：配置$translateProvider、JSON语言包与动态切换功能

...A的国际化支持：实战解析与代码示例在现代Web开发领域，单页应用（Single Page Application, SPA）因其优秀的用户体验和高效的性能而广受青睐。AngularJS，这款超给力的前端MVC框架，那可真是个宝！它不仅能让你轻松玩转各种组件化功能，还悄悄内建了对国际化（Internationalization，也就是我们常说的i18n）的硬核支持。让你不管开发什么项目，都能轻轻松松实现多语言切换，跟全球用户打成一片。本文将深入探讨如何利用AngularJS实现在SPA中的国际化支持，并通过实例代码详细解析这一过程。 1. AngularJS国际化基础原理 AngularJS采用约定优于配置的方式实现国际化，其核心思想是基于$translateProvider服务来加载不同的语言资源文件，并通过指令ng-translate或者过滤器translate动态渲染对应的语言内容。这就意味着，开发者能够根据用户的地域喜好，轻轻松松切换应用的显示语言，让不同地区的用户都感到贴心又自在。就像是个智能小助手，随时准备为用户提供母语般的使用体验。 2. 设置与配置AngularJS国际化模块首先，我们需要引入并配置angular-translate这个专门处理国际化的插件： javascript // 引入angular-translate库 var app = angular.module('myApp', ['pascalprecht.translate']); app.config(['$translateProvider', function ($translateProvider) { // 配置默认语言 $translateProvider.preferredLanguage('en'); // 加载语言资源文件 $translateProvider.useStaticFilesLoader({ prefix: 'languages/', suffix: '.json' }); // 允许模糊匹配，提高语言包利用率 $translateProvider.fallbackLanguage('en'); $translateProvider.useSanitizeValueStrategy('sanitize'); }]); 以上代码中，我们设置了默认语言为英语，并配置了静态文件加载器从指定路径加载JSON格式的语言资源文件。 3. 创建与使用语言资源文件接下来，我们需要创建对应的语言资源文件，例如languages/en.json和languages/zh-cn.json： json // languages/en.json { "greeting": "Hello, world!", "buttonText": "Click me" } // languages/zh-cn.json { "greeting": "你好，世界！", "buttonText": "点击我" } 4. 在视图层应用国际化在视图模板中，我们可以借助translate指令或过滤器来动态替换文本： html { { 'greeting' | translate } } 5. 动态切换语言最后，为了实现用户界面语言的动态切换，可以在控制器中调用 $translate.use() 方法： javascript app.controller('MainCtrl', ['$scope', '$translate', function ($scope, $translate) { $scope.changeLanguage = function (langKey) { $translate.use(langKey); }; }]); 然后在HTML中添加一个语言选择器： html English 简体中文到此为止，我们已经成功地实现了AngularJS单页应用的国际化支持。在整个这个过程中，AngularJS就像个超能小助手，它拥有无比灵活、强大，而且特别好懂的API接口，这可帮了我们大忙了！它把开发国际化功能的那些繁琐步骤给大大简化了，让我们的应用程序轻松突破语言障碍，飞向全球各地，无论哪个地区的用户，都能用自己习惯的语言来顺畅使用。这正是AngularJS让我们能够大显身手，轻松构建出跨越国界的强大Web应用的关键所在，它的价值简直不要太赞！

2023-06-23 10:38:49

376

晚秋落叶

Kibana

Kibana在大数据时代：利用实时数据分析、仪表板与索引模板实现高效数据处理和可视化

...询功能，如复杂查询、过滤器等。以下是一个使用复杂查询的例子： json GET my_index/_search { "query": { "bool": { "must": [ { "match": { "field1": "value1" } }, { "range": { "field2": { "gte": "value2" } } } ] } } } 四、使用Kibana的心得体会作为一名长期使用Kibana的用户，我深感其强大之处。用Kibana这个工具，我就能像探照灯一样从海量数据里迅速捞出有价值的信息，然后把它们变成一目了然的可视化图表。这样一来，工作效率简直像是坐上了火箭，嗖嗖地往上窜！同时，我也发现Kibana的一些不足之处。比如，它的学习过程就像个陡峭的山坡，你得花些时间去摸熟它各种功能的“脾气”。另外，虽然Kibana这家伙功能确实挺多样的，但它并不总是“万金油”，并不能适用于所有场合。有些时候，为了达到理想效果，咱们还得把它和其他工具小伙伴联手一起用才行。总的来说，我认为Kibana是一款非常实用的实时数据处理工具，它可以帮助我们更好地管理和分析我们的数据，提高我们的工作效率。如果你也在寻找一款优秀的数据处理工具，那么不妨试试Kibana吧！

2023-12-18 21:14:25

302

山涧溪流-t

Struts2

Struts2中'Requested resource /resourcePath is not available'异常：排查Action配置与结果路径问题，解析DispatcherServlet处理流程及资源部署要点

...s2未能正确地找到并解析到对应的Action资源。用大白话来说，这句话对程序员朋友解释就是：“嘿兄弟，我在你给我的这片代码江湖里，愣是没找到你要我搞定的那个请求路径咧。” 3. 错误原因深度解读（1）配置问题：这是最常见的原因之一。在Struts2中，我们可以采用XML文件或者注解的方式来给程序做设置。设想一下这个场景哈，如果我们马虎大意，在struts.xml这个配置文件里没有把Action映射正确地写出来，或者是在使用注解配置时搞错了，那么Struts2里面那个核心的“快递员”——DispatcherServlet就没法找到对应能处理请求的Action了。这时候，它可就懵圈了，只能抛出一个异常来表达它的无奈和困惑。 xml /invalid.jsp （2）资源路径问题：当请求被成功路由到Action后，如果你在Action中返回了一个无效的结果路径，也会导致此问题。例如，你可能在结果类型中指定了一个不存在的视图页面。 java // 示例：错误的Action类方法 public String execute() { // ...业务逻辑... return "nonExistentView"; // 这个结果名称在struts.xml中没有对应的有效结果路径 } 4. 解决方案及实战演练（1）检查Action配置：首先，我们需要核实struts.xml中Action的配置是否正确，包括Action的name属性是否与请求URL匹配，class属性指向的类是否存在且路径正确。（2）验证结果路径：其次，确认Action执行方法返回的结果字符串所对应的结果路径是否存在。例如： xml /WEB-INF/pages/success.jsp /WEB-INF/pages/exists.jsp （3）排查其他可能性：除此之外，还需注意过滤器链的配置是否合理，避免请求在到达Struts2核心过滤器前就被拦截或处理；同时，也要关注项目部署环境，确认资源文件是否已正确部署至服务器。 5. 结语面对“Requested resource /resourcePath is not available”的困扰，就像我们在探险过程中遭遇了一道看似无解的谜题。但是，只要我们像侦探破案那样，耐心又细致地把问题揪出来，一步步审查各个环节，早晚能揭开迷雾，让Struts2重新焕发活力，流畅地为我们工作。毕竟，编程的乐趣不仅在于解决问题，更在于那份抽丝剥茧、寻根问底的过程。让我们共同携手，在Struts2的世界里，尽情挥洒智慧与热情吧！

2024-01-24 17:26:04

169

清风徐来

Redis

Redis性能优化：调整内存策略、运用Pipeline与Multi-exec、数据结构选择及编码优化实践与监控排查

...服务器进行性能监控和日志分析至关重要。Redis自带的INFO命令能提供丰富的运行时信息，包括内存使用情况、命中率、命令统计等，结合外部工具如RedisInsight、Grafana等进行可视化展示，以便及时发现潜在性能瓶颈。当遇到性能问题时，我们要像侦探一样去思考和探索：是由于内存不足导致频繁淘汰数据？还是因为某个命令执行过于耗时？亦或是客户端并发过高引发的问题？通过针对性的优化措施，逐步改善Redis服务器的响应时间和性能表现。总结来说，优化Redis服务器的关键在于深入了解其内部机制，合理配置参数，巧妙利用其特性，以及持续关注和调整系统状态。让我们一起携手，打造更为迅捷、稳定的Redis服务环境吧！

2023-11-29 11:08:17

236

初心未变

AngularJS

亲手创建与应用AngularJS过滤器：从全名处理到自定义参数化数据格式化实践

...个AngularJS过滤器：实战解析与代码示例引言（1）你好，亲爱的开发者朋友们！在我们共同的前端开发之旅中，AngularJS无疑是一个极具魅力和实用性的框架。今天，让我们一起深入探索AngularJS的一个重要特性——过滤器。这就像是魔法师手里的那根神奇魔杖，轻轻一点，就能把那些原始数据瞬间变魔法般地转化为我们所需要的格式，超级酷炫有木有！嘿，伙计们！在这篇指南里，我将手把手地带你们一步步搭建一个属于自己的AngularJS过滤器，让我们一起深入探索这背后的神秘世界，享受编程的乐趣，就像亲手揭开一个又一个的惊喜礼盒！一、理解AngularJS过滤器（2）首先，让我们一起理解一下AngularJS过滤器的本质。简单来说，过滤器就是一种用于处理数据展示的方式，它可以对绑定到视图上的数据进行格式化或筛选操作。想象一下，你可能会遇到这样一些情况：需要把日期字符串变个魔术，让它看起来更人性化易读；或者想把数字打扮得整整齐齐，来个四舍五入的处理；甚至有时候，你需要给一串数组排排队、分分类。这些日常的小需求，其实都可以通过自定义过滤器这个小帮手，轻轻松松、美美哒搞定！二、创建你的第一个过滤器（3） 1. 创建过滤器函数下面，我们将以一个简单的示例来演示如何创建一个过滤器。假设我们有一个用户列表，需要将用户的全名转化为仅显示姓氏的形式。首先，在AngularJS应用的模块中定义一个过滤器： javascript angular.module('myApp', []) .filter('lastName', function() { return function(input) { // 这里是我们的过滤逻辑 if (input && input.split) { var names = input.split(' '); return names[names.length - 1]; } else { return input; // 如果输入非字符串，则直接返回原值 } }; }); 上述代码中，我们定义了一个名为lastName的过滤器，它接受一个参数input（即用户全名），并返回该名字的最后一个单词作为姓氏。 2. 在视图中使用过滤器接下来，我们在HTML模板中引用这个过滤器： html { { user.fullName | lastName } } 在这里，{ { user.fullName | lastName } }就是一个典型的过滤器使用方式，| lastName表示对user.fullName这个属性应用了我们刚刚创建的lastName过滤器。三、进阶添加更多功能和参数（4）当然，AngularJS过滤器的功能远不止于此。我们可以让过滤器接收额外的参数，以便提供更多的定制能力。例如，如果我们想让用户可以选择是否显示中间名，可以这样修改过滤器： javascript angular.module('myApp') .filter('lastName', function() { return function(input, showMiddleName) { // 判断是否需要显示中间名 if (!showMiddleName) { // 仅显示姓氏 return (input || '').split(' ').pop(); } else { // 显示全名 return input; } }; }); 然后在视图中传递参数： html { { user.fullName | lastName:showMiddleName } } 以上，我们已经成功地从零开始创建了一个具备基础功能且支持参数化的AngularJS过滤器，并将其运用到了实际场景中。希望这次的探索旅程能帮助你更好地理解和掌握AngularJS过滤器的创建和使用方法。在未来面对更复杂的数据处理需求时，不妨尝试自定义过滤器，让你的应用更具灵活性和可维护性！总结一下，无论是简化数据展示，还是丰富用户交互体验，AngularJS过滤器都扮演着至关重要的角色。只要我们善于利用并不断实践，就一定能解锁更多有趣且实用的玩法。所以，让我们保持好奇，持续探索，尽情享受编程的乐趣吧！

2024-03-09 11:18:03

476

柳暗花明又一村

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

uniq file.txt - 移除连续重复行。