使用Mahout构建推荐系统时，协同过滤出现稀疏矩阵异常的探讨 1. 引言当我们谈论大数据处理与机器学习时，Apache Mahout 是一个无法绕过的强大工具。它以其强大的算法库，特别是在构建推荐系统方面的应用广受赞誉。然而，在用Mahout搞协同过滤（Collaborative Filtering，简称CF）搭建推荐系统的时候，咱们免不了会碰上个常见的头疼问题——稀疏矩阵的异常状况。本文将深入剖析这一现象，并通过实例代码和详细解读，引导你理解如何妥善应对。 2. 协同过滤与稀疏矩阵异常概述协同过滤是推荐系统中的一种常见技术，其基本思想是通过分析用户的历史行为数据，找出具有相似兴趣偏好的用户群体，进而基于这些用户的喜好来预测目标用户可能感兴趣的内容。在日常的实际操作里，用户给物品打分那个表格常常会超级空荡荡的，就好比大部分格子里都没有数字，都是空白的。这就形成了我们常说的“稀疏矩阵”。当这个矩阵过于稀疏时，协同过滤算法可能会出现问题，如过度拟合、噪声放大以及难以找到可靠的相似性度量等。这就是我们在使用Mahout构建推荐系统时会遭遇的“稀疏矩阵异常”。 3. 稀疏矩阵异常实例与Mahout代码示例首先，让我们通过一段简单的Mahout代码来直观感受一下协同过滤中的稀疏矩阵表示： java import org.apache.mahout.cf.taste.impl.model.file.FileDataModel; import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender; import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity; import org.apache.mahout.cf.taste.model.DataModel; import org.apache.mahout.cf.taste.recommender.RecommendedItem; import org.apache.mahout.cf.taste.similarity.UserSimilarity; public class SparseMatrixDemo { public static void main(String[] args) throws Exception { // 假设我们有一个名为"ratings.csv"的用户-物品评分文件，其中包含大量未评分项，形成稀疏矩阵 DataModel model = new FileDataModel(new File("ratings.csv")); // 使用Pearson相关系数计算用户相似度 UserSimilarity similarity = new PearsonCorrelationSimilarity(model); // 创建基于用户的协同过滤推荐器 Recommender recommender = new GenericUserBasedRecommender(model, similarity); // 获取某个用户的推荐结果，此时可能出现由于稀疏矩阵导致的问题 List recommendations = recommender.recommend(1, 10); // 输出推荐结果... } } 4. 应对稀疏矩阵异常的策略面对协同过滤中的稀疏矩阵异常，我们可以采取以下几种策略： (1) 数据填充：通过添加假定的评分或使用平均值、中位数等统计方法填充缺失项，以增加矩阵的密度。 (2) 改进相似度计算方法：选择更适合稀疏数据集的相似度计算方法，例如调整Cosine相似度或者Jaccard相似度。 (3) 使用深度学习模型：引入深度学习技术，如Autoencoder或者神经网络进行矩阵分解，可以更好地处理稀疏矩阵并提升推荐效果。 (4) 混合推荐策略：结合其他推荐策略，如基于内容的推荐，共同减轻稀疏矩阵带来的影响。 5. 结语在使用Mahout构建推荐系统的实践中，理解和解决稀疏矩阵异常是一项重要的任务。虽然乍一看这个问题挺让人头疼的，不过只要我们巧妙地使出各种策略和优化手段，完全可以把它变成一股推动力，让推荐效果蹭蹭往上涨，更上一层楼。在不断捣鼓和改进的过程中，咱们不仅能更深入地领悟Mahout这个工具以及它所采用的协同过滤算法，更能实实在在地提升推荐系统的精准度，让用户体验蹭蹭上涨。所以，当面对稀疏矩阵的异常情况时，别害怕，咱们得学会聪明地洞察并充分利用这其中隐藏的信息宝藏，这样一来，就能让推荐系统跑得溜溜的，效率杠杠的。

2023-01-23 11:24:41

144

青春印记

Hadoop

利用Hadoop进行数据清洗、预处理与深度分析：结合HDFS、MapReduce、Spark MLlib和Mahout实践详解

...的大数据处理框架，由Apache基金会维护。它能够处理大规模的数据，并且可以运行在廉价的硬件上。Hadoop的核心是由两个主要组件组成的：HDFS（Hadoop Distributed File System）和MapReduce。三、如何使用Hadoop进行数据分析和挖掘？ 1. 使用Hadoop进行数据清洗数据清洗是指去除数据中的错误、重复或者不必要的信息，使数据变得更加规范化。Hadoop这哥们儿，可是帮了我们大忙了，它手头上有一些贼好用的工具，像是Hive、Pig这些家伙，专门用来对付那些乱七八糟的数据清洗工作，让我们省了不少力气。以下是一段使用Hive进行数据清洗的示例代码： sql CREATE TABLE cleaned_data AS SELECT FROM raw_data WHERE column_name = 'value'; 2. 使用Hadoop进行数据预处理数据预处理是指将原始数据转换成适合机器学习模型训练的数据。你知道吗？Hadoop这个家伙可贴心了，它给我们准备了一整套实用工具，专门用来帮咱们把数据“打扮”得漂漂亮亮的。就比如Spark MLlib和Mahout这些小助手，它们可是预处理数据的一把好手！以下是一段使用Spark MLlib进行数据预处理的示例代码： python from pyspark.ml.feature import VectorAssembler 创建向量器 vectorizer = VectorAssembler(inputCols=["col1", "col2"], outputCol="features") 对数据进行向量化 dataset = vectorizer.transform(data) 3. 使用Hadoop进行数据分析数据分析是指通过统计学的方法对数据进行分析，从而得到有用的信息。Hadoop这个家伙可厉害了，它配备了一套数据分析的好帮手，比如说Hive和Pig这两个小工具。有了它们，咱们就能更轻松地对数据进行挖掘和分析啦！以下是一段使用Hive进行数据分析的示例代码： sql SELECT COUNT() FROM data WHERE column_name = 'value'; 4. 使用Hadoop进行数据挖掘数据挖掘是指从大量数据中发现未知的模式和关系。Hadoop这个家伙，可帮了我们大忙啦，它带来了一些超实用的工具，比如Mahout和Weka这些小能手，专门帮助咱们进行数据挖掘的工作。就像是在海量数据里淘金的神器，让复杂的数据挖掘任务变得轻松又简单！以下是一段使用Mahout进行数据挖掘的示例代码： java from org.apache.mahout.cf.taste.impl.model.file.FileDataModel import FileDataModel from org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood import NearestNUserNeighborhood from org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender import GenericUserBasedRecommender from org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity import PearsonCorrelationSimilarity from org.apache.mahout.cf.taste.impl.util.FastIDSet import FastIDSet 加载数据 model = FileDataModel.load(new File("data.dat")) 设置邻居数量 neighborhoodSize = 10 创建相似度测量 similarity = new PearsonCorrelationSimilarity(model) 创建邻居模型 neighborhood = new NearestNUserNeighborhood(neighborhoodSize, similarity, model.getUserIDs()) 创建推荐器 recommender = new GenericUserBasedRecommender(model, neighborhood, similarity) 获取推荐列表 long time = System.currentTimeMillis() for (String userID : model.getUserIDs()) { List recommendations = recommender.recommend(userID, 10); for (RecommendedItem recommendation : recommendations) { System.out.println(recommendation); } } System.out.println(System.currentTimeMillis() - time); 四、结论综上所述，Hadoop是一个强大的大

2023-03-31 21:13:12

469

海阔天空-t

Mahout

在深入理解了如何利用Apache Mahout实现用户相似度计算之后，我们可以进一步探索推荐系统领域最新的研究进展与应用实践。近期，一项发表在《ACM Transactions on Intelligent Systems and Technology》的研究论文提出了一种基于深度学习的新型用户兴趣建模方法，该方法通过整合长短期记忆网络（LSTM）和注意力机制来捕获用户的动态兴趣变化，进而改进用户相似度计算，有效提升了推荐系统的准确性和覆盖率。此外，随着大数据和人工智能技术的发展，业界也开始关注更加精细化、个性化的推荐策略。例如，Netflix采用矩阵分解结合实时行为数据，实现了对用户即时兴趣的精准捕捉，并在此基础上进行相似用户的动态聚类，大大提高了其个性化推荐服务的质量。同时，在实践层面，阿里巴巴集团近期公开分享了他们在电商推荐场景中优化用户相似度计算的经验。他们发现将用户的社会关系网络、购买行为序列以及商品属性特征等多元信息融合进相似度计算模型，能显著提升推荐效果并带来更好的用户体验。综上所述，用户相似度计算作为推荐系统的核心技术之一，其理论与实践都在不断演进与发展。除了Mahout等传统工具箱之外，现代推荐系统更需要我们紧跟学术前沿，把握行业动态，灵活运用深度学习、图神经网络等先进手段，以适应愈发复杂多变的用户需求和行为模式。

2023-02-13 08:05:07

百转千回

Mahout

Mahout版本更新后应对API弃用：从旧版GenericItemBasedRecommender到新版recommend()方法的重构实践

Mahout版本更新后，旧版代码调用被弃用API引发错误：一场与时俱进的重构之旅 1. 引言当我们沉浸在机器学习的世界中，Apache Mahout作为一款强大的机器学习库，无疑是我们的重要工具之一。不过呢，随着技术的不断进步和Mahout版本的频繁更新换代，一些以前的老版API开始慢慢退出历史舞台了。这就意味着那些还在依靠这些旧API运作的老项目可能会遇到一系列意想不到的运行时错误，让人头疼不已啊。本文将通过具体的代码实例，探讨这一问题，并给出相应的解决方案。 2. Mahout版本更新与API更迭 Mahout是一个开源的分布式机器学习框架，它为开发者提供了丰富的算法实现。在产品更新换代的旅程中，为了让软件跑得更溜、玩出更多新花样或者跟上最新的编程潮流，我们有时不得不把一些旧版的API打入“冷宫”，贴上“过时”的标签。别担心，它们不会立刻消失，但确实会在未来的某个时刻彻底和我们说拜拜。这就意味着，如果我们还继续用老版的代码去调这些API，一旦升级到Mahout的新版本，极有可能会让程序罢工，或者蹦出一堆我们压根预料不到的结果来。 3. 旧版API调用引发的问题实例想象一下这样的场景：你正在使用Mahout 0.9版本进行协同过滤推荐系统开发，其中使用了GenericItemBasedRecommender类的一个已被废弃的方法estimateForAnonymous()： java // 在Mahout 0.9版本中的旧代码片段 import org.apache.mahout.cf.taste.impl.recommender.GenericItemBasedRecommender; ... GenericItemBasedRecommender recommender = ...; List recommendations = recommender.estimateForAnonymous(userId, neighborhoodSize); 然而，在Mahout的新版本中，这个方法已经被弃用，取而代之的是更为先进且符合新设计思路的API。当你升级Mahout至新版本后，这段代码就会抛出NoSuchMethodError或其他相关的运行时异常，严重影响了系统的稳定性和功能表现。 4. 解决方案及新版API应用示例面对这种情况，我们需要对旧版代码进行适配性改造，以适应Mahout新版API的设计理念。以上述例子为例，我们可以查阅Mahout的官方文档或源码注释，找到替代estimateForAnonymous()的新方法，比如在新版Mahout中，可以采用如下方式获取推荐结果： java // 在Mahout新版本中的更新代码片段 import org.apache.mahout.cf.taste.recommender.RecommendedItem; ... GenericRecommender recommender = ...; // 注意这里是GenericRecommender而非GenericItemBasedRecommender List recommendations = recommender.recommend(userId, neighborhoodSize); 5. 迁移过程中的思考与策略在处理这类问题时，我们不仅要关注具体API的变化，更要理解其背后的设计思想和优化目的。例如，新API可能简化了接口设计，提高了算法效率，或者更好地支持了分布式计算。所以，每次版本更新带来的API变动，其实都是我们好好瞅瞅、改进现有项目的好机会，这可不仅仅是个技术挑战那么简单。总结来说，面对Mahout版本更新带来的旧版API弃用问题，我们需要保持敏锐的技术嗅觉，及时跟进官方文档和技术动态，适时对旧有代码进行重构和迁移。这样一来，我们不仅能巧妙地躲开API改版可能引发的各种运行故障，更能搭上新版Mahout这班快车，让我们的机器学习应用效果和用户体验蹭蹭往上涨。同时，这也是一个不断学习、不断提升的过程，让我们一起拥抱变化，走在技术进步的前沿。

2023-09-14 23:01:15

104

风中飘零

Apache Lucene

Apache Lucene中自定义相似度算法对搜索结果相关性排序的影响及优化考量

Apache Lucene：自定义相似度算法实现错误如何影响搜索相关性排序 1. 引言在信息检索领域，Apache Lucene作为一款强大的全文搜索引擎库，其核心功能之一就是通过计算文档与查询之间的相似度来确定搜索结果的排序。然而，当我们动手去定制相似度算法时，一不留神就可能让搜索结果的相关性排序跑偏，这样一来，用户体验可就要打折扣喽。本文将深入探讨这一主题，通过实例代码展示自定义相似度算法的实践过程以及可能出现的问题。 2. 相似度算法与搜索排序的关系 Lucene中的相似度算法是决定搜索结果质量的关键因素。默认情况下，Lucene使用TF-IDF（词频-逆文档频率）算法来衡量查询和文档的相关性。这个算法在大部分情况下都能妥妥地应对各种搜索需求，不过遇到某些特殊业务场景时，可能需要我们动手微调一下，甚至从头开始定制化打造。 3. 自定义相似度算法的实践为了更好地说明问题，我们先来看一个简单的自定义相似度算法示例： java import org.apache.lucene.search.similarities.Similarity; public class CustomSimilarity extends Similarity { @Override public SimScorer scorer(TermStatistics termStats, DocStatistics docStats, Norms norms) { // 这里假设我们仅简单地以词频作为相关性评分依据 return new CustomSimScorer(termStats.totalTermFreq()); } static class CustomSimScorer extends SimScorer { private final long freq; CustomSimScorer(long freq) { this.freq = freq; } @Override public float score(int doc, float freq) { // 相关性得分只依赖于词频 return (float) this.freq; } // 其他重写方法... } } 这段代码展示了如何创建一个仅基于词频的自定义相似度算法。然而，在真实世界的应用场景里，如果我们不小心忽略了逆文档频率、长度归一化这些重要因素，就很可能出现这么个情况：那些超长的文章或者满篇重复关键词的文档，会在搜索结果中“唰”地一下跑到前面去，这样一来，搜出来的东西跟你想找的相关性可就大打折扣啦。 4. 错误自定义相似度算法的影响想象一下，如果你在一个技术问答社区部署了这样的搜索引擎。当有人搜索“Java编程入门”时，如果我们光盯着关键词出现的次数，而忽略了其他重要因素，那么可能会有这样的情况：一些满篇幅堆砌着“Java”、“编程”、“入门”这些词的又臭又长的教程或者广告内容，反而会挤到那些真正言简意赅、价值满满的干货答案前面去。这种情况下，尽管搜索结果看似相关，但实际的用户体验却大打折扣。 5. 探讨与思考在设计自定义相似度算法时，我们需要充分理解业务场景，权衡各项指标对搜索结果排序的影响，并进行适当的调整。就像刚才举的例子那样，为了更精准地摸清文档和查询之间的语义匹配程度，咱们可以考虑把逆文档频率这个小家伙，还有长度归一化这些要素都给它加进去，让计算结果更贴近实际情况。总结来说，Apache Lucene为我们提供了丰富的API以供自定义相似度算法，但这也意味着我们必须谨慎对待每一次改动。如果算法优化脱离了实际需求，那就像是在做菜时乱加调料，结果很可能就是搜索结果的相关性排序一团糟。所以在实际操作中，我们得像磨刀石一样反复打磨、不断尝试更新优化，确保搜索结果既能让业务目标吃得饱饱的，也能让用户体验尝起来美滋滋的。

2023-05-29 21:39:32

518

寂静森林

Mahout

实时流数据分析：Mahout与分布式计算的机器学习实践

Mahout与Spark Streaming：实时流数据分析 1. 引言在数据爆炸的时代，实时流数据分析成为了解决海量数据处理的关键技术之一。哎呀，你听说过Mahout这个玩意儿没？这家伙可是个开源的机器学习宝库，专治大数据这事儿。它那分发式计算的能力啊，就像魔法一样，能让你的数据处理起来轻松又高效。用Mahout做分析，就像是给一堆乱糟糟的数据整了套华丽丽的整理术，让它们变得井井有条，还能从中找出各种有价值的信息和模式。这玩意儿一出手，数据处理界的难题就被它玩转得飞起，简直是个大数据时代的超级英雄呢！而Apache Spark Streaming，则是为实时数据流提供高性能处理的框架。哎呀，兄弟！把这两样技术给整到一块儿用，那效果简直不要太棒！不仅能快速消化那些源源不断的数据洪流，还能帮咱们做出超明智的决定，简直就是开挂的存在嘛！本文旨在探索Mahout与Spark Streaming如何协同工作，为实时流数据分析提供强大的解决方案。 2. Mahout概述 Mahout是一个基于Hadoop的机器学习库，旨在利用分布式计算资源来加速大规模数据集上的算法执行。哎呀，这个家伙可真厉害！它能用上各种各样的机器学习魔法，比如说分门别类的技巧（就是咱们说的分类）、把相似的东西归到一块儿的本事（聚类）还有能给咱们推荐超棒东西的神奇技能（推荐系统）。而且，它最擅长的就是对付那些海量的数据，就像大鱼吃小鱼一样，毫不费力就能搞定！通过Mahout，我们可以构建复杂的模型来挖掘数据中的模式和关系，从而驱动业务决策。 3. Spark Streaming简介 Apache Spark Streaming是Spark生态系统的一部分，专为实时数据流处理设计。哎呀，这个玩意儿简直就是程序员们的超级神器！它能让咱这些码农兄弟们轻松搞定那些超快速、高效率的实时应用，你懂的，就是那种分秒必争、数据飞速流转的那种。想象一下，一秒钟能处理几千条数据，那感觉简直不要太爽啊！就像是在玩转数据的魔法世界，每一次点击都是对速度与精准的极致追求。这不就是我们程序员的梦想吗？在数据的海洋里自由翱翔，每一刻都在创造奇迹！Spark Streaming的精髓就像个魔术师，能把连续不断的水流（数据流）变换成小段的小溪（微批次）。这小溪再通过Spark这个强大的分布式计算平台，就像是在魔法森林里跑的水车，一边转一边把水（数据）处理得干干净净。这样一来，咱们就能在实时中捕捉到信息的脉动，做出快速反应，既高效又灵活！ 4. Mahout与Spark Streaming的集成为了将Mahout的机器学习能力与Spark Streaming的实时处理能力结合起来，我们需要创建一个流水线，使得Mahout可以在实时数据流上执行分析任务。这可以通过以下步骤实现： - 数据接入：首先，我们需要将实时数据流接入Spark Streaming。这可以通过定义一个DStream（Data Stream）对象来完成，该对象代表了数据流的抽象表示。 scala import org.apache.spark.streaming._ import org.apache.spark.streaming.dstream._ val sparkConf = new SparkConf().setAppName("RealtimeMahoutAnalysis").setMaster("local[2]") val sc = new SparkContext(sparkConf) valssc = new StreamingContext(sc, Seconds(1)) // 创建StreamingContext，时间间隔为1秒 val inputStream = TextFileStream("/path/to/your/data") // 假设数据来自文件系统 val dstream = inputStream foreachRDD { rdd => rdd.map { line => val fields = line.split(",") (fields(0), fields.slice(1, fields.length)) } } - Mahout模型训练：然后，我们可以使用Mahout中的算法对数据进行预处理和建模。例如，假设我们想要进行用户行为的聚类分析，可以使用Mahout的KMeans算法。 scala import org.apache.mahout.cf.taste.hadoop.recommender.KNNRecommender import org.apache.mahout.cf.taste.impl.model.file.FileDataModel import org.apache.mahout.cf.taste.impl.neighborhood.ThresholdUserNeighborhood import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity import org.apache.mahout.math.RandomAccessSparseVector import org.apache.hadoop.conf.Configuration val dataModel = new FileDataModel(new File("/path/to/your/data.csv")) val neighborhood = new ThresholdUserNeighborhood(0.5, dataModel, new Configuration()) val similarity = new PearsonCorrelationSimilarity(dataModel) val recommender = new GenericUserBasedRecommender(dataModel, neighborhood, similarity) val recommendations = dstream.map { (user, ratings) => val userVector = new RandomAccessSparseVector(ratings.size()) for ((itemId, rating) <- ratings) { userVector.setField(itemId.toInt, rating.toDouble) } val recommendation = recommender.recommend(user, userVector) (user, recommendation.map { (itemId, score) => (itemId, score) }) } - 结果输出：最后，我们可以将生成的推荐结果输出到合适的目标位置，如日志文件或数据库，以便后续分析和应用。 scala recommendations.foreachRDD { rdd => rdd.saveAsTextFile("/path/to/output") } 5. 总结与展望通过将Mahout与Spark Streaming集成，我们能够构建一个强大的实时流数据分析平台，不仅能够实时处理大量数据，还能利用Mahout的高级机器学习功能进行深入分析。哎呀，这个融合啊，就像是给数据分析插上了翅膀，能即刻飞到你眼前，又准确得不得了！这样一来，咱们做决定的时候，心里那根弦就更紧了，因为有它在身后撑腰，决策那可是又稳又准，妥妥的！哎呀，随着科技车轮滚滚向前，咱们的Mahout和Spark Streaming这对好搭档，未来肯定会越来越默契，联手为我们做决策时，用上实时数据这个大宝贝，提供更牛逼哄哄的武器和方法！想象一下，就像你用一把锋利的剑，能更快更准地砍下胜利的果实，这俩家伙在数据战场上，就是那把超级厉害的宝剑，让你的决策快人一步，精准无比！ --- 以上内容是基于实际的编程实践和理论知识的融合，旨在提供一个从概念到实现的全面指南。哎呀，当真要将这个系统或者项目实际铺展开来的时候，咱们得根据手头的实际情况，比如数据的个性、业务的流程和咱们的技术底子，来灵活地调整策略，让一切都能无缝对接，发挥出最大的效用。就像是做菜，得看食材的新鲜度，再搭配合适的调料，才能做出让人满意的美味佳肴一样。所以，别死板地照搬方案，得因地制宜，因材施教，这样才能确保我们的工作既高效又有效。

2024-09-06 16:26:39

月影清风

Mahout

Mahout数据集迁移实战：从原始格式到SequenceFile，构建机器学习模型及协同过滤应用

...解如何将数据集迁移到Apache Mahout中进行机器学习后，我们发现数据预处理与格式转换是整个过程中的关键步骤。随着技术的不断进步，Mahout项目已发展到基于Spark的分布式计算框架上，如Apache Spark MLlib库，它提供了更丰富且易于使用的机器学习API，使得大数据处理和分析更加高效便捷。最近，Apache Mahout 0.14.0版本发布，进一步优化了其与Spark集成的功能，支持更多的算法实现，并增强了对最新Hadoop和Spark版本的兼容性。对于想要利用Mahout进行大规模机器学习应用的开发者而言，不仅需要掌握Mahout本身的数据迁移方法，还需关注这些最新的技术动态和发展趋势。此外，对于实际业务场景下的数据迁移和模型选择，业界也提出了许多新的见解与实践。例如，Netflix通过使用矩阵分解技术和深度学习改进其推荐系统，这种深度结合业务逻辑与先进算法的方式为Mahout等工具的实际应用提供了新思路。因此，在运用Mahout进行数据迁移和建模时，持续跟进行业内的最新研究进展和技术方案，结合具体业务需求进行灵活变通，才能最大化发挥Mahout在大数据挖掘与分析中的潜力，从而驱动业务创新与发展。

2023-01-22 17:10:27

凌波微步

Apache Lucene

Lucene实战：精确到模糊——编辑距离驱动的全文搜索优化与查询性能提升

...体验的关键因素之一。Apache Lucene，作为一款强大的全文搜索库，为我们提供了丰富的查询选项，其中之一就是FuzzyQuery，它允许我们在搜索时处理模糊匹配，即使用户输入的关键词可能不完全精确。今天，我们将深入剖析如何在实际项目中利用FuzzyQuery，让搜索体验更加人性化。二、什么是FuzzyQuery 1. 概念解析 FuzzyQuery是Lucene中用于执行模糊搜索的核心工具，它通过计算查询词与索引中的单词之间的Levenshtein距离（也称编辑距离），找到那些相似度超过预设阈值的文档。你知道吗，编辑距离这玩意儿就像个搞笑的测谎游戏，它比量两个词串之间的亲密度，简单说就是，你要么得添字、减字或者动动手脚换个别字，最少几次才能让这两个词串变成亲兄弟一样挨着。三、FuzzyQuery的使用示例 2. 编码实现以下是一个简单的Java代码片段，展示了如何使用FuzzyQuery进行模糊搜索： java import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.TextField; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.index.IndexReader; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.index.IndexWriterConfig; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.; import org.apache.lucene.store.Directory; import org.apache.lucene.store.RAMDirectory; public class FuzzySearchExample { public static void main(String[] args) throws Exception { Directory indexDir = new RAMDirectory(); // 创建内存索引 Analyzer analyzer = new StandardAnalyzer(); // 使用标准分析器 // 假设我们有一个文档集合，这里只创建一个简单的文档 Document doc = new Document(); doc.add(new TextField("content", "Lucene is awesome", Field.Store.YES)); IndexWriterConfig config = new IndexWriterConfig(analyzer); IndexWriter writer = new IndexWriter(indexDir, config); writer.addDocument(doc); writer.close(); String queryTerm = "Lucenes"; // 用户输入的模糊查询词 float fuzziness = 1f; // 设置模糊度，例如1代表允许一个字符的差异 QueryParser parser = new QueryParser("content", analyzer); FuzzyQuery fuzzyQuery = new FuzzyQuery(parser.parse(queryTerm), fuzziness); IndexReader reader = DirectoryReader.open(indexDir); TopDocs topDocs = searcher.search(fuzzyQuery, 10); // 返回最多10个匹配结果 for (ScoreDoc scoreDoc : topDocs.scoreDocs) { Document hitDoc = searcher.doc(scoreDoc.doc); System.out.println("Score: " + scoreDoc.score + ", Hit: " + hitDoc.get("content")); } reader.close(); } } 这段代码首先创建了一个简单的索引，然后构造了一个FuzzyQuery实例，指定要搜索的关键词和允许的最大编辑距离。搜索时，我们能看到即使用户输入的不是完全匹配的"Lucene"，而是"Lucenes"，FuzzyQuery也能返回相关的结果。四、FuzzyQuery优化策略 3. 性能与优化当处理大量数据时，FuzzyQuery可能会变得较慢，因为它的计算复杂度与搜索词的长度和索引的大小有关。为了提高效率，可以考虑以下策略： - 前缀匹配：使用PrefixQuery结合FuzzyQuery，仅搜索具有相同前缀的文档，这可以减少搜索范围。 - 阈值调整：根据应用需求调整模糊度阈值，更严格的阈值可以提高精确度，但搜索速度会下降。 - 分批处理：如果搜索结果过多，可以分批处理，先缩小范围，再逐步细化。五、结论 4. 未来展望与总结 FuzzyQuery在提高搜索灵活性的同时，也对性能提出了挑战。要想在项目里游刃有余，得深入理解那些神奇的机制和巧妙的策略，这样才能精准又高效，就像个武林高手一样，既能一击即中，又能快如闪电。Lucene那强大的模糊搜索绝不仅仅是纠错能手，它还能在你打字时瞬间给出超贴心的拼写建议，让找东西变得超级简单，简直提升了搜寻乐趣好几倍！随着科技日新月异，Lucene这家伙也越变越聪明，咱们可真盼着瞧见那些超酷的新搜索招数，让找东西这事变得更聪明又快捷，就像点穴一样精准！在构建现代应用程序时，了解并善用这些高级查询工具，无疑会让我们的搜索引擎更具竞争力。希望这个简单示例能帮助你开始在项目中运用FuzzyQuery，提升搜索的精准度和易用性。

2024-06-11 10:54:39

497

时光倒流

转载文章

[转载]【BZOJ3238】差异，后缀数组+单调栈维护height

...研究人员就巧妙运用了相似的动态规划策略优化了文档相似度计算模型，显著提升了搜索结果的相关性。此外，针对大数据环境下对海量文本内容进行快速索引的需求，学术界也在不断探索基于LCP性质的新型索引结构。例如，一篇发表于《ACM Transactions on Information Systems》的论文中，作者提出了一种改进的后缀树变种，结合了LCP数组的信息以提高大规模文本检索的效率，这一研究成果为搜索引擎和其他依赖于文本匹配技术的产品提供了有力的技术支持。而在生物信息学方面，DNA序列比对是基因组分析中的基础操作，其中也涉及到了类似最长公共前缀的问题。科学家们正在通过深入研究和发展高效的LCP算法，来解决基因组组装、物种进化关系推断等复杂问题，这些最新的科研进展对于理解生命的奥秘和推动精准医疗的发展至关重要。总之，从理论到实践，从计算机科学到生命科学，对最长公共前缀性质及其高效计算方法的研究不仅丰富了算法设计的宝库，更在诸多现实场景下产生了深远影响，彰显出其跨学科的普适性和时代意义。

2023-03-01 16:36:48

179

转载

转载文章

[转载]Spark GraphX学习（一）图（GraphX ）简介

...用场景后，您可能对图计算领域有了更全面的认识。为了进一步了解当前该领域的最新动态和发展趋势，以下为您推荐几篇具有针对性和时效性的延伸阅读材料： 1. 《Apache Spark 3.x中GraphX的最新优化与功能更新》：近日，Apache Spark发布了3.x版本，在此版本中，GraphX模块也得到了显著提升。新特性包括但不限于改进的内存管理和计算性能、增加对动态图处理的支持以及对大规模图算法库的扩充。通过阅读这篇文章，您可以掌握Spark GraphX的最新进展，并将其应用于实际项目以提高分析效率。 2. 《基于分布式图计算的社交网络影响力研究及实践》：结合当下社交媒体的大数据背景，这篇深度解读文章探讨了如何运用Spark GraphX等工具进行社交网络影响力的量化分析与预测。作者通过对真实案例的剖析，展示了图计算技术如何揭示用户行为模式、发现关键节点以及优化信息传播策略。 3. 《融合GNN与GraphX的新型图神经网络架构探索》：近年来，图神经网络（GNN）成为深度学习在图数据处理中的热门方向。一篇最新的科研论文提出了一种将GraphX与GNN相结合的创新架构，利用GraphX高效处理大规模图数据的优势，为GNN提供训练前的数据预处理和模型训练后的评估支持。读者可以通过研读这篇论文，了解图计算与深度学习前沿交叉领域的最新成果。 4. 《工业界应用实例：使用Spark GraphX构建企业级知识图谱》：本文介绍了某知名企业在构建企业内部知识图谱时，如何采用Spark GraphX作为核心技术框架，解决复杂的企业数据关系挖掘与可视化问题。通过实际案例，让读者深入了解Spark GraphX在现实业务场景中的落地应用价值。以上延伸阅读内容既涵盖了Spark GraphX技术本身的最新发展动态，也包含了其在社交网络分析、图神经网络融合以及企业级知识图谱构建等领域的深度应用和创新实践，有助于您紧跟图计算技术潮流，拓宽专业视野。

2023-07-30 14:45:06

180

转载

Mahout

MahoutIllegalArgumentException在Apache Mahout中的应用场景：矩阵维度不匹配与向量索引异常解析及参数有效性的API调用实践

Mahout框架中org.apache.mahout.common.MahoutIllegalArgumentException的深入探讨 1. 引言 Apache Mahout，作为一款开源的大规模机器学习和数据挖掘工具包，在处理大数据集时为我们提供了强大的算法支持。然而，在实际编写代码的时候，我们免不了会碰到一些运行时的小插曲，就好比org.apache.mahout.common.MahoutIllegalArgumentException这个错误类型，就是个挺典型的例子。本文将围绕这个异常展开讨论，通过实例代码揭示其背后的原因，并提供相应的解决思路。 2. MahoutIllegalArgumentException概述在Mahout库中，MahoutIllegalArgumentException是继承自Java标准库中的IllegalArgumentException的一个自定义异常类，通常在API调用时，当传入的参数不满足方法或构造函数的要求时抛出。这种特殊情况是在强调对输入参数的准确性要超级严格把关，这样一来，开发者就能像雷达一样快速找到问题所在，然后麻利地把它修复好。 3. 示例分析与解读（1）示例一：无效的矩阵维度 java import org.apache.mahout.math.DenseMatrix; import org.apache.mahout.math.Matrix; public class MatrixDemo { public static void main(String[] args) { // 创建一个3x2的矩阵 Matrix m1 = new DenseMatrix(new double[][]{ {1, 2}, {3, 4}, {5, 6} }); // 尝试进行非兼容矩阵相加操作，这将引发MahoutIllegalArgumentException Matrix m2 = new DenseMatrix(new double[][]{ {7, 8} }); try { m1.plus(m2); // 这里会抛出异常，因为矩阵维度不匹配 } catch (org.apache.mahout.common.MahoutIllegalArgumentException e) { System.out.println("Error: " + e.getMessage()); } } } 在这个例子中，当我们尝试对两个维度不匹配的矩阵执行加法操作时，MahoutIllegalArgumentException就会被抛出，提示我们"矩阵维度不匹配"。（2）示例二：无效的数据索引 java import org.apache.mahout.math.Vector; import org.apache.mahout.math.RandomAccessSparseVector; public class VectorDemo { public static void main(String[] args) { Vector v = new RandomAccessSparseVector(5); // 尝试访问不存在的索引位置 try { double valueAtInvalidIndex = v.get(10); // 这里会抛出异常，因为索引超出范围 } catch (org.apache.mahout.common.MahoutIllegalArgumentException e) { System.out.println("Error: " + e.getMessage()); } } } 在此场景下，我们试图从一个只有5个元素的向量中获取第10个元素，由于索引超出了有效范围，因此触发了MahoutIllegalArgumentException。 4. 遇到异常时的应对策略面对MahoutIllegalArgumentException，我们的首要任务是理解异常信息并核查代码逻辑。一般而言，我们需要： - 检查传入方法或构造函数的所有参数是否符合预期； - 确保在进行数学运算（如矩阵、向量操作）前，它们的维度或大小是正确的； - 对于涉及索引的操作，确保索引值在合法范围内。 5. 结语总的来说，org.apache.mahout.common.MahoutIllegalArgumentException是我们使用Mahout过程中一个非常有价值的反馈信号。它就像个贴心的小助手，在我们编程的时候敲黑板强调，对参数和数据结构这俩宝贝疙瘩必须得精打细算、严谨对待。只要咱能及时把这些小bug捉住修正，那咱们就能更顺溜地使出Mahout这个大招，妥妥地搞定大规模的机器学习和数据挖掘任务啦！每次遇到这类异常，不妨将其视为一次优化代码质量、提升自己对Mahout理解深度的机会，让我们在实际项目中不断成长与进步。

2023-10-16 18:27:51

115

山涧溪流

Mahout

Mahout在大规模文本分类中的应用：从数据预处理到模型测试，涵盖TF-IDF特征提取与Naive Bayes、Logistic Regression算法实践

...类是一个重要的任务。Mahout，这可是个不得了的开源神器，专门用来处理大规模机器学习问题。甭管你的数据有多大、多复杂，它都能轻松应对。就拿文本分类来说吧，有了Mahout这个好帮手，你就能轻轻松松地对海量文本进行高效分类，简直就像给每篇文章都贴上合适的标签一样简单便捷！本文将介绍如何使用Mahout进行大规模文本分类。二、安装Mahout 首先，我们需要下载并安装Mahout。你可以在Mahout的官方网站上找到最新的版本。三、数据预处理对于任何机器学习任务，数据预处理都是非常重要的一步。在Mahout中，我们可以使用JDOM工具对原始数据进行处理。以下是一个简单的例子： java import org.jdom2.Document; import org.jdom2.Element; import org.jdom2.input.SAXBuilder; // 创建一个SAX解析器 SAXBuilder saxBuilder = new SAXBuilder(); // 解析XML文件 Document doc = saxBuilder.build("data.xml"); // 获取根元素 Element root = doc.getRootElement(); // 遍历所有子元素 for (Element element : root.getChildren()) { // 对每个子元素进行处理 } 四、特征提取在Mahout中，我们可以使用TF-IDF算法来提取文本的特征。以下是一个简单的例子： java import org.apache.mahout.math.Vector; import org.apache.mahout.text.TfidfVectorizer; // 创建一个TF-IDF向量化器 TfidfVectorizer vectorizer = new TfidfVectorizer(); // 将文本转换为向量 Vector vector = vectorizer.transform(text); 五、模型训练在Mahout中，我们可以使用Naive Bayes、Logistic Regression等算法来进行模型训练。以下是一个简单的例子： java import org.apache.mahout.classifier.NaiveBayes; // 创建一个朴素贝叶斯分类器 NaiveBayes classifier = new NaiveBayes(); // 使用训练集进行训练 classifier.train(trainingData); 六、模型测试在模型训练完成后，我们可以使用测试集对其进行测试。以下是一个简单的例子： java import org.apache.mahout.classifier.NaiveBayes; // 使用测试集进行测试 double accuracy = classifier.evaluate(testData); System.out.println("Accuracy: " + accuracy); 七、总结通过上述步骤，我们就可以使用Mahout进行大规模文本分类了。其实呢，这只是个入门级别的例子，实际上咱们可能要面对更复杂的操作，像是给数据“洗洗澡”（预处理）、抽取出关键信息（特征提取），还有对模型进行深度调教（训练）这些步骤。希望这个教程能帮助你在实际工作中更好地使用Mahout。

2023-03-23 19:56:32

108

青春印记-t

Mahout

Mahout与Spark集成中的版本冲突及兼容性问题：明确依赖管理与解决策略以确保功能与性能测试

Mahout与Spark集成时的版本冲突问题深度解析 1. 引言 Apache Mahout，这个强大的机器学习库，在大数据处理领域一直备受瞩目。Spark这个家伙，可厉害了，人家是个超级给力、操作还贼简单的分布式计算框架。现如今，越来越多的数据科学家和工程师们发现这家伙好使，都把它当成了心头好，处理数据时的首选法宝。当这两个家伙碰头，那肯定能碰撞出炫酷的火花来。不过，在我们实际做项目整合的时候，Mahout和Spark版本之间的兼容性问题却像个小捣蛋鬼，时不时地就给我们带来些小麻烦。本文将深入探讨这一主题，通过实例代码及详细分析，揭示可能遇到的问题以及应对策略。 2. Mahout与Spark的结合优势与挑战 2.1 优势集成Mahout与Spark后，我们可以利用Spark的并行处理能力来大幅提升Mahout算法的执行效率。例如，以下是一段使用Mahout-on-Spark实现协同过滤推荐算法的基础代码示例： scala import org.apache.mahout.sparkbindings._ import org.apache.mahout.math.drm._ val data: RDD[Rating] = ... // 初始化用户-物品评分数据 val drmData = DistributedRowMatrix(data.map(r => (r.user, r.product, r.rating)).map { case (u, i, r) => ((u.toLong, i.toLong), r.toDouble) }, numCols = numProducts) val model = ALS.train(drmData, rank = 10, iterations = 10) 2.2 挑战然而，看似美好的融合背后，版本兼容性问题如同暗礁般潜藏。你知道吗，Mahout和Spark这两个家伙一直在不停地更新升级自己，就像手机系统一样，隔段时间就蹦出个新版本。这样一来呢，新版的接口或者内部构造可能就会变变样，这就意味着不是所有版本都能无缝衔接、愉快合作的，有时候也得头疼一下兼容性问题。如若不慎选择不匹配的版本组合，可能会出现运行错误、性能低下甚至完全无法运行的情况。 3. 版本冲突实例及其解决之道 3.1 实际案例假设我们在一个项目中尝试将Mahout 0.13.x与Spark 2.4.x进行集成，可能会遇到如下错误提示（这里仅为示例，并非真实错误信息）： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$sc()Lorg/apache/spark/SparkContext; 这是因为Mahout 0.13.x对Spark的支持仅到2.3.x版本，对于Spark 2.4.x的部分接口进行了更改，导致调用失败。 3.2 解决策略面对这类问题，我们需要遵循以下步骤来解决： - 确认兼容性：查阅Mahout官方文档或相关社区资源，明确当前Mahout版本所支持的Spark版本范围。 - 降级或升级：根据兼容性范围，决定是回退Spark版本还是升级Mahout版本以达到兼容。 - 依赖管理：在构建工具如Maven或SBT中，精确指定对应的依赖版本，确保项目中所有组件版本一致。 - 测试验证：完成上述操作后，务必进行全面的功能与性能测试，确保系统在新的版本环境中稳定运行。 4. 结论与思考尽管Mahout与Spark集成过程中的版本冲突可能会带来一些困扰，但只要我们理解其背后的原理，掌握正确的排查方法，这些问题都是可预见且可控的。所以，在我们实际动手开发的时候，千万要像追星一样紧盯着Mahout和Spark这些技术栈的版本更新，毕竟它们一有动静，可能就会影响到兼容性。要想让Mahout和Spark这对好搭档火力全开，就得提前把这些因素琢磨透彻了。以上内容仅是一个简要的探讨，实际开发过程中可能还会遇到更多具体问题。记住啊，当咱们碰上那些棘手的技术问题时，千万要稳住心态，有耐心去慢慢摸索，而且得乐在其中，把解决问题的过程当成一场冒险探索。这正是编写代码、开发软件让人欲罢不能的魅力所在！

2023-03-19 22:18:02

蝶舞花间

Mahout

Mahout库在大数据处理中实现内存与磁盘I/O优化：流式处理、StreamingVectorSpaceModel及TF-IDF实践与数据缓存策略

在进一步探索Mahout优化内存和磁盘I/O的方法后，读者可以关注近年来Apache Mahout项目的新发展与相关领域的前沿研究。随着大数据技术的不断演进，Apache Mahout已从最初的MapReduce时代过渡到Spark和Flink等更高效计算框架的支持，这为处理大规模机器学习任务提供了更为先进的工具。近期，Apache Mahout团队推出了Mahout 0.14版本，其中包含了对内存管理和分布式计算性能的重大改进。例如，新版本中强化了对Spark MLlib库的集成，使得用户能够在处理海量数据时更便捷地利用Spark的内存管理和I/O优化特性，从而有效提升模型训练效率。此外，对于内存优化策略，一些现代机器学习库如TensorFlow、PyTorch也开始借鉴流式处理的思想，结合动态计算图、梯度累积等技术，实现了在有限内存条件下处理深度学习模型的大规模数据集。同时，在磁盘I/O优化方面，云存储和分布式文件系统（如HDFS）的最新研究成果也值得深入探究。通过智能缓存策略、数据局部性优化以及新型存储硬件的应用，这些技术正持续推动着大数据处理效能的边界。综上所述，理解并掌握Apache Mahout及其他现代机器学习框架在内存和磁盘I/O优化上的实践，不仅有助于解决当前面临的挑战，也有利于紧跟行业发展趋势，为未来复杂的数据科学项目打下坚实基础。

2023-04-03 17:43:18

雪域高原-t

Apache Solr

Apache Solr地理搜索功能实践：从坐标编码到范围查询与Geohash聚合

...Component是Apache Solr中用于处理和索引地理空间数据的核心组件。在本文的上下文中，它主要用于将地理位置信息（如经纬度坐标）编码为支持搜索和查询的数据格式，例如GeoJSON或WKT，并支持基于这些地理信息进行范围查询、距离计算及地理空间聚合等操作。 GeoHash , GeoHash是一种将二维地理坐标（经度和纬度）编码为一维字符串的方法，这样可以高效地存储和检索地理位置信息。在Solr中，GeoHash被用于地理空间分区和聚合，通过将地球表面划分为多个矩形区域并赋予唯一的哈希值，使得相近地理位置具有相似或相同的GeoHash值，便于进行地理区域划分和统计分析。 BoundingBox , BoundingBox在地理信息系统中表示一个矩形区域，由两个对角点的经纬度坐标定义。在Apache Solr的地理搜索功能中，BoundingBox查询允许用户根据指定的地理位置坐标和范围半径，查找位于特定边界框内的所有文档。例如，在文章示例中，可以找到所有位于纽约市方圆10公里内的文档。神经网络搜索 , 神经网络搜索是一种利用深度学习技术优化搜索引擎结果的方法。在Solr 8.x及以上版本中引入了这一概念，虽然具体实现依赖于Sease项目，但基本思想是通过预训练模型将用户的非精确地理位置描述（如“纽约市”）转换为潜在的地理坐标，从而提高地理位置相关查询的精度和有效性。这种技术有助于提升用户查询体验，特别是对于模糊或者语义化的地点搜索需求。

2024-03-06 11:31:08

405

红尘漫步-t

Apache Solr

Apache Solr分布式环境下的Facet统计准确性优化：跨分片计数、enum方法与预聚合策略

在分布式环境中，Apache Solr跨分片Facet统计不准确的探讨与解决方案 01 引言当我们谈论大规模数据检索时，Apache Solr作为一款强大的企业级搜索平台，其在分布式环境下的高效查询和处理能力令人印象深刻。不过，在实际操作里头，特别是在处理facet（分面）统计这事儿的时候，我们可能会时不时地碰到一个棘手的问题——跨多个分片进行数据聚合时的准确性难题。这篇文章会深入地“解剖”这个现象，配上一些实实在在的代码实例和实战技巧，让你我都能轻松理解并搞定这个问题。 02 Facet统计与分布式Solr架构 Apache Solr在设计之初就考虑了分布式索引的需求，采用Shard（分片）机制将大型索引分布在网络中的不同节点上。Facet功能则允许用户对搜索结果进行分类统计，如按类别、品牌或其他字段进行频数计数。在分布式系统这个大家庭里，每个分片就像独立的小组成员，它们各自进行facet统计的工作，然后把结果一股脑儿汇总到协调节点那里。不过呢，这样操作有时就可能会让统计数据不太准，出现点儿小差错。 03 分布式环境下facet统计的问题详解想象一下这样的场景：假设我们有一个电商网站的商品索引分布在多个Solr分片上，想要根据商品类别进行facet统计。当你发现某一类商品正好像是被均匀撒豆子或者随机抽奖似的分散在各个不同的分片上时，那么仅仅看单个分片的facet统计数据，可能就无法准确把握全局的商品总数啦。这是因为每个分片只会算它自己那部分的结果，就像各自拥有一个小算盘在敲打，没法看到全局的数据全貌。这就像是一个团队各干各的，没有形成合力，所以就出现了“跨分片facet统计不准确”的问题，就像是大家拼凑出来的报告，由于信息不完整，难免出现偏差。 java // 示例：在分布式环境下，错误的facet统计请求方式 SolrQuery query = new SolrQuery(":"); query.setFacet(true); query.addFacetField("productCategory_s"); solrClient.query("collection1", query); // 此处默认为分布式查询，但facet统计未指定全局聚合 04 理解并解决问题为了确保facet统计在分布式环境中的准确性，Solr提供了facet.method=enum参数来实现全局唯一计数。这种方法就像个超级小能手，它会在每个分片上麻利地生成一整套facet结果集合，然后在那个协调节点的大本营里，把所有这些结果汇拢到一起，这样一来，就能巧妙地避免了重复计算的问题啦。 java // 示例：修正后的facet统计请求，启用enum方法以保证跨分片统计准确 SolrQuery query = new SolrQuery(":"); query.setFacet(true); query.setFacetMethod(FacetParams.FACET_METHOD_ENUM); query.addFacetField("productCategory_s"); solrClient.query("collection1", query); 不过，需要注意的是，facet.method=enum虽然能保证准确性，但会增加网络传输和内存消耗，对于大数据量的facet统计可能会造成性能瓶颈。因此，在设计系统时，需结合业务需求权衡统计精确性与响应速度之间的关系。 05 探讨与优化策略面对facet统计的挑战，除了使用正确的配置参数外，还可以从以下几个方面进一步优化： - 预聚合：针对频繁查询的facet字段，可定期进行预计算并将统计结果存储在索引中，减轻实时统计的压力。 - 合理分片：在构建索引时，依据facet字段的分布特性调整分片策略，尽量使相同或相似facet值的商品集中在同一分片上，降低跨分片统计的需求。 - 硬件与集群扩容：提升网络带宽和服务器资源，或者适当增加Solr集群规模，分散facet统计压力。 06 结语 Apache Solr的强大之处在于其高度可定制化和扩展性，面对跨分片facet统计这类复杂问题，我们既需要深入理解原理，也要灵活运用各种工具和技术手段。只有通过持续的动手实践和不断改进优化，才能确保在数据统计绝对精准无误的同时，在分散各地的分布式环境下也能实现飞速高效的检索目标。在这个过程中，不断探索、思考与改进，正是技术人员面对技术挑战的乐趣所在。

2023-11-04 13:51:42

376

断桥残雪

Mahout

Mahout处理大规模数据：应对推荐系统中的迭代次数异常与模型参数调整

...了一个重要的议题。以Apache Mahout为例，尽管它提供了丰富的算法和工具支持，但在处理大规模数据集时，仍然面临着诸如TooManyIterationsException这样的挑战。为了更好地理解和应对这些问题，我们有必要关注最新的研究成果和技术进展。近期，一项由国际机器学习大会ICML发表的研究指出，通过引入自适应学习率策略，可以在一定程度上缓解模型训练过程中迭代次数过多的问题。该研究提出了一种新的优化算法，能够在保证模型精度的同时，显著降低迭代次数，从而提高整体训练效率。这项技术已经在多个实际项目中得到了验证，显示出良好的效果。此外，另一篇来自《IEEE Transactions on Pattern Analysis and Machine Intelligence》的文章深入探讨了特征选择对于模型性能的影响。研究发现，通过精心设计特征选择策略，可以有效减少不必要的计算负担，同时提升模型的泛化能力。这对于解决TooManyIterationsException问题同样具有重要意义。除了学术界的贡献，工业界也在积极探索新的解决方案。例如，阿里巴巴集团在最近的一次技术分享会上，介绍了其内部使用的基于Mahout的改进版框架。该框架通过对底层算法的优化和并行计算的支持，大幅提升了处理大规模数据集的能力。这一案例表明，通过结合理论研究和实际应用，可以找到更加有效的解决路径。综上所述，面对如TooManyIterationsException这样的挑战，我们需要从多个角度出发，结合最新的研究成果和实践经验，不断探索和优化解决方案。未来，随着技术的不断进步，相信会有更多创新性的方法出现，帮助我们更好地应对大数据时代的各种挑战。

2024-11-30 16:27:59

烟雨江南

Hive

Hive SQL查询无法解析问题：错误原因、结构修正及参数设置调整，附带查询优化与数据结构优化实践

Apache Hive , Apache Hive是一个构建在Hadoop之上的数据仓库工具，它提供了一种SQL-like的查询语言（HiveQL），使得用户能够更方便地在大规模分布式存储系统中进行数据查询和分析。通过将复杂的MapReduce编程工作转化为简单的SQL语句，大大降低了大数据处理的门槛。 Hadoop , Hadoop是一个开源的大数据处理框架，由Apache软件基金会开发并维护。其核心组件包括Hadoop Distributed File System (HDFS) 和 Yet Another Resource Negotiator (YARN)，以及用于数据处理的MapReduce编程模型。Hadoop设计目标是支持跨集群的海量数据分布式存储和计算，实现高效、可靠、可扩展的数据处理能力。 Hive SQL , Hive SQL是一种针对Apache Hive定制的类SQL查询语言，也称为HiveQL。尽管与传统的SQL相似，但Hive SQL在功能上有所简化和调整，旨在适应大规模数据集的查询和分析需求。通过Hive SQL，用户可以使用熟悉的SQL语法操作存储在Hadoop中的数据，同时支持对数据进行ETL（抽取、转换、加载）等操作，并能执行聚合、过滤等多种复杂查询。数据分区 , 在Hive中，数据分区是一种物理数据组织策略，类似于数据库中的表分区。通过指定一个或多个列作为分区键，Hive可以将大表的数据按照分区键的值划分成多个子目录，每个子目录包含符合特定分区键值的数据文件。这样不仅可以优化查询性能，只扫描需要的分区，还能更好地管理数据，提高查询效率。 LLAP（Live Long and Process） , LLAP是Apache Hive项目的一个重要特性，全称为Low Latency Analytical Processing。它引入了内存计算和并发处理机制，为Hive提供了交互式查询服务。在LLAP模式下，查询任务的一部分会在内存中持久运行，从而极大地减少了查询响应时间，提高了Hive在处理大量实时或近实时查询时的表现。

2023-06-17 13:08:12

589

山涧溪流-t

Apache Lucene

在Lucene中利用索引和TF-IDF算法生成文本自动摘要

...速查找匹配的内容。在Apache Lucene中，全文检索通过建立索引来实现，索引包含了文档的某些特征（如词语频率），使得搜索操作变得高效快捷。文本自动摘要 , 文本自动摘要是通过计算机程序自动生成文档概要的过程。这种技术可以帮助用户快速理解文档的主要内容，尤其是在面对大量文档时，自动摘要可以显著提高阅读效率。在本文中，我们讨论了如何在Apache Lucene中实现这一功能，以增强全文检索的实用性，让用户不仅能够搜索到相关文档，还能直接查看到文档的关键内容。 TextRank , TextRank是一种基于图的排序算法，最初是用于网页排名的PageRank算法的变体。在文本处理中，TextRank算法被用来识别文本中的关键句子，从而生成文档的自动摘要。它通过构建一个句子之间的相似度网络，然后计算每个节点（即句子）的重要性，最终选出最重要的几个句子作为摘要。这种方法适用于多种自然语言处理任务，包括信息检索和文本摘要。在本文中，TextRank被用来生成文档内容的摘要，以辅助全文检索的结果展示。

2024-11-13 16:23:47

夜色朦胧

转载文章

[转载]今日头条、抖音推荐算法原理全文详解！

...督学习问题。可实现的方法有很多，比如传统的协同过滤模型，监督学习算法Logistic Regression模型，基于深度学习的模型，Factorization Machine和GBDT等。一个优秀的工业级推荐系统需要非常灵活的算法实验平台，可以支持多种算法组合，包括模型结构调整。因为很难有一套通用的模型架构适用于所有的推荐场景。现在很流行将LR和DNN结合，前几年Facebook也将LR和GBDT算法做结合。今日头条旗下几款产品都在沿用同一套强大的算法推荐系统，但根据业务场景不同，模型架构会有所调整。模型之后再看一下典型的推荐特征，主要有四类特征会对推荐起到比较重要的作用。第一类是相关性特征，就是评估内容的属性和与用户是否匹配。显性的匹配包括关键词匹配、分类匹配、来源匹配、主题匹配等。像FM模型中也有一些隐性匹配，从用户向量与内容向量的距离可以得出。第二类是环境特征，包括地理位置、时间。这些既是bias特征，也能以此构建一些匹配特征。第三类是热度特征。包括全局热度、分类热度，主题热度，以及关键词热度等。内容热度信息在大的推荐系统特别在用户冷启动的时候非常有效。第四类是协同特征，它可以在部分程度上帮助解决所谓算法越推越窄的问题。协同特征并非考虑用户已有历史。而是通过用户行为分析不同用户间相似性，比如点击相似、兴趣分类相似、主题相似、兴趣词相似，甚至向量相似，从而扩展模型的探索能力。模型的训练上，头条系大部分推荐产品采用实时训练。实时训练省资源并且反馈快，这对信息流产品非常重要。用户需要行为信息可以被模型快速捕捉并反馈至下一刷的推荐效果。我们线上目前基于storm集群实时处理样本数据，包括点击、展现、收藏、分享等动作类型。模型参数服务器是内部开发的一套高性能的系统，因为头条数据规模增长太快，类似的开源系统稳定性和性能无法满足，而我们自研的系统底层做了很多针对性的优化，提供了完善运维工具，更适配现有的业务场景。目前，头条的推荐算法模型在世界范围内也是比较大的，包含几百亿原始特征和数十亿向量特征。整体的训练过程是线上服务器记录实时特征，导入到Kafka文件队列中，然后进一步导入Storm集群消费Kafka数据，客户端回传推荐的label构造训练样本，随后根据最新样本进行在线训练更新模型参数，最终线上模型得到更新。这个过程中主要的延迟在用户的动作反馈延时，因为文章推荐后用户不一定马上看，不考虑这部分时间，整个系统是几乎实时的。但因为头条目前的内容量非常大，加上小视频内容有千万级别，推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略，每次推荐时从海量内容中筛选出千级别的内容库。召回策略最重要的要求是性能要极致，一般超时不能超过50毫秒。召回策略种类有很多，我们主要用的是倒排的思路。离线维护一个倒排，这个倒排的key可以是分类，topic，实体，来源等。排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断，高效的从很大的内容库中筛选比较靠谱的一小部分内容。二、内容分析内容分析包括文本分析，图片分析和视频分析。头条一开始主要做资讯，今天我们主要讲一下文本分析。文本分析在推荐系统中一个很重要的作用是用户兴趣建模。没有内容及文本标签，无法得到用户兴趣标签。举个例子，只有知道文章标签是互联网，用户看了互联网标签的文章，才能知道用户有互联网标签，其他关键词也一样。另一方面，文本内容的标签可以直接帮助推荐特征，比如魅族的内容可以推荐给关注魅族的用户，这是用户标签的匹配。如果某段时间推荐主频道效果不理想，出现推荐窄化，用户会发现到具体的频道推荐（如科技、体育、娱乐、军事等）中阅读后，再回主feed,推荐效果会更好。因为整个模型是打通的，子频道探索空间较小，更容易满足用户需求。只通过单一信道反馈提高推荐准确率难度会比较大，子频道做的好很重要。而这也需要好的内容分析。上图是今日头条的一个实际文本case。可以看到，这篇文章有分类、关键词、topic、实体词等文本特征。当然不是没有文本特征，推荐系统就不能工作，推荐系统最早期应用在Amazon,甚至沃尔玛时代就有，包括Netfilx做视频推荐也没有文本特征直接协同过滤推荐。但对资讯类产品而言，大部分是消费当天内容，没有文本特征新内容冷启动非常困难，协同类特征无法解决文章冷启动问题。今日头条推荐系统主要抽取的文本特征包括以下几类。首先是语义标签类特征，显式为文章打上语义标签。这部分标签是由人定义的特征，每个标签有明确的意义，标签体系是预定义的。此外还有隐式语义特征，主要是topic特征和关键词特征，其中topic特征是对于词概率分布的描述，无明确意义；而关键词特征会基于一些统一特征描述，无明确集合。另外文本相似度特征也非常重要。在头条，曾经用户反馈最大的问题之一就是为什么总推荐重复的内容。这个问题的难点在于，每个人对重复的定义不一样。举个例子，有人觉得这篇讲皇马和巴萨的文章，昨天已经看过类似内容，今天还说这两个队那就是重复。但对于一个重度球迷而言，尤其是巴萨的球迷，恨不得所有报道都看一遍。解决这一问题需要根据判断相似文章的主题、行文、主体等内容，根据这些特征做线上策略。同样，还有时空特征，分析内容的发生地点以及时效性。比如武汉限行的事情推给北京用户可能就没有意义。最后还要考虑质量相关特征，判断内容是否低俗，色情，是否是软文，鸡汤？上图是头条语义标签的特征和使用场景。他们之间层级不同，要求不同。分类的目标是覆盖全面，希望每篇内容每段视频都有分类；而实体体系要求精准，相同名字或内容要能明确区分究竟指代哪一个人或物，但不用覆盖很全。概念体系则负责解决比较精确又属于抽象概念的语义。这是我们最初的分类，实践中发现分类和概念在技术上能互用，后来统一用了一套技术架构。目前，隐式语义特征已经可以很好的帮助推荐，而语义标签需要持续标注，新名词新概念不断出现，标注也要不断迭代。其做好的难度和资源投入要远大于隐式语义特征，那为什么还需要语义标签？有一些产品上的需要，比如频道需要有明确定义的分类内容和容易理解的文本标签体系。语义标签的效果是检查一个公司NLP技术水平的试金石。今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root，下面第一层的分类是像科技、体育、财经、娱乐，体育这样的大类，再下面细分足球、篮球、乒乓球、网球、田径、游泳…，足球再细分国际足球、中国足球，中国足球又细分中甲、中超、国家队…，相比单独的分类器，利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是，如果要提高召回，可以看到我们连接了一些飞线。这套架构通用，但根据不同的问题难度，每个元分类器可以异构，像有些分类SVM效果很好，有些要结合CNN，有些要结合RNN再处理一下。上图是一个实体词识别算法的case。基于分词结果和词性标注选取候选，期间可能需要根据知识库做一些拼接，有些实体是几个词的组合，要确定哪几个词结合在一起能映射实体的描述。如果结果映射多个实体还要通过词向量、topic分布甚至词频本身等去歧，最后计算一个相关性模型。三、用户标签内容分析和用户标签是推荐系统的两大基石。内容分析涉及到机器学习的内容多一些，相比而言，用户标签工程挑战更大。今日头条常用的用户标签包括用户感兴趣的类别和主题、关键词、来源、基于兴趣的用户聚类以及各种垂直兴趣特征（车型，体育球队，股票等）。还有性别、年龄、地点等信息。性别信息通过用户第三方社交账号登录得到。年龄信息通常由模型预测，通过机型、阅读时间分布等预估。常驻地点来自用户授权访问位置信息，在位置信息的基础上通过传统聚类的方法拿到常驻点。常驻点结合其他信息，可以推测用户的工作地点、出差地点、旅游地点。这些用户标签非常有助于推荐。当然最简单的用户标签是浏览过的内容标签。但这里涉及到一些数据处理策略。主要包括：一、过滤噪声。通过停留时间短的点击，过滤标题党。二、热点惩罚。对用户在一些热门文章（如前段时间PG One的新闻）上的动作做降权处理。理论上，传播范围较大的内容，置信度会下降。三、时间衰减。用户兴趣会发生偏移，因此策略更偏向新的用户行为。因此，随着用户动作的增加，老的特征权重会随时间衰减，新动作贡献的特征权重会更大。四、惩罚展现。如果一篇推荐给用户的文章没有被点击，相关特征（类别，关键词，来源）权重会被惩罚。当然同时，也要考虑全局背景，是不是相关内容推送比较多，以及相关的关闭和dislike信号等。用户标签挖掘总体比较简单，主要还是刚刚提到的工程挑战。头条用户标签第一版是批量计算框架，流程比较简单，每天抽取昨天的日活用户过去两个月的动作数据，在Hadoop集群上批量计算结果。但问题在于，随着用户高速增长，兴趣模型种类和其他批量处理任务都在增加，涉及到的计算量太大。 2014年，批量处理任务几百万用户标签更新的Hadoop任务，当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作，集中写入分布式存储系统的压力也开始增大，并且用户兴趣标签更新延迟越来越高。面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后，只要有用户动作更新就更新标签，CPU代价比较小，可以节省80%的CPU时间，大大降低了计算资源开销。同时，只需几十台机器就可以支撑每天数千万用户的兴趣模型更新，并且特征更新速度非常快，基本可以做到准实时。这套系统从上线一直使用至今。当然，我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息，不需要实时重复计算，就仍然保留daily更新。四、评估分析上面介绍了推荐系统的整体架构，那么如何评估推荐效果好不好？有一句我认为非常有智慧的话，“一个事情没法评估就没法优化”。对推荐系统也是一样。事实上，很多因素都会影响推荐效果。比如侯选集合变化，召回模块的改进或增加，推荐特征的增加，模型架构的改进在，算法参数的优化等等，不一一举例。评估的意义就在于，很多优化最终可能是负向效果，并不是优化上线后效果就会改进。全面的评估推荐系统，需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量，不能只看点击率或者停留时长等，需要综合评估。很多公司算法做的不好，并非是工程师能力不够，而是需要一个强大的实验平台，还有便捷的实验分析工具，可以智能分析数据指标的置信度。一个良好的评估体系建立需要遵循几个原则，首先是兼顾短期指标与长期指标。我在之前公司负责电商方向的时候观察到，很多策略调整短期内用户觉得新鲜，但是长期看其实没有任何助益。其次，要兼顾用户指标和生态指标。既要为内容创作者提供价值，让他更有尊严的创作，也有义务满足用户，这两者要平衡。还有广告主利益也要考虑，这是多方博弈和平衡的过程。另外，要注意协同效应的影响。实验中严格的流量隔离很难做到，要注意外部效应。强大的实验平台非常直接的优点是，当同时在线的实验比较多时，可以由平台自动分配流量，无需人工沟通，并且实验结束流量立即回收，提高管理效率。这能帮助公司降低分析成本，加快算法迭代效应，使整个系统的算法优化工作能够快速往前推进。这是头条A/B Test实验系统的基本原理。首先我们会做在离线状态下做好用户分桶，然后线上分配实验流量，将桶里用户打上标签，分给实验组。举个例子，开一个10%流量的实验，两个实验组各5%，一个5%是基线，策略和线上大盘一样，另外一个是新的策略。实验过程中用户动作会被搜集，基本上是准实时，每小时都可以看到。但因为小时数据有波动，通常是以天为时间节点来看。动作搜集后会有日志处理、分布式统计、写入数据库，非常便捷。在这个系统下工程师只需要设置流量需求、实验时间、定义特殊过滤条件，自定义实验组ID。系统可以自动生成：实验数据对比、实验数据置信度、实验结论总结以及实验优化建议。当然，只有实验平台是远远不够的。线上实验平台只能通过数据指标变化推测用户体验的变化，但数据指标和用户体验存在差异，很多指标不能完全量化。很多改进仍然要通过人工分析，重大改进需要人工评估二次确认。五、内容安全最后要介绍今日头条在内容安全上的一些举措。头条现在已经是国内最大的内容创作与分发凭条，必须越来越重视社会责任和行业领导者的责任。如果1%的推荐内容出现问题，就会产生较大的影响。现在，今日头条的内容主要来源于两部分，一是具有成熟内容生产能力的PGC平台一是UGC用户内容，如问答、用户评论、微头条。这两部分内容需要通过统一的审核机制。如果是数量相对少的PGC内容，会直接进行风险审核，没有问题会大范围推荐。 UGC内容需要经过一个风险模型的过滤，有问题的会进入二次风险审核。审核通过后，内容会被真正进行推荐。这时如果收到一定量以上的评论或者举报负向反馈，还会再回到复审环节，有问题直接下架。整个机制相对而言比较健全，作为行业领先者，在内容安全上，今日头条一直用最高的标准要求自己。分享内容识别技术主要鉴黄模型，谩骂模型以及低俗模型。今日头条的低俗模型通过深度学习算法训练，样本库非常大，图片、文本同时分析。这部分模型更注重召回率，准确率甚至可以牺牲一些。谩骂模型的样本库同样超过百万，召回率高达95%+，准确率80%+。如果用户经常出言不讳或者不当的评论，我们有一些惩罚机制。泛低质识别涉及的情况非常多，像假新闻、黑稿、题文不符、标题党、内容质量低等等，这部分内容由机器理解是非常难的，需要大量反馈信息，包括其他样本信息比对。目前低质模型的准确率和召回率都不是特别高，还需要结合人工复审，将阈值提高。目前最终的召回已达到95%，这部分其实还有非常多的工作可以做。别平台。如果需要机器学习视频，可以在公众号后台聊天框回复【机器学习】，可以免费获取编程视频。你可能还喜欢数学在机器学习中到底有多重要？ AI 新手学习路线，附上最详细的资源整理！提升机器学习数学基础，推荐7本书酷爆了！围观2020年十大科技趋势机器学习该如何入门，听听过来人的经验！长按加入T圈，接触人工智能觉得内容还不错的话，给我点个“在看”呗本篇文章为转载内容。原文链接：https://blog.csdn.net/itcodexy/article/details/109574173。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-13 09:21:23

322

转载

转载文章

[转载]软件供应链安全威胁：从“奥创纪元”到“无限战争”

...恶意攻击者在利用各种方法入侵目标主机后，主动替换了目标OpenSSH为恶意版本，从而达成攻击持久化操作。但是这些都是止血的安全运维人员该考虑的事情；关键问题是，透过表象，这显露了什么威胁形式？这个问题很好回答，之前也曾经反复说过：基础软件碎片化。如上一章节简单提到，在开发过程中有各种可能的渠道引入开发者不完全了解和信任的代码；在运维过程中也是如此。二者互相作用，造成了软件碎片化的庞杂现状。在企业内部，同一份基础软件库，可能不同的业务线各自定制一份，放到企业私有软件仓库源中，有些会有人持续更新供自己产品使用，有些由系统软件基础设施维护人员单独维护，有些则可能是开发人员临时想起来上传的，他们自己都不记得；后续用到的这个基础软件的开发和团队，在这个源上搜索到已有的库，很大概率会倾向于直接使用，不管来源、是否有质量背书等。长此以往问题会持续发酵。而我们开最坏的脑洞，是否可能有黑产人员入职到内部，提交个恶意基础库之后就走人的可能？现行企业安全开发流程中审核机制的普遍缺失给这留下了空位。将源码来源碎片化与二进制使用碎片化并起来考虑，我们不难看到一个远远超过OpenSSH事件威胁程度的图景。但这个问题不是仅仅靠开发阶段规约、运维阶段规范、企业内部管控、行业自查、政府监管就可以根除的，最大的问题归根结底两句话：不可能用一场战役对抗持续威胁；不可能用有限分析对抗无限未知。 Ⅲ. 从自信到自省：RHEL、CentOS backport版本BIND漏洞 2018年12月20日凌晨，在备战冬至的软件供应链安全大赛决赛时，我注意到漏洞预警平台捕获的一封邮件。但这不是一个漏洞初始披露邮件，而是对一个稍早已披露的BIND在RedHat、CentOS发行版上特定版本的1day漏洞CVE-2018-5742，由BIND的官方开发者进行额外信息澄(shuǎi)清(guō)的邮件。一些必要背景关于BIND 互联网的一个古老而基础的设施是DNS，这个概念在读者不应陌生。而BIND“是现今互联网上最常使用的DNS软件，使用BIND作为服务器软件的DNS服务器约占所有DNS服务器的九成。BIND现在由互联网系统协会负责开发与维护参考。”所以BIND的基础地位即是如此，因此也一向被大量白帽黑帽反复测试、挖掘漏洞，其开发者大概也一直处在紧绷着应对的处境。关于ISC和RedHat 说到开发者，上面提到BIND的官方开发者是互联网系统协会（ISC）。ISC是一个老牌非营利组织，目前主要就是BIND和DHCP基础设施的维护者。而BIND本身如同大多数历史悠久的互联网基础开源软件，是4个UCB在校生在DARPA资助下于1984年的实验室产物，直到2012年由ISC接管。那么RedHat在此中是什么角色呢？这又要提到我之前提到的Linux发行版和自带软件维护策略。Red Hat Enterprise Linux（RHEL）及其社区版CentOS秉持着稳健的软件策略，每个大的发行版本的软件仓库，都只选用最必要且质量久经时间考验的软件版本，哪怕那些版本实在是老掉牙。这不是一种过分的保守，事实证明这种策略往往给RedHat用户在最新漏洞面前提供了保障——代码总是跑得越少，潜在漏洞越多。但是这有两个关键问题。一方面，如果开源基础软件被发现一例有历史沿革的代码漏洞，那么官方开发者基本都只为其最新代码负责，在当前代码上推出修复补丁。另一方面，互联网基础设施虽然不像其上的应用那样爆发性迭代，但依然持续有一些新特性涌现，其中一些是必不可少的，但同样只在最新代码中提供。两个刚需推动下，各Linux发行版对长期支持版本系统的软件都采用一致的策略，即保持其基础软件在一个固定的版本，但对于这些版本软件的最新漏洞、必要的最新软件特性，由发行版维护者将官方开发者最新代码改动“向后移植”到旧版本代码中，即backport。这就是基础软件的“官宣”碎片化的源头。讲道理，Linux发行版维护者与社区具有比较靠谱的开发能力和监督机制，backport又基本就是一些复制粘贴工作，应当是很稳当的……但真是如此吗？ CVE-2018-5742漏洞概况 CVE-2018-5742是一个简单的缓冲区溢出类型漏洞，官方评定其漏洞等级moderate，认为危害不大，漏洞修复不积极，披露信息不多，也没有积极给出代码修复patch和新版本rpm包。因为该漏洞仅在设置DEBUG_LEVEL为10以上才会触发，由远程攻击者构造畸形请求造成BIND服务崩溃，在正常的生产环境几乎不可能具有危害，RedHat官方也只是给出了用户自查建议。这个漏洞只出现在RHEL和CentOS版本7中搭载的BIND 9.9.4-65及之后版本。RedHat同ISC的声明中都证实，这个漏洞的引入原因，是RedHat在尝试将BIND 9.11版本2016年新增的NTA机制向后移植到RedHat 7系中固定搭载的BIND 9.9版本代码时，偶然的代码错误。NTA是DNS安全扩展（DNSSEC）中，用于在特定域关闭DNSSEC校验以避免不必要的校验失败的机制；但这个漏洞不需要对NTA本身有进一步了解。漏洞具体分析官方没有给出具体分析，但根据CentOS社区里先前有用户反馈的bug，我得以很容易还原漏洞链路并定位到根本原因。若干用户共同反馈，其使用的BIND 9.9.4-RedHat-9.9.4-72.el7发生崩溃（coredump），并给出如下的崩溃时调用栈backtrace：这个调用过程的逻辑为，在9 dns_message_logfmtpacket函数判断当前软件设置是否DEBUG_LEVEL大于10，若是，对用户请求数据包做日志记录，先后调用8 dns_message_totext、7 dns_message_sectiontotext、6 dns_master_rdatasettotext、5 rdataset_totext将请求进行按协议分解分段后写出。由以上关键调用环节，联动RedHat在9.9.4版本BIND源码包中关于引入NTA特性的源码patch，进行代码分析，很快定位到问题产生的位置，在上述backtrace中的5，masterdump.c文件rdataset_totext函数。漏洞相关代码片段中，RedHat进行backport后，这里引入的代码为：这里判断对于请求中的注释类型数据，直接通过isc_buffer_putstr宏对缓存进行操作，在BIND工程中自定义维护的缓冲区结构对象target上，附加一字节字符串（一个分号）。而漏洞就是由此产生：isc_buffer_putstr中不做缓冲区边界检查保证，这里在缓冲区已满情况下将造成off-by-one溢出，并触发了缓冲区实现代码中的assertion。而ISC上游官方版本的代码在这里是怎么写的呢？找到ISC版本BIND 9.11代码，这里是这样的：这里可以看到，官方代码在做同样的“附加一个分号”这个操作时，审慎的使用了做缓冲区剩余空间校验的str_totext函数，并额外做返回值成功校验。而上述提到的str_totext函数与RETERR宏，在移植版本的masterdump.c中，RedHat开发者也都做了保留。但是，查看代码上下文发现，在RedHat开发者进行代码移植过程中，对官方代码进行了功能上的若干剪裁，包括一些细分数据类型记录的支持；而这里对缓冲区写入一字节，也许开发者完全没想到溢出的可能，所以自作主张地简化了代码调用过程。问题思考这个漏洞本身几乎没什么危害，但是背后足以引起思考。没有人在“借”别人代码时能不出错不同于之前章节提到的那种场景——将代码文件或片段复制到自己类似的代码上下文借用——backport作为一种官方且成熟的做法，借用的代码来源、粘贴到的代码上下文，是具有同源属性的，而且开发者一般是追求稳定性优先的社区开发人员，似乎质量应该有足够保障。但是这里的关键问题是：代码总要有一手、充分的语义理解，才能有可信的使用保障；因此，只要是处理他人的代码，因为不够理解而错误使用的风险，只可能减小，没办法消除。如上分析，本次漏洞的产生看似只是做代码移植的开发者“自作主张”之下“改错了”。但是更广泛且可能的情况是，原始开发者在版本迭代中引入或更新大量基础数据结构、API的定义，并用在新的特性实现代码中；而后向移植开发人员仅需要最小规模的功能代码，所以会对增量代码进行一定规模的修改、剪裁、还原，以此适应旧版本基本代码。这些过程同样伴随着第三方开发人员不可避免的“望文生义”，以及随之而来的风险。后向移植操作也同样助长了软件碎片化过程，其中每一个碎片都存在这样的问题；每一个碎片在自身生命周期也将有持续性影响。多级复制粘贴无异于雪上加霜这里简单探讨的是企业通行的系统和基础软件建设实践。一些国内外厂商和社区发布的定制化Linux发行版，本身是有其它发行版，如CentOS特定版本渊源的，在基础软件上即便同其上游发行版最新版本间也存在断层滞后。RedHat相对于基础软件开发者之间已经隔了一层backport，而我们则人为制造了二级风险。在很多基础而关键的软件上，企业系统基础设施的维护者出于与RedHat类似的初衷，往往会决定自行backport一份拷贝；通过早年心脏滴血事件的洗礼，即暴露出来OpenSSL一个例子。无论是需要RHEL还没来得及移植的新版本功能特性，还是出于对特殊使用上下文场景中更高执行效率的追求，企业都可能自行对RHEL上基础软件源码包进行修改定制重打包。这个过程除了将风险幂次放大外，也进一步加深了代码的不可解释性（包括基础软件开发人员流动性带来的不可解释）。 Ⅳ. 从武功到死穴：从systemd-journald信息泄露一窥API误用 1月10日凌晨两点，漏洞预警平台爬收取一封漏洞披露邮件。披露者是Qualys，那就铁定是重型发布了。最后看披露漏洞的目标，systemd？这就非常有意思了。一些必要背景 systemd是什么，不好简单回答。Linux上面软件命名，习惯以某软件名后带个‘d’表示后台守护管理程序；所以systemd就可以说是整个系统的看守吧。而即便现在描述了systemd是什么，可能也很快会落伍，因为其初始及核心开发者Lennart Poettering（供职于Red Hat）描述它是“永无开发完结完整、始终跟进技术进展的、统一所有发行版无止境的差异”的一种底层软件。笼统讲有三个作用：中央化系统及设置管理；其它软件开发的基础框架；应用程序和系统内核之间的胶水。如今几乎所有Linux发行版已经默认提供systemd，包括RHEL/CentOS 7及后续版本。总之很基础、很底层、很重要就对了。systemd本体是个主要实现init系统的框架，但还有若干关键组件完成其它工作；这次被爆漏洞的是其journald组件，是负责系统事件日志记录的看守程序。额外地还想简单提一句Qualys这个公司。该公司创立于1999年，官方介绍为信息安全与云安全解决方案企业，to B的安全业务非常全面，有些也是国内企业很少有布局的方面；例如上面提到的涉及碎片化和代码移植过程的历史漏洞移动，也在其漏洞管理解决方案中有所体现。但是我们对这家公司粗浅的了解来源于其安全研究团队近几年的发声，这两年间发布过的，包括有『stack clash』、『sudo get_tty_name提权』、『OpenSSH信息泄露与堆溢出』、『GHOST：glibc gethostbyname缓冲区溢出』等大新闻（仅截至2017年年中）。从中可见，这个研究团队专门啃硬骨头，而且还总能开拓出来新的啃食方式，往往爆出来一些别人没想到的新漏洞类型。从这个角度，再联想之前刷爆朋友圈的《安全研究者的自我修养》所倡导的“通过看历史漏洞、看别人的最新成果去举一反三”的理念，可见差距。 CVE-2018-16866漏洞详情这次漏洞披露，打包了三个漏洞： ·16864和16865是内存破坏类型 ·16866是信息泄露 ·而16865和16866两个漏洞组和利用可以拿到root shell。漏洞分析已经在披露中写的很详细了，这里不复述；而针对16866的漏洞成因来龙去脉，Qualys跟踪的结果留下了一点想象和反思空间，我们来看一下。漏洞相关代码片段是这样的（漏洞修复前）：读者可以先肉眼过一遍这段代码有什么问题。实际上我一开始也没看出来，向下读才恍然大悟。这段代码中，外部信息输入通过buf传入做记录处理。输入数据一般包含有空白字符间隔，需要分隔开逐个记录，有效的分隔符包括空格、制表符、回车、换行，代码中将其写入常量字符串；在逐字符扫描输入数据字符串时，将当前字符使用strchr在上述间隔符字符串中检索是否匹配，以此判断是否为间隔符；在240行，通过这样的判断，跳过记录单元字符串的头部连续空白字符。但是问题在于，strchr这个极其基础的字符串处理函数，对于C字符串终止字符'\0'的处理上有个坑：'\0'也被认为是被检索字符串当中的一个有效字符。所以在240行，当当前扫描到的字符为字符串末尾的NULL时，strchr返回的是WHITESPACE常量字符串的终止位置而非NULL，这导致了越界。看起来，这是一个典型的问题：API误用（API mis-use），只不过这个被误用的库函数有点太基础，让我忍不住想是不是还会有大量的类似漏洞……当然也反思我自己写的代码是不是也有同样情况，然而略一思考就释然了——我那么笨的代码都用for循环加if判断了:) 漏洞引入和消除历史有意思的是，Qualys研究人员很贴心地替我做了一步漏洞成因溯源，这才是单独提这个漏洞的原因。漏洞的引入是在2015年的一个commit中：在GitHub中，定位到上述2015年的commit信息，这里commit的备注信息为： journald: do not strip leading whitespace from messages. Keep leading whitespace for compatibility with older syslog implementations. Also useful when piping formatted output to the logger command. Keep removing trailing whitespace. OK，看起来是一个兼容性调整，对记录信息不再跳过开头所有连续空白字符，只不过用strchr的简洁写法比较突出开发者精炼的开发风格（并不），说得过去。之后在2018年八月的一个当时尚未推正式版的另一次commit中被修复了，先是还原成了ec5ff4那次commit之前的写法，然后改成了加校验的方式：虽然Qualys研究者认为上述的修改是“无心插柳”的改动，但是在GitHub可以看到，a6aadf这次commit是因为有外部用户反馈了输入数据为单个冒号情况下journald堆溢出崩溃的issue，才由开发者有目的性地修复的；而之后在859510这个commit再次改动回来，理由是待记录的消息都是使用单个空格作为间隔符的，而上一个commit粗暴地去掉了这种协议兼容性特性。如果没有以上纠结的修改和改回历史，也许我会倾向于怀疑，在最开始漏洞引入的那个commit，既然改动代码没有新增功能特性、没有解决什么问题（毕竟其后三年，这个改动的代码也没有被反映issue），也并非出于代码规范等考虑，那么这么轻描淡写的一次提交，难免有人为蓄意引入漏洞的嫌疑。当然，看到几次修复的原因，这种可能性就不大了，虽然大家仍可以保留意见。但是抛开是否人为这个因素，单纯从代码的漏洞成因看，一个传统但躲不开的问题仍值得探讨：API误用。 API误用：程序员何苦为难程序员如果之前的章节给读者留下了我反对代码模块化和复用的印象，那么这里需要正名一下，我们认可这是当下开发实践不可避免的趋势，也增进了社会开发速度。而API的设计决定了写代码和用代码的双方“舒适度”的问题，由此而来的API误用问题，也是一直被当做单纯的软件工程课题讨论。在此方面个人并没有什么研究，自然也没办法系统地给出分类和学术方案，只是谈一下自己的经验和想法。一篇比较新的学术文章总结了API误用的研究，其中一个独立章节专门分析Java密码学组件API误用的实际，当中引述之前论文认为，密码学API是非常容易被误用的，比如对期望输入数据（数据类型，数据来源，编码形式）要求的混淆，API的必需调用次序和依赖缺失（比如缺少或冗余多次调用了初始化函数、主动资源回收函数）等。凑巧在此方面我有一点体会：曾经因为业务方需要，需要使用C++对一个Java的密码基础中间件做移植。Java对密码学组件支持，有原生的JDK模块和权威的BouncyCastle包可用；而C/C++只能使用第三方库，考虑到系统平台最大兼容和最小代码量，使用Linux平台默认自带的OpenSSL的密码套件。但在开发过程中感受到了OpenSSL满满的恶意：其中的API设计不可谓不反人类，很多参数没有明确的说明（比如同样是表示长度的函数参数，可能在不同地方分别以字节/比特/分组数为计数单位）；函数的线程安全没有任何解释标注，需要自行试验；不清楚函数执行之后，是其自行做了资源释放还是需要有另外API做gc，不知道资源释放操作时是否规规矩矩地先擦除后释放……此类问题不一而足，导致经过了漫长的测试之后，这份中间件才提供出来供使用。而在业务场景中，还会存在比如其它语言调用的情形，这些又暴露出来OpenSSL API误用的一些完全无从参考的问题。这一切都成为了噩梦；当然这无法为我自己开解是个不称职开发的指责，但仅就OpenSSL而言其API设计之恶劣也是始终被人诟病的问题，也是之后其他替代者宣称改进的地方。当然，问题是上下游都脱不了干系的。我们自己作为高速迭代中的开发人员，对于二方、三方提供的中间件、API，又有多少人能自信地说自己仔细、认真地阅读过开发指南和API、规范说明呢？做过通用产品技术运营的朋友可能很容易理解，自己产品的直接用户日常抛出不看文档的愚蠢问题带来的困扰。对于密码学套件，这个问题还好办一些，毕竟如果在没有背景知识的情况下对API望文生义地一通调用，绝大多数情况下都会以抛异常形式告终；但还是有很多情况，API误用埋下的是长期隐患。不是所有API误用情形最终都有机会发展成为可利用的安全漏洞，但作为一个由人的因素引入的风险，这将长期存在并困扰软件供应链（虽然对安全研究者、黑客与白帽子是很欣慰的事情）。可惜，传统的白盒代码扫描能力，基于对代码语义的理解和构建，但是涉及到API则需要预先的抽象，这一点目前似乎仍然是需要人工干预的事情；或者轻量级一点的方案，可以case by case地分析，为所有可能被误用的API建模并单独扫描，这自然也有很强局限性。在一个很底层可信的开发者还对C标准库API存在误用的现实内，我们需要更多的思考才能说接下来的解法。 Ⅴ. 从规则到陷阱：NASA JIRA误配置致信息泄露血案软件的定义包括了代码组成的程序，以及相关的配置、文档等。当我们说软件的漏洞、风险时，往往只聚焦在其中的代码中；关于软件供应链安全风险，我们的比赛、前面分析的例子也都聚焦在了代码的问题；但是真正的威胁都来源于不可思议之处，那么代码之外有没有可能存在来源于上游的威胁呢？这里就借助实例来探讨一下，在“配置”当中可能栽倒的坑。引子：发不到500英里以外的邮件？让我们先从一个轻松愉快的小例子引入。这个例子初见于Linux中国的一篇译文。简单说，作者描述了这么一个让人啼笑皆非的问题：单位的邮件服务器发送邮件，发送目标距离本地500英里范围之外的一律失败，邮件就像悠悠球一样只能飞出一定距离。这个问题本身让描述者感到尴尬，就像一个技术人员被老板问到“为什么从家里笔记本上Ctrl-C后不能在公司台式机上Ctrl-V”一样。经过令人窒息的分析操作后，笔者定位到了问题原因：笔者作为负责的系统管理员，把SunOS默认安装的Senmail从老旧的版本5升级到了成熟的版本8，且对应于新版本诸多的新特性进行了对应配置，写入配置文件sendmail.cf；但第三方服务顾问在对单位系统进行打补丁升级维护时，将系统软件“升级”到了系统提供的最新版本，因此将Sendmail实际回退到了版本5，却为了软件行为一致性，原样保留了高版本使用的配置文件。但Sendmail并没有在大版本间保证配置文件兼容性，这导致很多版本5所需的配置项不存在于保留下来的sendmail.cf文件中，程序按默认值0处理；最终引起问题的就是，邮件服务器与接收端通信的超时时间配置项，当取默认配置值0时，邮件服务器在1个单位时间（约3毫秒）内没有收到网络回包即认为超时，而这3毫秒仅够电信号打来回飞出500英里。这个“故事”可能会给技术人员一点警醒，错误的配置会导致预期之外的软件行为，但是配置如何会引入软件供应链方向的安全风险呢？这就引出了下一个重磅实例。 JIRA配置错误致NASA敏感信息泄露案例我们都听过一个事情，马云在带队考察美国公司期间问Google CEO Larry Page自视谁为竞争对手，Larry的回答是NASA，因为最优秀的工程师都被NASA的梦想吸引过去了。由此我们显然能窥见NASA的技术水位之高，这样的人才团队大概至少是不会犯什么低级错误的。但也许需要重新定义“低级错误”……1月11日一篇技术文章披露，NASA某官网部署使用的缺陷跟踪管理系统JIRA存在错误的配置，可分别泄漏内部员工（JIRA系统用户）的全部用户名和邮件地址，以及内部项目和团队名称到公众，如下：问题的原因解释起来也非常简单：JIRA系统的过滤器和配置面板中，对于数据可见性的配置选项分别选定为All users和Everyone时，系统管理人员想当然地认为这意味着将数据对所有“系统用户”开放查看，但是JIRA的这两个选项的真实效果逆天，是面向“任意人”开放，即不限于系统登录用户，而是任何查看页面的人员。看到这里，我不厚道地笑了……“All users”并不意味着“All ‘users’”，意不意外，惊不惊喜？但是这种字面上把戏，为什么没有引起NASA工程师的注意呢，难道这样逆天的配置项没有在产品手册文档中加粗标红提示吗？本着为JIRA产品设计找回尊严的态度，我深入挖掘了一下官方说明，果然在Atlassian官方的一份confluence文档（看起来更像是一份增补的FAQ）中找到了相关说明：所有未登录访客访问时，系统默认认定他们是匿名anonymous用户，所以各种权限配置中的all users或anyone显然应该将匿名用户包括在内。在7.2及之后版本中，则提供了“所有登录用户”的选项。可以说是非常严谨且贴心了。比较讽刺的是，在我们的软件供应链安全大赛·C源代码赛季期间，我们设计圈定的恶意代码攻击目标还包括JIRA相关的敏感信息的窃取，但是却想不到有这么简单方便的方式，不动一行代码就可以从JIRA中偷走数据。软件的使用，你“配”吗？无论是开放的代码还是成型的产品，我们在使用外部软件的时候，都是处于软件供应链下游的消费者角色，为了要充分理解上游开发和产品的真实细节意图，需要我们付出多大的努力才够“资格”？上一章节我们讨论过源码使用中必要细节信息缺失造成的“API误用”问题，而软件配置上的“误用”问题则复杂多样得多。从可控程度上讨论，至少有这几种因素定义了这个问题： ·软件用户对必要配置的现有文档缺少了解。这是最简单的场景，但又是完全不可避免的，这一点上我们所有有开发、产品或运营角色经验的应该都曾经体会过向不管不顾用户答疑的痛苦，而所有软件使用者也可以反省一下对所有软件的使用是否都以完整细致的文档阅读作为上手的准备工作，所以不必多说。 ·软件拥有者对配置条目缺少必要明确说明文档。就JIRA的例子而言，将NASA工程师归为上一条错误有些冤枉，而将JIRA归为这条更加合适。在边角但重要问题上的说明通过社区而非官方文档形式发布是一种不负责任的做法，但未引发安全事件的情况下还有多少这样的问题被默默隐藏呢？我们没办法要求在使用软件之前所有用户将软件相关所有文档、社区问答实现全部覆盖。这个问题范围内一个代表性例子是对配置项的默认值以及对应效果的说明缺失。 ·配置文件版本兼容性带来的误配置和安全问题。实际上，上面的SunOS Sendmail案例足以点出这个问题的存在性，但是在真实场景下，很可能不会以这么戏剧性形式出现。在企业的系统运维中，系统的版本迭代常见，但为软件行为一致性，配置的跨版本迁移是不可避免的操作；而且软件的更新迭代也不只会由系统更新推动，还有大量出于业务性能要求而主动进行的定制化升级，对于中小企业基础设施建设似乎是一个没怎么被提及过的问题。 ·配置项组合冲突问题。尽管对于单个配置项可能明确行为与影响，但是特定的配置项搭配可能造成不可预知的效果。这完全有可能是由于开发者与用户在信息不对等的情况下产生：开发者认为用户应该具有必需的背景知识，做了用户应当具备规避配置冲突能力的假设。一个例子是，对称密码算法在使用ECB、CBC分组工作模式时，从密码算法上要求输入数据长度必须是分组大小的整倍数，但如果用户搭配配置了秘钥对数据不做补齐（nopadding），则引入了非确定性行为：如果密码算法库对这种组合配置按某种默认补齐方式操作数据则会引起歧义，但如果在算法库代码层面对这种组合抛出错误则直接影响业务。 ·程序对配置项处理过程的潜在暗箱操作。这区别于简单的未文档化配置项行为，仅特指可能存在的蓄意、恶意行为。从某种意义上，上述“All users”也可以认为是这样的一种陷阱，通过浅层次暗示，引导用户做出错误且可能引起问题的配置。另一种情况是特定配置组合情况下触发恶意代码的行为，这种触发条件将使恶意代码具有规避检测的能力，且在用户基数上具有一定概率的用户命中率。当然这种情况由官方开发者直接引入的可能性很低，但是在众包开发的情况下如果存在，那么扫描方案是很难检测的。 Ⅵ. 从逆流到暗流：恶意代码溯源后的挑战如果说前面所说的种种威胁都是面向关键目标和核心系统应该思考的问题，那么最后要抛出一个会把所有人拉进赛场的理由。除了前面所有那些在软件供应链下游被动污染受害的情况，还有一种情形：你有迹可循的代码，也许在不经意间会“反哺”到黑色产业链甚至特殊武器中；而现在研究用于对程序进行分析和溯源的技术，则会让你陷入百口莫辩的境地。案例：黑产代码模块溯源疑云 1月29日，猎豹安全团队发布技术分析通报文章《电信、百度客户端源码疑遭泄漏，驱魔家族窃取隐私再起波澜》，矛头直指黑产上游的恶意信息窃取代码模块，认定其代码与两方产品存在微妙的关联：中国电信旗下“桌面3D动态天气”等多款软件，以及百度旗下“百度杀毒”等软件（已不可访问）。文章中举证有三个关键点。首先最直观的，是三者使用了相同的特征字符串、私有文件路径、自定义内部数据字段格式；其次，在关键代码位置，三者在二进制程序汇编代码层面具有高度相似性；最终，在一定范围的非通用程序逻辑上，三者在经过反汇编后的代码语义上显示出明显的雷同，并提供了如下两图佐证（图片来源）：文章指出的涉事相关软件已经下线，对于上述样本文件的相似度试验暂不做复现，且无法求证存在相似、疑似同源的代码在三者中占比数据。对于上述指出的代码雷同现象，猎豹安全团队认为：我们怀疑该病毒模块的作者通过某种渠道(比如“曾经就职”)，掌握有中国电信旗下部分客户端/服务端源码，并加以改造用于制作窃取用户隐私的病毒，另外在该病毒模块的代码中，我们还发现“百度”旗下部分客户端的基础调试日志函数库代码痕迹，整个“驱魔”病毒家族疑点重重，其制作传播背景愈发扑朔迷离。这样的推断，固然有过于直接的依据（例如三款代码中均使用含有“baidu”字样的特征注册表项）；但更进一步地，需要注意到，三个样本在所指出的代码位置，具有直观可见的二进制汇编代码结构的相同，考虑到如果仅仅是恶意代码开发者先逆向另外两份代码后借鉴了代码逻辑，那么在面临反编译、代码上下文适配重构、跨编译器和选项的编译结果差异等诸多不确定环节，仍能保持二进制代码的雷同，似乎确实是只有从根本上的源代码泄漏（抄袭）且保持相同的开发编译环境才能成立。但是我们却又无法做出更明确的推断。这一方面当然是出于严谨避免过度解读；而从另一方面考虑，黑产代码的一个关键出发点就是“隐藏自己”，而这里居然如此堂而皇之地照搬了代码，不但没有进行任何代码混淆、变形，甚至没有抹除疑似来源的关键字符串，如果将黑产视为智商在线的对手，那这里背后是否有其它考量，就值得琢磨了。代码的比对、分析、溯源技术水准上文中的安全团队基于大量样本和粗粒度比对方法，给出了一个初步的判断和疑点。那么是否有可能获得更确凿的分析结果，来证实或证伪同源猜想呢？无论是源代码还是二进制，代码比对技术作为一种基础手段，在软件供应链安全分析上都注定仍然有效。在我们的软件供应链安全大赛期间，针对PE二进制程序类型的题目，参赛队伍就纷纷采用了相关技术手段用于目标分析，包括：同源性分析，用于判定与目标软件相似度最高的同软件官方版本；细粒度的差异分析，用于尝试在忽略编译差异和特意引入的混淆之外，定位特意引入的恶意代码位置。当然，作为比赛中针对性的应对方案，受目标和环境引导约束，这些方法证明了可行性，却难以保证集成有最新技术方案。那么做一下预言，在不计入情报辅助条件下，下一代的代码比对将能够到达什么水准？这里结合近一年和今年内，已发表和未发表的学术领域顶级会议的相关文章来简单展望： ·针对海量甚至全量已知源码，将可以实现准确精细化的“作者归属”判定。在ACM CCS‘18会议上曾发表的一篇文章《Large-Scale and Language-Oblivious Code Authorship Identification》，描述了使用RNN进行大规模代码识别的方案，在圈定目标开发者，并预先提供每个开发者的5-7份已知的代码文件后，该技术方案可以很有效地识别大规模匿名代码仓库中隶属于每个开发者的代码：针对1600个Google Code Jam开发者8年间的所有代码可以实现96%的成功识别率，而针对745个C代码开发者于1987年之后在GitHub上面的全部公开代码仓库，识别率也高达94.38%。这样的结果在当下的场景中，已经足以实现对特定人的代码识别和跟踪（例如，考虑到特定开发人员可能由于编码习惯和规范意识，在时间和项目跨度上犯同样的错误）；可以预见，在该技术方向上，完全可以期望摆脱特定已知目标人的现有数据集学习的过程，并实现更细粒度的归属分析，例如代码段、代码行、提交历史。 ·针对二进制代码，更准确、更大规模、更快速的代码主程序分析和同源性匹配。近年来作为一项程序分析基础技术研究，二进制代码相似性分析又重新获得了学术界和工业界的关注。在2018年和2019（已录用）的安全领域四大顶级会议上，每次都会有该方向最新成果的展示，如S&P‘2019上录用的《Asm2Vec: Boosting Static Representation Robustness for Binary Clone Search against Code Obfuscation and Compiler Optimization》，实现无先验知识的条件下的最优汇编代码级别克隆检测，针对漏洞库的漏洞代码检测可实现0误报、100%召回。而2018年北京HITB会议上，Google Project Zero成员、二进制比对工具BinDiff原始作者Thomas Dullien，探讨了他借用改造Google自家SimHash算法思想，用于针对二进制代码控制流图做相似性检测的尝试和阶段结果；这种引入规模数据处理的思路，也可期望能够在目前其他技术方案大多精细化而低效的情况下，为高效、快速、大规模甚至全量代码克隆检测勾出未来方案。 ·代码比对方案对编辑、优化、变形、混淆的对抗。近年所有技术方案都以对代码“变种”的检测有效性作为关键衡量标准，并一定程度上予以保证。上文CCS‘18论文工作，针对典型源代码混淆（如Tigress）处理后的代码，大规模数据集上可有93.42%的准确识别率；S&P‘19论文针对跨编译器和编译选项、业界常用的OLLVM编译时混淆方案进行试验，在全部可用的混淆方案保护之下的代码仍然可以完成81%以上的克隆检测。值得注意的是以上方案都并非针对特定混淆方案单独优化的，方法具有通用价值；而除此以外还有很多针对性的的反混淆研究成果可用；因此，可以认为在采用常规商用代码混淆方案下，即便存在隐藏内部业务逻辑不被逆向的能力，但仍然可以被有效定位代码复用和开发者自然人。代码溯源技术面前的“挑战” 作为软件供应链安全的独立分析方，健壮的代码比对技术是决定性的基石；而当脑洞大开，考虑到行业的发展，也许以下两种假设的情景，将把每一个“正当”的产品、开发者置于尴尬的境地。代码仿制在本章节引述的“驱魔家族”代码疑云案例中，黑产方面通过某种方式获得了正常代码中，功能逻辑可以被自身复用的片段，并以某种方法将其在保持原样的情况下拼接形成了恶意程序。即便在此例中并非如此，但这却暴露了隐忧：将来是不是有这种可能，我的正常代码被泄漏或逆向后出现在恶意软件中，被溯源后扣上黑锅？这种担忧可能以多种渠道和形式成为现实。从上游看，内部源码被人为泄漏是最简单的形式（实际上，考虑到代码的完整生命周期似乎并没有作为企业核心数据资产得到保护，目前实质上有没有这样的代码在野泄漏还是个未知数），而通过程序逆向还原代码逻辑也在一定程度上可获取原始代码关键特征。从下游看，则可能有多种方式将恶意代码伪造得像正常代码并实现“碰瓷”。最简单地，可以大量复用关键代码特征（如字符串，自定义数据结构，关键分支条件，数据记录和交换私有格式等）。考虑到在进行溯源时，分析者实际上不需要100%的匹配度才会怀疑，因此仅仅是仿造原始程序对于第三方公开库代码的特殊定制改动，也足以将公众的疑点转移。而近年来类似自动补丁代码搜索生成的方案也可能被用来在一份最终代码中包含有二方甚至多方原始代码的特征和片段。基于开发者溯源的定点渗透既然在未来可能存在准确将代码与自然人对应的技术，那么这种技术也完全可能被黑色产业利用。可能的忧患包括强针对性的社会工程，结合特定开发者历史代码缺陷的漏洞挖掘利用，联动第三方泄漏人员信息的深层渗透，等等。这方面暂不做联想展开。〇. 没有总结作为一场旨在定义“软件供应链安全”威胁的宣言，阿里安全“功守道”大赛将在后续给出详细的分解和总结，其意义价值也许会在一段时间之后才能被挖掘。但是威胁的现状不容乐观，威胁的发展不会静待；这一篇随笔仅仅挑选六个侧面做摘录分析，可即将到来的趋势一定只会进入更加发散的境地，因此这里，没有总结。本篇文章为转载内容。原文链接：https://blog.csdn.net/systemino/article/details/90114743。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-02-05 13:33:43

300

转载

Mahout

Mahout与Flink集成：解锁大数据分析与实时计算的新维度

一、引言 Mahout与Flink的完美融合在数据科学的领域里，Mahout和Flink都是不可或缺的利器。Mahout，一个开源的机器学习库，以其强大的算法库而闻名，尤其在推荐系统、聚类分析和协同过滤等领域有着广泛的应用。哎呀，你知道Flink这个家伙吗？这家伙可是个了不得的工具！它就像个超级英雄一样，专门负责处理那些海量的数据流，而且速度超快，延迟超低，简直就像闪电侠附体似的。用它来实时分析数据，那简直就是小菜一碟，分分钟搞定！当这两者相遇，一场数据处理的革命便悄然发生。二、Mahout的Flink接口功能概述 Mahout的Flink接口提供了丰富的功能，旨在将Mahout的机器学习能力与Flink的实时计算能力相结合，为用户提供更高效、更灵活的数据分析工具。以下是几个核心功能： 1. 实时推荐系统构建通过Flink流处理特性，Mahout可以实时处理用户行为数据，快速生成个性化推荐，提升用户体验。 2. 大规模聚类分析利用Flink的并行处理能力，Mahout能对大量数据进行高效聚类，帮助发现数据中的模式和结构。 3. 在线协同过滤 Flink接口允许Mahout实现在线协同过滤算法，实时更新用户偏好，提高推荐的准确性和时效性。 4. 数据流上的机器学习 Mahout的Flink接口支持在数据流上执行机器学习任务，如实时异常检测、预测模型更新等。三、代码示例构建实时推荐系统为了更好地理解Mahout的Flink接口如何工作，下面我们将构建一个简单的实时推荐系统。哎呀，这个玩意儿啊，它能根据你过去咋用它的样子，比如你点过啥，买过啥，然后啊，它就能实时给你推东西。就像是个超级贴心的朋友，老记着你的喜好，时不时给你点惊喜！ java import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class RealtimeRecommendationSystem { public static void main(String[] args) throws Exception { // 创建流处理环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 假设我们有一个实时事件流，包含用户ID和商品ID DataStream> eventStream = env.fromElements( Tuple2.of("user1", "itemA"), Tuple2.of("user2", "itemB"), Tuple2.of("user1", "itemC") ); // 使用Mahout的协同过滤算法进行实时推荐 DataStream> recommendations = eventStream.map(new MapFunction, Tuple2>() { @Override public Tuple2 map(Tuple2 value) { // 这里只是一个示例，实际应用中需要调用具体的协同过滤算法 return new Tuple2<>(value.f0, "recommendedItem"); } }); // 打印输出 recommendations.print(); // 执行任务 env.execute("Realtime Recommendation System"); } } 四、结论开启数据驱动的未来通过整合Mahout的机器学习能力和Flink的实时计算能力，开发者能够构建出响应迅速、高效精准的数据分析系统。无论是实时推荐、大规模聚类还是在线协同过滤，这些功能都为数据分析带来了新的可能。哎呀，随着科技这玩意儿越变越厉害，咱们能见到的新鲜事儿也是一波接一波。就像是魔法一样，数据这东西，现在能帮咱们推动业务发展，搞出不少新花样，让咱们的生意越来越红火，创意源源不断。简直就像开了挂一样！

2024-09-01 16:22:51

海阔天空

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

du -sh * - 在当前目录下查看所有文件和目录的大致大小。