...关于oneAPI性能分析的文章，详细比较了其与CUDA、OpenMP等传统并行编程模型在不同硬件环境下的性能表现。同时，关注GTC（GPU Technology Conference）等业界重要会议的最新报道，可了解包括英特尔在内的各大厂商在异构计算领域的最新研究成果和技术布局。例如，在最近的GTC大会上，有专家分享了基于oneAPI在自动驾驶、人工智能医疗影像处理等方面的应用案例，突显了oneAPI在实际项目中的强大适应性和灵活性。对于开发者来说，参与Intel Developer Zone社区或访问GitHub上的oneAPI示例代码库是持续跟进和学习的最佳途径之一，这里不仅有详尽的教程指导，还有众多开发者分享的一线实践经验，帮助你更好地掌握oneAPI，并将其应用于解决复杂计算问题和应对未来挑战。

2023-07-22 10:28:50

321

转载

ElasticSearch

elasticsearch与普通数据库在全文索引下的技术选择以及存储库&索引库的延伸

...kibana来展示和分析。展开来说，举个例子，你的app打印日志打印到了线上日志文件，当app出现故障你需要做定位筛查的时候，可能需要登录线上机器用grep命令各种查看。但如果你不差机器资源，可以搭建上述架构，app的日志会被收集到elasticsearch中，最终你可以在kibana中查看日志，kibana里面可以很方面的做各种筛查操作。这个流畅大概是这样的： 3.2 通用搜索场景但是没有上图的beats、logstash、kibana，elasticsearch可以自己工作吗？完全可以的！ elasticsearch也支持单机部署，数据规模不是很大的情况下，表现也是不错的。所以，你也不用担心因为自己机器资源不够而对elasticsearch望而却步。当然，单机部署的情况下，更多的适合自己玩，对于可靠性的要求就不能太苛刻了。如果你在用宝塔，那你可以在宝塔面板，左侧“软件商店”中直接找到elasticsearch，并“没有痛苦”的安装。本篇文章主要讨论选型，所以不涉及安装细节。 3.2.1 性能顾虑上面提到了“表现”，其实性能只是elasticsearch的一个方面，主要你的机器资源足够（机器资源？对，包括你的机器个数，elasticsearch可以非常方便的横向扩展，以及单机的配置，cpu+内存，内存越高越好，elasticsearch比较吃内存！），它一定会给你很好的性能反应。试想，公司里的app打印线上日志的行数其实可比一般业务系统产生的订单数量要大很多很多，elasticsearch都可以常在日志的实时分析，所以如果你要做通用场景，而且机器资源不是问题，这是完全行得通的。 3.2.2 易用性和可玩性此外，在使用elasticsearch的时候，会有很多的可玩性。这里不引经据典，呈现很多elasticsearch官方文章的列举优秀特性（当然，确实很优秀！）。这里举几个例子：（1）中文分词：第一章提到的其它引擎几乎很难实现，elasticsearch对分词器的支持是原生的，因为elasticsearch天生就为全文索引而生，elasticsearch的汉语名字就是“弹性搜索”。这家伙可是专门搞搜索的！有的朋友可能不了解分词器，比如你的一个字段里存储“今天我要吃冰激凌”，在分词器的加持下，es最终会存储为“今天|我|要|吃|冰激凌”，并且使用倒排索引的形式进行存储。当你搜索“冰激凌”的时候，可以很快的反馈回来。关于elasticsearch的原理，这里不展开说明，分词器和倒排索引是elasticsearch的最基本的概念。如果有不了解的朋友，可以自行百度一下。而且这两个概念，与elasticsearch其实不挂钩，是搜索中的通用概念。关于倒排索引，其核心表现如下图：如果你要用mysql、mongo实现中文分词，这......其实挺麻烦的，可能在后面的版本支持中会实现的很好，但在当前的流行版本中，它们对中文分词是不够友好的。 mysql5.7之后支持外挂第三方分词器，支持中文分词。而在数据量较大的情况下，mysql的多机器部署几乎很难实现，elasticsearch可以很容易的水平扩展。 mongo支持西方语言的分词，但不支持中文、日语、汉语等东方语言，你需要在自己的逻辑代码中实现分词器。 ngram分词，你看看效果：依旧是“今天我要吃冰激凌”，ngram二元分词后即将得到结果“今天、天我、我要、要吃、吃冰、冰激、激凌”。这....，那你搜索冰激凌就搜不出来！咋办呢，当然可以使用三元分词。但是更好的解决方案还是中文分词器，但它们原生并不支持的。（2）自定义排名场景：比如你的搜索“冰激凌”，结果中返回了有10条，这10条应该有你想对它指定的顺序。最简单的就是用默认的得分，但是如果你想人为干预这个得分怎么办？ elasticsearch支持function_score功能（可以不用，这个是增强功能），es会在计算最终得分之前回调这个你指定的function_score回调函数，传入原始得分、行的原始数据，你可以在里面做计算，比如查询其它参考表、或查看是否是广告位，以得到新的score返回给用户。 function_scrore的功能不展开描述，是一个在自定义得分场景下十分有用又简单易用的功能！下面是一个使用示例，不仅如此，它是支持自定义函数的，自由度非常高。（3）文本高亮：你用mysql或mongo也可以实现，比如用户搜索“冰激凌”，你只需要在逻辑代码中对“冰激凌”替换为“<span class='highlight-term'>冰激凌</span>”，然后前端做样式即可。但如果用户搜索了“好吃的冰激凌”咋办呢？还有就是英文大小写的场景，用户搜索"MAIN"，那结果及时匹配到了“main”（小写的），这个单词是否应该高亮呢？也许这时候你会用业务代码实现toLowerCase下基于位置下标的匹配。挺麻烦的吧，elasticsearch，自动可以返回高亮字段！并且可以自由指定高亮的html前后标签。（4）实在太多了....这家伙天生为索引而生，而且版本还在不断地迭代。不差机器的话，用用吧！ 4. 退而求其次 4.1 普通数据库尽管elasticsearch在搜索场景下，是非常好用的利器！但是它比较消耗机器资源，如果你的数据规模并不大，而且想快速实现功能。你可以使用mysql或mongo来代替，完全没有问题。技术是为了解决特定业务场景下的问题，结合当前手头的资源，适合自己的才是最好的。也许你搞了一个单机器的elasticsearch，单机器内存只有2G，它的表现并不会比mysql、mongo来的好。当然，如果你为了使用上边提到的一些优秀的独有的特性，那elasticsearch一定还是最佳选择！对于mysql（关系型数据库）和mongo（文档数据库）的区别这里不展开描述了，但对于搜索而言，两种都合适。有时候选型也不用很纠结，其实都是差不太多的东西，适合自己的、自己熟悉的、运维起来顺手的，就是最好的。 4.2 普通数据库实现中文分词搜索的原理尽管mysql在5.7以后支持外挂第三方分词器，mongo在截止目前的版本中也不支持中文分词（你可能会看到一些文章中说可以指定language为chinese，但其实会报错的）。其实当你选择普通数据库，你就不得不在逻辑代码中自己实现一套索引分词+搜索分词逻辑。索引分词+搜索分词？为什么分开写，如果你有用过elasticsearch或solr，你会知道，在指定字段的时候，需要指定index分词器和search分词器。下面以mongo为例做简要说明。 4.2.1 index分词器意思是当数据“索引”截断如何分词。首先，这里必须要承认，数据之后存储了，才能被查询。在搜索中，这句话可以换成是“数据只有被索引了，才能被搜索”。这时候请求打过来了，要索引一条数据，其中某字段是“今天我要吃冰激凌”，分词后得到“今天|我|要|吃|冰激凌”，这个就可以入库了。如果你使用elasticsearch或solr，这个过程是自动的。如果你使用不支持外观分词器的常规数据库，这个过程你就要手动了，并把分词后的结果用空格分开（最好使用空格，因为西方语言的分词规则就是按空格拆分，以及逗号句号），存入数据库的一个待搜索的字段上。效果如下图：本站的其它博文中有介绍IKAnalyzer：https://www.52itw.com/java/6268.html 4.2.2 search分词器当用户的查询请求打过来，用户输入了“好吃的冰激凌”，分词后得到“好吃|冰激凌”（“的”作为停用词stopwords，被自动忽略了，IKAnalyzer可以指定停用词表）。于是这时候就回去上图的数据库表里面搜索“好吃冰激凌”（与index分词器结果统一，还是用空格分隔）。当然，对于mongo而言，你需要事先开启全文索引db.xxx.ensureIndex({content: "text"})，xxx是集合名，content是字段名，text是全文索引的标识。 mongo搜索的时候用这个语法：db.xxx.find( { $text: { $search: "好吃冰激凌" } },{ score: { $meta: "textScore" } }).sort( { score: { $meta: "textScore" } } ) 4.2.3 索引库和存储库分开为了减少单表的大小，为了让普通的列表查询、普通筛选可以跑的更快，你可以对原有的数据原封不动的做一张表。然后对于搜索场景，再单独对需要被搜索的字段单独拎一张表出来！然后二者之间做增量信号同步或定时差额同步，可能会有延迟，这个就看你能容忍多长时间（悄悄告诉你，elasticsearch也需要指定这个refresh时间，一般是1s到几秒、甚至分钟级。当然，二者的这个时间对饮的底层目的是不一样的）。这样，搜索的时候先查询搜索库，拿到一个指针id的列表，然后拿到指针id的列表区存储里把数据一次性捞出来。当然，也是支持分页的，你查询搜索库其实也是普通的数据库查询嘛，支持分页参数的。 4.3 存储库和索引库的延伸阅读很多有名的开源软件也是使用的存储库与索引库分离的技术方案，如apache atlas： apache atlas对于大数据领域的数据资产元数据管理、数据血缘上可谓是专家，也涉及资产搜索的特性，它的实现思路就是：从搜索库中做搜索、拿到key、再去存储库中做查询。搜索库：上图右下角，可以看到使用的是elasticsearch、solr或lucene，多个选一个存储库：上图左下角，可以看到使用的是Cassandra、HBase或BerkeleyDB，多个选一个虽然apache atlas在只有搜索库或只有存储库的时候也可以很好的工作，但只针对于数据量并不大的场景。搜索库，擅长搜索！存储库，擅长海量存储！搜索库多样化搜索，然后去存储库做点查。当你的数据达到海量的时候，es+hbase也是一种很好的解决方案，不在这里展开说明了。

2024-01-27 17:49:04

537

admin-tim

转载文章

[转载]Codeforces Round #712 (Div. 2)-ABC

...。例如，在DNA序列分析中，回文结构往往关联着基因调控的重要区域；在密码学中，特定类型的回文串可用于构建加密算法的关键部分。深入理解并熟练掌握回文串的相关性质及处理方法，无疑有助于我们在这些领域取得更多的技术突破。总之，从基础的编程题出发，我们可以洞察到字符串处理与算法优化在前沿科研和实际应用中的深远影响。通过持续关注和学习此类问题的最新研究成果与应用案例，我们能够不断提升自身的算法设计和问题解决能力。

2023-10-05 13:54:12

228

转载

转载文章

[转载]python描述_Python描述符（Descriptor）入门

...啊这次我来写一下 Python 一个很重要的东西，即 Descriptor (描述符) 初识描述符老规矩， Talk is cheap,Show me the code. 我们先来看看一段代码classPerson(object): """""" ---------------------------------------------------------------------- def__init__(self, first_name, last_name): """Constructor""" self.first_name = first_name self.last_name = last_name ---------------------------------------------------------------------- @property deffull_name(self): """ Return the full name """ return"%s %s"% (self.first_name, self.last_name) if__name__=="__main__": person = Person("Mike","Driscoll") print(person.full_name) 'Mike Driscoll' print(person.first_name) 'Mike' 这段代大家肯定很熟悉，恩， property 嘛，谁不知道呢，但是 property 的实现机制大家清楚么？什么不清楚？那还学个毛的 Python 啊。。。开个玩笑，我们看下面一段代码classProperty(object): "Emulate PyProperty_Type() in Objects/descrobject.c" def__init__(self, fget=None, fset=None, fdel=None, doc=None): self.fget = fget self.fset = fset self.fdel = fdel ifdocisNoneandfgetisnotNone: doc = fget.__doc__ self.__doc__ = doc def__get__(self, obj, objtype=None): ifobjisNone: returnself ifself.fgetisNone: raiseAttributeError("unreadable attribute") returnself.fget(obj) def__set__(self, obj, value): ifself.fsetisNone: raiseAttributeError("can't set attribute") self.fset(obj, value) def__delete__(self, obj): ifself.fdelisNone: raiseAttributeError("can't delete attribute") self.fdel(obj) defgetter(self, fget): returntype(self)(fget, self.fset, self.fdel, self.__doc__) defsetter(self, fset): returntype(self)(self.fget, fset, self.fdel, self.__doc__) defdeleter(self, fdel): returntype(self)(self.fget, self.fset, fdel, self.__doc__) 看起来是不是很复杂，没事，我们来一步步的看。不过这里我们首先给出一个结论： Descriptors 是一种特殊的对象，这种对象实现了 __get__ ， __set__ ， __delete__ 这三个特殊方法。详解描述符说说 Property 在上文，我们给出了 Propery 实现代码，现在让我们来详细说说这个classPerson(object): """""" ---------------------------------------------------------------------- def__init__(self, first_name, last_name): """Constructor""" self.first_name = first_name self.last_name = last_name ---------------------------------------------------------------------- @Property deffull_name(self): """ Return the full name """ return"%s %s"% (self.first_name, self.last_name) if__name__=="__main__": person = Person("Mike","Driscoll") print(person.full_name) 'Mike Driscoll' print(person.first_name) 'Mike' 首先，如果你对装饰器不了解的话，你可能要去看看这篇文章，简而言之，在我们正式运行代码之前，我们的解释器就会对我们的代码进行一次扫描，对涉及装饰器的部分进行替换。类装饰器同理。在上文中，这段代码@Property deffull_name(self): """ Return the full name """ return"%s %s"% (self.first_name, self.last_name) 会触发这样一个过程，即 full_name=Property(full_name) 。然后在我们后面所实例化对象之后我们调用 person.full_name 这样一个过程其实等价于 person.full_name.__get__(person) 然后进而触发 __get__() 方法里所写的 return self.fget(obj) 即原本上我们所编写的 def full_name 内的执行代码。这个时候，同志们可以去思考下 getter() , setter() ,以及 deleter() 的具体运行机制了=。=如果还是有问题，欢迎在评论里进行讨论。关于描述符还记得之前我们所提到的一个定义么： Descriptors 是一种特殊的对象，这种对象实现了 __get__ ， __set__ ， __delete__ 这三个特殊方法。然后在 Python 官方文档的说明中，为了体现描述符的重要性，有这样一段话：“They are the mechanism behind properties, methods, static methods, class methods, and super(). They are used throughout Python itself to implement the new style classes introduced in version 2.2. ” 简而言之就是先有描述符后有天，秒天秒地秒空气。恩，在新式类中，属性，方法调用，静态方法，类方法等都是基于描述符的特定使用。 OK，你可能想问，为什么描述符是这么重要呢？别急，我们接着看使用描述符首先请看下一段代码 classA(object):注：在 Python 3.x 版本中，对于 new class 的使用不需要显式的指定从 object 类进行继承，如果在 Python 2.X(x>2)的版本中则需要defa(self): pass if__name__=="__main__": a=A() a.a() 大家都注意到了我们存在着这样一个语句 a.a() ，好的，现在请大家思考下，我们在调用这个方法的时候发生了什么？ OK？想出来了么？没有？好的我们继续首先我们调用一个属性的时候，不管是成员还是方法，我们都会触发这样一个方法用于调用属性 __getattribute__() ,在我们的 __getattribute__() 方法中，如果我们尝试调用的属性实现了我们的描述符协议，那么会产生这样一个调用过程 type(a).__dict__['a'].__get__(b,type(b)) 。好的这里我们又要给出一个结论了：“在这样一个调用过程中，有这样一个优先级顺序，如果我们所尝试调用属性是一个 data descriptors ，那么不管这个属性是否存在我们的实例的 __dict__ 字典中，优先调用我们描述符里的 __get__ 方法，如果我们所尝试调用属性是一个 non data descriptors ，那么我们优先调用我们实例里的 __dict__ 里的存在的属性，如果不存在，则依照相应原则往上查找我们类，父类中的 __dict__ 中所包含的属性，一旦属性存在，则调用 __get__ 方法，如果不存在则调用 __getattr__() 方法”。理解起来有点抽象？没事，我们马上会讲，不过在这里，我们先要解释下 data descriptors 与 non data descriptors ，再来看一个例子。什么是 data descriptors 与 non data descriptors 呢？其实很简单，在描述符中同时实现了 __get__ 与 __set__ 协议的描述符是 data descriptors ，如果只实现了 __get__ 协议的则是 non data descriptors 。好了我们现在来看个例子：importmath classlazyproperty: def__init__(self, func): self.func = func def__get__(self, instance, owner): ifinstanceisNone: returnself else: value = self.func(instance) setattr(instance, self.func.__name__, value) returnvalue classCircle: def__init__(self, radius): self.radius = radius pass @lazyproperty defarea(self): print("Com") returnmath.pi self.radius 2 deftest(self): pass if__name__=='__main__': c=Circle(4) print(c.area) 好的，让我们仔细来看看这段代码，首先类描述符 @lazyproperty 的替换过程，前面已经说了，我们不在重复。接着，在我们第一次调用 c.area 的时候，我们首先查询实例 c 的 __dict__ 中是否存在着 area 描述符，然后发现在 c 中既不存在描述符，也不存在这样一个属性，接着我们向上查询 Circle 中的 __dict__ ，然后查找到名为 area 的属性，同时这是一个 non data descriptors ，由于我们的实例字典内并不存在 area 属性，那么我们便调用类字典中的 area 的 __get__ 方法，并在 __get__ 方法中通过调用 setattr 方法为实例字典注册属性 area 。紧接着，我们在后续调用 c.area 的时候，我们能在实例字典中找到 area 属性的存在，且类字典中的 area 是一个 non data descriptors ，于是我们不会触发代码里所实现的 __get__ 方法，而是直接从实例的字典中直接获取属性值。描述符的使用描述符的使用面很广，不过其主要的目的在于让我们的调用过程变得可控。因此我们在一些需要对我们调用过程实行精细控制的时候，使用描述符，比如我们之前提到的这个例子classlazyproperty: def__init__(self, func): self.func = func def__get__(self, instance, owner): ifinstanceisNone: returnself else: value = self.func(instance) setattr(instance, self.func.__name__, value) returnvalue def__set__(self, instance, value=0): pass importmath classCircle: def__init__(self, radius): self.radius = radius pass @lazyproperty defarea(self, value=0): print("Com") ifvalue ==0andself.radius ==0: raiseTypeError("Something went wring") returnmath.pi value 2ifvalue !=0elsemath.pi self.radius 2 deftest(self): pass 利用描述符的特性实现懒加载，再比如，我们可以控制属性赋值的值classProperty(object): "Emulate PyProperty_Type() in Objects/descrobject.c" def__init__(self, fget=None, fset=None, fdel=None, doc=None): self.fget = fget self.fset = fset self.fdel = fdel ifdocisNoneandfgetisnotNone: doc = fget.__doc__ self.__doc__ = doc def__get__(self, obj, objtype=None): ifobjisNone: returnself ifself.fgetisNone: raiseAttributeError("unreadable attribute") returnself.fget(obj) def__set__(self, obj, value=None): ifvalueisNone: raiseTypeError("You cant to set value as None") ifself.fsetisNone: raiseAttributeError("can't set attribute") self.fset(obj, value) def__delete__(self, obj): ifself.fdelisNone: raiseAttributeError("can't delete attribute") self.fdel(obj) defgetter(self, fget): returntype(self)(fget, self.fset, self.fdel, self.__doc__) defsetter(self, fset): returntype(self)(self.fget, fset, self.fdel, self.__doc__) defdeleter(self, fdel): returntype(self)(self.fget, self.fset, fdel, self.__doc__) classtest(): def__init__(self, value): self.value = value @Property defValue(self): returnself.value @Value.setter deftest(self, x): self.value = x 如上面的例子所描述的一样，我们可以判断所传入的值是否有效等等。以上就是Python 描述符(Descriptor)入门，更多相关文章请关注PHP中文网(www.gxlcms.com)！本条技术文章来源于互联网，如果无意侵犯您的权益请点击此处反馈版权投诉本文系统来源：php中文网本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_39736934/article/details/112888600。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-05-07 19:03:49

转载

Mongo

MongoDB大规模数据集并行处理：键值对与NoSQL技术实操

...那叫一个高啊！无论是分析市场趋势、优化业务流程还是挖掘用户行为，MapReduce都成了我们的好帮手，让我们的工作变得更轻松，效率也蹭蹭往上涨！本文将带你深入了解MongoDB中的MapReduce，从基础概念到实际应用，再到优化策略，一步步带你掌握这门技术。 1. MapReduce的基础概念 MapReduce是一种编程模型，用于大规模数据集的并行运算。在MongoDB中，我们可以通过map()和reduce()函数实现数据的分组、转换和聚合。基本流程如下： - Map阶段：数据被分割成多个分片，每个分片经过map()函数处理，产生键值对形式的数据流。 - Shuffle阶段：键相同的数据会被合并在一起，为reduce()阶段做准备。 - Reduce阶段：针对每个键，执行reduce()函数，合并所有相关值，产生最终的结果集。 2. MongoDB中的MapReduce实践为了让你更好地理解MapReduce在MongoDB中的应用，下面我将通过一个具体的例子来展示如何使用MapReduce处理数据。示例代码：假设我们有一个名为sales的集合，其中包含销售记录，每条记录包含product_id和amount两个字段。我们的目标是计算每个产品的总销售额。 javascript // 首先，我们定义Map函数 db.sales.mapReduce( function() { // 输出键为产品ID，值为销售金额 emit(this.product_id, this.amount); }, function(key, values) { // 将所有销售金额相加得到总销售额 var total = 0; for (var i = 0; i < values.length; i++) { total += values[i]; } return total; }, { "out": { "inline": 1, "pipeline": [ {"$group": {"_id": "$_id", "total_sales": {$sum: "$value"} }} ] } } ); 这段代码首先通过map()函数将每个销售记录映射到键为product_id和值为amount的键值对。哎呀，这事儿啊，就像是这样：首先，你得有个列表，这个列表里头放着一堆商品，每一项商品下面还有一堆数字，那是各个商品的销售价格。然后，咱们用一个叫 reduce() 的魔法棒来处理这些数据。这个魔法棒能帮咱们把每一样商品的销售价格加起来，就像数钱一样，算出每个商品总共卖了多少钱。这样一来，我们就能知道每种商品的总收入啦！哎呀，你懂的，我们用out这个参数把结果塞进了一个临时小盒子里面。然后，我们用$group这个魔法棒，把数据一通分类整理，看看哪些地方数据多，哪些地方数据少，这样就给咱们的数据做了一次大扫除，整整齐齐的。 3. 性能优化与注意事项在使用MapReduce时，有几个关键点需要注意，以确保最佳性能： - 数据分区：合理的数据分区可以显著提高MapReduce的效率。通常，我们会根据数据的分布情况选择合适的分区策略。 - 内存管理：MapReduce操作可能会消耗大量内存，特别是在处理大型数据集时。合理设置maxTimeMS选项，限制任务运行时间，避免内存溢出。 - 错误处理：在实际应用中，处理潜在的错误和异常情况非常重要。例如，使用try-catch块捕获并处理可能出现的异常。 4. 进阶技巧与高级应用对于那些追求更高效率和更复杂数据处理场景的开发者来说，以下是一些进阶技巧： - 使用索引：在Map阶段，如果数据集中有大量的重复键值对，使用索引可以在键的查找过程中节省大量时间。 - 异步执行：对于高并发的应用场景，可以考虑将MapReduce操作异步化，利用MongoDB的复制集和分片集群特性，实现真正的分布式处理。结语 MapReduce在MongoDB中的应用，为我们提供了一种高效处理大数据集的强大工具。哎呀，看完这篇文章后，你可不光是知道了啥是MapReduce，啥时候用，还能动手在自己的项目里把MapReduce用得溜溜的！就像是掌握了新魔法一样，你学会了怎么给这玩意儿加点料，让它在你的项目里发挥出最大效用，让工作效率蹭蹭往上涨！是不是感觉整个人都精神多了？这不就是咱们追求的效果嘛！嘿，兄弟！听好了，掌握新技能最有效的办法就是动手去做，尤其是像MapReduce这种技术。别光看书上理论，找一个你正在做的项目，大胆地将MapReduce实践起来。你会发现，通过实战，你的经验会大大增加，对这个技术的理解也会更加深入透彻。所以，行动起来吧，让自己的项目成为你学习路上的伙伴，你肯定能从中学到不少东西！让我们继续在数据处理的旅程中探索更多可能性！

2024-08-13 15:48:45

148

柳暗花明又一村

转载文章

[转载]浅谈Linux内核RCU机制原理

...d）{if （！debug_lockdep_rcu_enabled（））return 1;if （rcu_is_cpu_idle（））return 0;if （！rcu_lockdep_current_cpu_online（））return 0;return lock_is_held（&rcu_lock_map）;} 这段代码中加入了调试信息，去除调试信息，可以是以下的形式（其实这也是旧版本中的代码）： define rcu_dereference（p）（{ \typeof（p） _________p1 = p; \smp_read_barrier_depends（）; \（_________p1）; \}）在赋值后加入优化屏障smp_read_barrier_depends（）。我们之前的第四行代码改为 foo fp = rcu_dereference（gbl_foo）;，就可以防止上述问题。数据读取的完整性还是通过例子来说明这个问题：如图我们在原list中加入一个节点new到A之前，所要做的第一步是将new的指针指向A节点，第二步才是将Head的指针指向new。这样做的目的是当插入操作完成第一步的时候，对于链表的读取并不产生影响，而执行完第二步的时候，读线程如果读到new节点，也可以继续遍历链表。如果把这个过程反过来，第一步head指向new，而这时一个线程读到new，由于new的指针指向的是Null，这样将导致读线程无法读取到A，B等后续节点。从以上过程中，可以看出RCU并不保证读线程读取到new节点。如果该节点对程序产生影响，那么就需要外部调用来做相应的调整。如在文件系统中，通过RCU定位后，如果查找不到相应节点，就会进行其它形式的查找，相关内容等分析到文件系统的时候再进行叙述。我们再看一下删除一个节点的例子：如图我们希望删除B，这时候要做的就是将A的指针指向C，保持B的指针，然后删除程序将进入宽限期检测。由于B的内容并没有变更，读到B的线程仍然可以继续读取B的后续节点。B不能立即销毁，它必须等待宽限期结束后，才能进行相应销毁操作。由于A的节点已经指向了C，当宽限期开始之后所有的后续读操作通过A找到的是C，而B已经隐藏了，后续的读线程都不会读到它。这样就确保宽限期过后，删除B并不对系统造成影响。小结 RCU的原理并不复杂，应用也很简单。但代码的实现确并不是那么容易，难点都集中在了宽限期的检测上，后续分析源代码的时候，我们可以看到一些极富技巧的实现方式。本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_50662680/article/details/128449401。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-09-25 09:31:10

105

转载

转载文章

[转载]新生代 IT 农民工诞生：月均收入 10571 元

...读：世界的真实格局分析，地球人类社会底层运行原理不是你需要中台，而是一名合格的架构师（附各大厂中台建设PPT）企业IT技术架构规划方案论数字化转型——转什么，如何转？华为干部与人才发展手册（附PPT）企业10大管理流程图，数字化转型从业者必备！【中台实践】华为大数据中台架构分享.pdf 华为的数字化转型方法论华为如何实施数字化转型（附PPT）超详细280页Docker实战文档！开放下载华为大数据解决方案（PPT）本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_45727359/article/details/119745674。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-28 17:16:54

转载

转载文章

[转载]关于SysinternalsSuite全部工具详解

...可以帮助您管理、故障分析和诊断你的Windows系统和应用程序. 如果您有关于如何使用这些工具的问题,请访问sysinternals论坛从其他用户和我们的团队获取解答和帮助. 该工具包括： AccessChk 　　这个工具为您显示指定至档案、登录机码或 Windows 服务的使用者或群组之存取。　　AccessEnum 　　这个简单又具有超高安全性的工具，会让您知道拥有对您系统目录、档案及登录机码的存取之对象和方式。用它来寻找您权限下的安全性漏洞。　　AdRestore 　　取消删除 Server 2003 Active Directory 物件。　　BgInfo 　　这个可完全设定的程式，会自动产生包括含有 IP 位址、电脑名称，和网路介面卡等等重要资讯的桌面背景。　　BlueScreen 　　这个萤幕保护程式不只将「蓝色萤幕」(Blue Screens) 模仿得维妙维肖，也能模仿重新开机 (需使用 CHKDSK 完成)，而且在 Windows NT 4、Windows 2000、Windows XP、Server 2003 和 Windows 9x 中皆能执行。　　CacheSet 　　CacheSet 是一种能让您使用 NT 提供的功能来控制 Cache Manager 的工作组大小。除了和 NT 所有版本相容之外，还提供原始程式码。　　检视系统时钟的解析度，同时也是计时器解析度的最大值。　　Contig 　　希望能够快速地将常用的档案进行磁碟重组吗？使用 Contig 最佳化个别档案，或是建立新的连续档案。　　Ctrl2cap 　　这是一种核心模式驱动程式，展示键盘输入筛选只在键盘类别驱动程式之上，目的是为了将大写锁定按键转换至控制按键。这个层级的筛选允许在 NT 「发现」按键之前，先进行转换和隐藏按键。包括完整的来源。此外，Ctrl2cap 还会显示如何使用 NtDisplayString() 将讯息列印至初始化的蓝色萤幕。　　DebugView 　　Sysinternals 的另一个首开先例：这个程式会拦截分别由 DbgPrint 利用装置驱动程式，和 OutputDebugString 利用 Win32 程式所做的呼叫。它能够在您的本机上或跨往际往路，在不需要作用中的侦错工具情况下，检视和录制侦错工作阶段输出。　　DiskExt 　　显示磁碟区磁碟对应。　　Diskmon 　　这个公用程式会撷取全部的硬碟活动，或是提供系统匣中的软体磁碟活动指示器的功能。　　DiskView 　　图形化磁区公用程式。　　Du 　　依目录检视磁碟使用状况。　　EFSDump 　　检视加密档案的资讯。　　Filemon 　　这个监控工具让您即时检视所有档案系统的活动。　　Handle 　　这个易於操纵的命令列公用程式能够显示档案开启的种类和使用的处理程序等更多资讯。　　Hex2dec 　　十六进位数字和十进位数字相互转换。　　Junction 　　建立 Win2K NTFS 符号连结。　　LDMDump 　　倾印逻辑磁碟管理员的磁碟上之资料库内容，其中描述 Windows 2000 动态磁碟分割。　　ListDLLs 　　列出所有目前载入的 DLL，包括载入位置和他们的版本编号。2.0 版列印载入模组的完整路径名称。　　LiveKd 　　使用 Microsoft 核心侦错工具检视即时系统。　　LoadOrder 　　检视在您 WinNT/2K 系统上载入装置的顺序。　　LogonSessions 　　列出系统上的作用中登入工作阶段。　　MoveFile 　　允许您对下一次开机进行移动和删除命令的排程。　　NTFSInfo 　　使用 NTFSInfo 检视详细的 NTFS 磁碟区资讯，包括主档案表格 (MFT) 和 MFT 区的大小和位置，还有 NTFS 中继资料档案的大小。　　PageDefrag 　　将您的分页档和登录 Hive 进行磁碟重组。　　PendMoves 　　列举档案重新命名的清单，删除下次开机将会执行的命令。　　Portmon 　　使用这个进阶的监视工具进行监视序列和平行连接埠活动。它不仅掌握所有标准的序列和平行 IOCTL，甚至会显示传送和接收的资料部份。Version 3.x 具有强大的新 UI 增强功能和进阶的筛选功能。　　Process Monitor 　　即时监控档案系统、登录、程序、执行绪和 DLL 活动。 procexp 任务管理器，这个管理器比windows自带的管理器要强大方便的很多，建议替换自带的任务管理器（本人一直用这个管理器，很不错）。此工具也有汉化版，fans可以自己搜索下载　　ProcFeatures 　　这个小应用程式会描述「实体位址扩充」的处理器和 Windows 支援，而没「没有执行」缓冲区溢位保护。　　PsExec 　　以有限的使用者权限执行处理程序。　　PsFile 　　检视远端开启档案有哪些。　　PsGetSid 　　显示电脑或使用者的 SID。　　PsInfo 　　取得有关系统的资讯。　　PsKill 　　终止本机或远端处理程序。　　PsList 　　显示处理程序和执行绪的相关资讯。　　PsLoggedOn 　　显示使用者登录至一个系统。　　PsLogList 　　倾印事件记录档的记录。　　PsPasswd 　　变更帐户密码。　　PsService 　　检视及控制服务。　　PsShutdown 　　关机及选择重新启动电脑。　　PsSuspend 　　暂停及继续处理程序。　　PsTools 　　PsTools 产品系列包括命令列公用程式，其功能有列出在本机或远端电脑上执行的处理程序、远端执行的处理程序、重新开机的电脑和倾印事件记录等等。　　RegDelNull 　　扫描并删除登录机码，这些登录机码包括了标准登录编辑工具无法删除的内嵌式 Null 字元。　　RegHide 　　建立名为 "HKEY_LOCAL_MACHINE\Software\Sysinternals\Can't touch me!\0" 并使用原生 API 的金钥，而且会在此金钥内建立一个值。　　Regjump 　　跳至您在 Regedit 中指定的登录路径。　　Regmon 　　这个监视工具让您即时看到全部的登录活动。　　RootkitRevealer 　　扫描您系统上 Rootkit 为基础的恶意程式码。　　SDelete 　　以安全的方法覆写您的机密档案，并且清除因先前使用这个 DoD 相容安全删除程式所删除档案後而释放的可用空间。包括完整的原始程式码。　　ShareEnum 　　扫描网路上档案共用并检视其安全性设定，来关闭安全性漏洞。　　Sigcheck 　　倾印档案版本资讯和验证系统上的影像皆已完成数位签章。　　Strings 　　搜寻 binaryimages 中的 ANSI 和 UNICODE 字串。　　Sync 　　将快取的资料清除至磁碟。　　 TCPView 　　作用中的通讯端命令列检视器。　　VolumeId 　　设定 FAT 或 NTFS 磁碟区 ID。　　Whois 　　看看谁拥有一个网际网路位址。　　Winobj 　　最完整的物件管理员命名空间检视器在此。　　ZoomIt 　　供萤幕上缩放和绘图的简报公用程式。转自：http://www.360doc.com/content/15/0323/06/20545288_457293504.shtml 本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_33515088/article/details/80721846。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-22 15:44:41

102

转载

Nacos

Nacos读不到配置文件？排查路径权限+网络连接终解决

...户端的源码，开始逐行分析。在Nacos客户端的实现中，有一个方法是用来获取配置的： java String content = configService.getConfig(dataId, group, timeoutMs); 我仔细检查了这个方法的调用点，发现它是在服务启动时被调用的。你瞧，服务一启动呢，就会加载一堆东西，像数据库连接池啦，缓存配置啦，各种各样的“装备”都得准备好，这样它才能顺利开工干活呀！ “会不会是某个配置项的加载顺序影响了Nacos的读取？”我突然想到这一点。我琢磨着这事儿，干脆把所有的配置加载顺序仔仔细细捋了一遍，就为了确保Nacos的配置能在服务刚启动的时候就给安排上，别拖到后面出了幺蛾子。同时，我还加强了异常处理逻辑，给Nacos的读取操作加上了try-catch块，以便捕获具体的异常信息： java try { String content = configService.getConfig(dataId, group, timeoutMs); System.out.println("Config loaded successfully: " + content); } catch (NacosException e) { System.err.println("Failed to load config: " + e.getMessage()); } 经过一番调整后，我再次启动服务，终于看到了一条令人振奋的消息：“Config loaded successfully”。 “太好了！”我长舒一口气，“原来问题就出在这里啊。” --- 五、总结与感悟经过这次折腾，我对Nacos有了更深的理解。Nacos这东西确实挺牛的，是个超棒的配置管理工具，但用着用着你会发现，它也不是完美无缺的，各种小问题啊、坑啊，时不时就冒出来折腾你一下。其实吧，这些问题真不一定是Nacos自己惹的祸，八成是咱们的代码写得有点问题，或者是环境配错了，带偏了Nacos。 “其实啊，调试的过程就像侦探破案一样，需要耐心和细心。我坐在电脑前忍不住感慨：“哎，有时候觉得这问题看起来平平无奇的，可谁知道背后可能藏着啥惊天大秘密呢！”” 总之，这次经历让我明白了一个道理：遇到问题不要慌，要冷静分析，逐步排查。只有这样，才能找到问题的根本原因，解决问题。希望我的经验能对大家有所帮助，如果有类似的问题，不妨按照这个思路试试看！

2025-04-06 15:56:57

清风徐来

.net

DI容器配置错误导致的生命周期管理问题及服务注册解耦单元测试隐患

...了一篇深度解读文章，分析了国内企业在采用DI模式时面临的挑战，特别是如何平衡灵活性与稳定性之间的关系。文章指出，尽管DI能够显著改善代码结构，但在实际落地过程中仍需谨慎权衡，尤其是在高并发场景下，不恰当的配置可能导致资源浪费甚至系统崩溃。综上所述，无论是国际巨头还是本土企业，都在积极拥抱依赖注入技术，并探索适合自身需求的最佳实践。对于开发者而言，持续关注行业动态和技术演进，及时调整学习方向，无疑是保持竞争力的关键所在。

2025-05-07 15:53:50

夜色朦胧

转载文章

[转载]容器编排技术 -- Kubernetes 给容器和Pod分配内存资源

...原理，并结合实际场景分析了如何根据应用程序特性和业务需求合理设置内存请求和限制，以实现资源的有效利用和成本控制。同时，文中还引用了Google Borg论文中的经典研究，揭示了大规模分布式系统内存资源调度的复杂性及其解决方案在Kubernetes设计中的体现。对于希望进一步提升Kubernetes集群资源管理能力的用户，可以关注一些业内知名的案例研究，例如Netflix如何借助Kubernetes进行大规模服务部署时的内存优化策略。这些实战经验不仅有助于理解理论知识，还能指导读者在实际环境中运用和调整内存配置，从而最大化资源使用效率，降低运维风险。总之，随着Kubernetes生态系统的持续发展和容器技术的日臻完善，不断跟进最新的内存管理实践与研究动态，将助力企业和开发者更好地驾驭这一强大的容器编排工具，构建高效、稳定的云原生架构。

2023-12-23 12:14:07

494

转载

Apache Lucene

文本检索挑战：从Lucene的EOFException剖析分词器与分析器配置

... 第二部分：深入分析 EOFException 的原因与解决策略在实际应用中，EOFException 通常意味着 TokenStream 已经到达了文本的结尾，这可能是由于以下原因： - 文本过短：如果输入的文本长度不足以产生足够的令牌，TokenStream 可能会过早地报告结束。 - 解析问题：在复杂的文本结构下，解析器可能未能正确地分割文本，导致部分文本未被识别为有效的令牌。为了应对这种情况，我们可以采取以下策略： - 增加文本长度：确保输入的文本足够长，以生成多个令牌。 - 优化解析器配置：根据特定的应用场景调整分析器的配置，例如使用不同的分词器（如 CJKAnalyzer）来适应不同语言的需求。 - 错误处理机制：在代码中加入适当的错误处理逻辑，以便在遇到 EOFException 时进行相应的处理，例如记录日志、提示用户重新输入更长的文本等。结语：拥抱挑战，驾驭全文检索面对 org.apache.lucene.analysis.TokenStream$EOFException: End of stream 这样的挑战，我们的目标不仅仅是解决问题，更是通过这样的经历深化对 Lucene 工作原理的理解。哎呀，你猜怎么着？咱们在敲代码、调参数的过程中，不仅技术越来越溜，还能在处理那些乱七八糟的数据时，感觉自己就像个数据处理的小能手，得心应手的呢！就像是在厨房里，熟练地翻炒各种食材，做出来的菜品色香味俱全，让人赞不绝口。编程也是一样，每一次的实践和调试，都是在给我们的技能加料，让我们的作品越来越美味，越来越有营养！嘿！兄弟，听好了，每次遇到难题都像是在给咱的成长加个buff，咱们得一起揭开全文检索的神秘面纱，掌控技术的大棒，让用户体验到最棒、最快的搜索服务，让每一次敲击键盘都能带来惊喜！ --- 以上内容不仅涵盖了理论解释与代码实现，还穿插了人类在面对技术难题时的思考与探讨，旨在提供一种更加贴近实际应用、充满情感与主观色彩的技术解读方式。

2024-07-25 00:52:37

391

青山绿水

Hadoop

Hadoop结合HDFS实现跨硬件复制保障分布式系统数据可靠性与副本策略

...同时实现高效的大数据分析成为了一个亟待解决的问题。一些公司正在探索使用加密技术和联邦学习等方法，以确保数据在传输和处理过程中不被泄露。另一方面，尽管Hadoop本身仍在持续迭代更新，但社区的关注点已经开始向边缘计算转移。边缘计算能够有效缓解中心化数据中心的压力，特别是在物联网设备数量激增的情况下。通过在靠近数据源的地方进行预处理，不仅可以降低延迟，还能减少带宽消耗。这为Hadoop未来的发展指明了一条新的路径。总之，虽然Hadoop面临诸多挑战，但凭借其成熟的技术体系和广泛的应用基础，它仍然是许多企业和组织不可或缺的选择。未来，Hadoop可能会与其他新兴技术深度融合，共同推动大数据产业的进步。

2025-03-26 16:15:40

冬日暖阳

转载文章

[转载]详解Class类文件的结构（上）

...ass文件结构有助于分析恶意字节码攻击手段，以及如何通过虚拟机层面的安全防护措施来避免有害类文件的加载执行。例如，最新的Java版本不断强化类加载验证机制，防止非法或恶意篡改的Class文件危害系统安全。综上所述，随着Java技术栈的持续演进，Class文件这一基础而又关键的概念，在实际开发和运维过程中仍具有极高的研究价值和实战意义，值得开发者们密切关注和深入探索。

2024-01-09 17:46:36

645

转载

转载文章

[转载]Linux时间校准（ntpdate及NTP客户端代码校准示例）

...e the --debug option to see the details of our search for an access method.nvidia@nvidia-desktop:~$nvidia@nvidia-desktop:~$nvidia@nvidia-desktop:~$ sudo hwclock2023-03-21 11:18:49.607690+0800nvidia@nvidia-desktop:~$ 将系统时间同步到硬件时间 hwclock -w 将硬件时间同步到系统时间 hwclock -s 二、不同机器间时间同步为了避免主机时间因为长期运作下所导致的时间偏差，进行时间同步(synchronize)的工作是非常必要的。Linux系统下，一般使用ntp服务器来同步不同机器的时间。一台机器，可以同时是ntp服务器和ntp客户机。 2.1 ntpdate命令实现 ntpdate 安装： yum install ntpdate -y Centos系统======================================sudo apt install ntpdate Ubuntu系统时间同步 sudo ntpdate -u cn.pool.ntp.org18 Mar 18:25:22 ntpdate[18673]: adjust time server 84.16.73.33 offset 0.015941 sec 使用ntpdate 只是强制将系统时间设置为ntp服务器时间，如果cpu tick有问题，时间还是会不准。所以，一般配合cron命令，来进行定期同步设置。比如，在crontab中添加： sudo crontab -e0 12 /usr/sbin/ntpdate 192.168.10.110 上述命令的意思是：每天的12点整，从192.168.10.110 ntp服务器同步一次时间（前提是 192.168.10.110有ntp服务）。 2.2 Ntp客户端代码实现本质上还是创建socket连接去获取ntp服务的时间与本地时间比较，不一致修改本机时间即可。 NtpClient.h //// Created by lwang on 2023-03-18.//ifndef NTP_CLIENT_Hdefine NTP_CLIENT_Hinclude <stdio.h>include <stdlib.h>include <string.h>include <time.h>include <iostream>include <unistd.h>include <sys/select.h>include <sys/time.h>include <sys/socket.h>include <arpa/inet.h>include <netdb.h>include <errno.h>include <endian.h>include <map>include <string>include <mutex>using namespace std;define NTP_LI 0define NTP_VERSION_NUM 3define NTP_MODE_CLIENT 3define NTP_MODE_SERVER 4define NTP_STRATUM 0define NTP_POLL 4define NTP_PRECISION -6define NTP_MIN_LEN 48define NTP_SERVER_PORT 123define NTP_SERVER_ADDR "119.28.183.184"define TIMEOUT 2define BUFSIZE 1500define JAN_1970 0x83aa7e80define NTP_CONV_FRAC32(x) (uint64_t)((x) ((uint64_t)1 << 32))define NTP_REVE_FRAC32(x) ((double)((double)(x) / ((uint64_t)1 << 32)))define NTP_CONV_FRAC16(x) (uint32_t)((x) ((uint32_t)1 << 16))define NTP_REVE_FRAC16(x) ((double)((double)(x) / ((uint32_t)1 << 16)))define USEC2FRAC(x) ((uint32_t)NTP_CONV_FRAC32((x) / 1000000.0))define FRAC2USEC(x) ((uint32_t)NTP_REVE_FRAC32((x)1000000.0))define NTP_LFIXED2DOUBLE(x) ((double)(ntohl(((struct l_fixedpt )(x))->intpart) - JAN_1970 + FRAC2USEC(ntohl(((struct l_fixedpt )(x))->fracpart)) / 1000000.0))struct s_fixedpt{uint16_t intpart;uint16_t fracpart;};struct l_fixedpt{uint32_t intpart;uint32_t fracpart;};struct ntphdr{if __BYTE_ORDER == __BID_ENDIANunsigned int ntp_li : 2;unsigned int ntp_vn : 3;unsigned int ntp_mode : 3;endifif __BYTE_ORDER == __LITTLE_ENDIANunsigned int ntp_mode : 3;unsigned int ntp_vn : 3;unsigned int ntp_li : 2;endifuint8_t ntp_stratum;uint8_t ntp_poll;int8_t ntp_precision;struct s_fixedpt ntp_rtdelay;struct s_fixedpt ntp_rtdispersion;uint32_t ntp_refid;struct l_fixedpt ntp_refts;struct l_fixedpt ntp_orits;struct l_fixedpt ntp_recvts;struct l_fixedpt ntp_transts;};class NtpClient {public:NtpClient();virtual ~NtpClient();void GetNtpTime(std::string &ntpTime);in_addr_t HostTransfer(const char host);int PaddingNtpPackage(void buf, size_t size);double GetOffset(const struct ntphdr ntp, const struct timeval recvtv);private:int m_sockfd;};endif / NTP_CLIENT_H / NtpClient.cpp //// Created by lwang on 2023-03-18.//include "NtpClient.h"NtpClient::NtpClient() { }NtpClient::~NtpClient() {}in_addr_t NtpClient::HostTransfer(const char host){in_addr_t saddr;struct hostent hostent;if ((saddr = inet_addr(host)) == INADDR_NONE){if ((hostent = gethostbyname(host)) == NULL){return INADDR_NONE;}memmove(&saddr, hostent->h_addr, hostent->h_length);}return saddr;}int NtpClient::PaddingNtpPackage(void buf, size_t size) // 构建并发送NTP请求报文{if (!size)return -1;struct ntphdr ntp;struct timeval tv;memset(buf, 0, BUFSIZE);ntp = (struct ntphdr )buf;ntp->ntp_li = NTP_LI;ntp->ntp_vn = NTP_VERSION_NUM;ntp->ntp_mode = NTP_MODE_CLIENT;ntp->ntp_stratum = NTP_STRATUM;ntp->ntp_poll = NTP_POLL;ntp->ntp_precision = NTP_PRECISION;gettimeofday(&tv, NULL); // 把目前的时间用tv 结构体返回ntp->ntp_transts.intpart = htonl(tv.tv_sec + JAN_1970);ntp->ntp_transts.fracpart = htonl(USEC2FRAC(tv.tv_usec));size = NTP_MIN_LEN;return 0;}double NtpClient::GetOffset(const struct ntphdr ntp, const struct timeval recvtv) // 偏移量{double t1, t2, t3, t4;t1 = NTP_LFIXED2DOUBLE(&ntp->ntp_orits);t2 = NTP_LFIXED2DOUBLE(&ntp->ntp_recvts);t3 = NTP_LFIXED2DOUBLE(&ntp->ntp_transts);t4 = recvtv->tv_sec + recvtv->tv_usec / 1000000.0;return ((t2 - t1) + (t3 - t4)) / 2;}void NtpClient::GetNtpTime(std::string &ntpTime){char buffer[64] = {0};char cmd[128] = {0};tm local;char buf[BUFSIZE];size_t nbytes;int maxfd1;struct sockaddr_in servaddr;fd_set readfds;struct timeval timeout, recvtv, tv;double offset;servaddr.sin_family = AF_INET;servaddr.sin_port = htons(NTP_SERVER_PORT);servaddr.sin_addr.s_addr = HostTransfer(NTP_SERVER_ADDR);if ((m_sockfd = socket(AF_INET, SOCK_DGRAM, 0)) < 0){perror("socket error");return ;}if (connect(m_sockfd, (struct sockaddr )&servaddr, sizeof(struct sockaddr)) != 0){perror("connect error");return ;}nbytes = BUFSIZE;if (PaddingNtpPackage(buf, &nbytes) != 0){fprintf(stderr, "construct ntp request error \n");exit(-1);}send(m_sockfd, buf, nbytes, 0);FD_ZERO(&readfds);FD_SET(m_sockfd, &readfds);maxfd1 = m_sockfd + 1;timeout.tv_sec = TIMEOUT;timeout.tv_usec = 0;if (select(maxfd1, &readfds, NULL, NULL, &timeout) > 0){if (FD_ISSET(m_sockfd, &readfds)){if ((nbytes = recv(m_sockfd, buf, BUFSIZE, 0)) < 0){perror("recv error");exit(-1);}// 计算C/S时间偏移量gettimeofday(&recvtv, NULL);offset = GetOffset((struct ntphdr )buf, &recvtv);gettimeofday(&tv, NULL);tv.tv_sec += (int)offset;tv.tv_usec += offset - (int)offset;local = localtime((time_t )&tv.tv_sec);strftime(buffer, 64, "%Y-%m-%d %H:%M:%S", local);ntpTime = std::string(buffer);} }return ;} main.cpp include "NtpClient.h"int main(){std::string ntpTime = "";char curBuf[64] = {0};struct timeval cur;tm local;NtpClient client;client.GetNtpTime(ntpTime);cout << "ntpTime: " << ntpTime << endl;gettimeofday(&cur, NULL);local = localtime((time_t )&cur.tv_sec);strftime(curBuf, 64, "%Y-%m-%d %H:%M:%S", local);std::string curTime = std::string(curBuf);cout << "curTime: " << curTime << endl;if (curTime != ntpTime){cout << "start time calibrate!" << endl;std::string cmd = "sudo date -s \"" + ntpTime + "\"";system(cmd.c_str());cout << "cmd: " << cmd << endl;}else{cout << "time seem" << endl;}return 0;} 推荐一个零声学院免费教程，个人觉得老师讲得不错，分享给大家：[Linux，Nginx，ZeroMQ，MySQL，Redis， fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker， TCP/IP，协程，DPDK等技术内容，点击立即学习: 本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_46935110/article/details/129683157。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-01 12:56:47

112

转载

Mahout

实时流数据分析：Mahout与分布式计算的机器学习实践

...ming：实时流数据分析 1. 引言在数据爆炸的时代，实时流数据分析成为了解决海量数据处理的关键技术之一。哎呀，你听说过Mahout这个玩意儿没？这家伙可是个开源的机器学习宝库，专治大数据这事儿。它那分发式计算的能力啊，就像魔法一样，能让你的数据处理起来轻松又高效。用Mahout做分析，就像是给一堆乱糟糟的数据整了套华丽丽的整理术，让它们变得井井有条，还能从中找出各种有价值的信息和模式。这玩意儿一出手，数据处理界的难题就被它玩转得飞起，简直是个大数据时代的超级英雄呢！而Apache Spark Streaming，则是为实时数据流提供高性能处理的框架。哎呀，兄弟！把这两样技术给整到一块儿用，那效果简直不要太棒！不仅能快速消化那些源源不断的数据洪流，还能帮咱们做出超明智的决定，简直就是开挂的存在嘛！本文旨在探索Mahout与Spark Streaming如何协同工作，为实时流数据分析提供强大的解决方案。 2. Mahout概述 Mahout是一个基于Hadoop的机器学习库，旨在利用分布式计算资源来加速大规模数据集上的算法执行。哎呀，这个家伙可真厉害！它能用上各种各样的机器学习魔法，比如说分门别类的技巧（就是咱们说的分类）、把相似的东西归到一块儿的本事（聚类）还有能给咱们推荐超棒东西的神奇技能（推荐系统）。而且，它最擅长的就是对付那些海量的数据，就像大鱼吃小鱼一样，毫不费力就能搞定！通过Mahout，我们可以构建复杂的模型来挖掘数据中的模式和关系，从而驱动业务决策。 3. Spark Streaming简介 Apache Spark Streaming是Spark生态系统的一部分，专为实时数据流处理设计。哎呀，这个玩意儿简直就是程序员们的超级神器！它能让咱这些码农兄弟们轻松搞定那些超快速、高效率的实时应用，你懂的，就是那种分秒必争、数据飞速流转的那种。想象一下，一秒钟能处理几千条数据，那感觉简直不要太爽啊！就像是在玩转数据的魔法世界，每一次点击都是对速度与精准的极致追求。这不就是我们程序员的梦想吗？在数据的海洋里自由翱翔，每一刻都在创造奇迹！Spark Streaming的精髓就像个魔术师，能把连续不断的水流（数据流）变换成小段的小溪（微批次）。这小溪再通过Spark这个强大的分布式计算平台，就像是在魔法森林里跑的水车，一边转一边把水（数据）处理得干干净净。这样一来，咱们就能在实时中捕捉到信息的脉动，做出快速反应，既高效又灵活！ 4. Mahout与Spark Streaming的集成为了将Mahout的机器学习能力与Spark Streaming的实时处理能力结合起来，我们需要创建一个流水线，使得Mahout可以在实时数据流上执行分析任务。这可以通过以下步骤实现： - 数据接入：首先，我们需要将实时数据流接入Spark Streaming。这可以通过定义一个DStream（Data Stream）对象来完成，该对象代表了数据流的抽象表示。 scala import org.apache.spark.streaming._ import org.apache.spark.streaming.dstream._ val sparkConf = new SparkConf().setAppName("RealtimeMahoutAnalysis").setMaster("local[2]") val sc = new SparkContext(sparkConf) valssc = new StreamingContext(sc, Seconds(1)) // 创建StreamingContext，时间间隔为1秒 val inputStream = TextFileStream("/path/to/your/data") // 假设数据来自文件系统 val dstream = inputStream foreachRDD { rdd => rdd.map { line => val fields = line.split(",") (fields(0), fields.slice(1, fields.length)) } } - Mahout模型训练：然后，我们可以使用Mahout中的算法对数据进行预处理和建模。例如，假设我们想要进行用户行为的聚类分析，可以使用Mahout的KMeans算法。 scala import org.apache.mahout.cf.taste.hadoop.recommender.KNNRecommender import org.apache.mahout.cf.taste.impl.model.file.FileDataModel import org.apache.mahout.cf.taste.impl.neighborhood.ThresholdUserNeighborhood import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity import org.apache.mahout.math.RandomAccessSparseVector import org.apache.hadoop.conf.Configuration val dataModel = new FileDataModel(new File("/path/to/your/data.csv")) val neighborhood = new ThresholdUserNeighborhood(0.5, dataModel, new Configuration()) val similarity = new PearsonCorrelationSimilarity(dataModel) val recommender = new GenericUserBasedRecommender(dataModel, neighborhood, similarity) val recommendations = dstream.map { (user, ratings) => val userVector = new RandomAccessSparseVector(ratings.size()) for ((itemId, rating) <- ratings) { userVector.setField(itemId.toInt, rating.toDouble) } val recommendation = recommender.recommend(user, userVector) (user, recommendation.map { (itemId, score) => (itemId, score) }) } - 结果输出：最后，我们可以将生成的推荐结果输出到合适的目标位置，如日志文件或数据库，以便后续分析和应用。 scala recommendations.foreachRDD { rdd => rdd.saveAsTextFile("/path/to/output") } 5. 总结与展望通过将Mahout与Spark Streaming集成，我们能够构建一个强大的实时流数据分析平台，不仅能够实时处理大量数据，还能利用Mahout的高级机器学习功能进行深入分析。哎呀，这个融合啊，就像是给数据分析插上了翅膀，能即刻飞到你眼前，又准确得不得了！这样一来，咱们做决定的时候，心里那根弦就更紧了，因为有它在身后撑腰，决策那可是又稳又准，妥妥的！哎呀，随着科技车轮滚滚向前，咱们的Mahout和Spark Streaming这对好搭档，未来肯定会越来越默契，联手为我们做决策时，用上实时数据这个大宝贝，提供更牛逼哄哄的武器和方法！想象一下，就像你用一把锋利的剑，能更快更准地砍下胜利的果实，这俩家伙在数据战场上，就是那把超级厉害的宝剑，让你的决策快人一步，精准无比！ --- 以上内容是基于实际的编程实践和理论知识的融合，旨在提供一个从概念到实现的全面指南。哎呀，当真要将这个系统或者项目实际铺展开来的时候，咱们得根据手头的实际情况，比如数据的个性、业务的流程和咱们的技术底子，来灵活地调整策略，让一切都能无缝对接，发挥出最大的效用。就像是做菜，得看食材的新鲜度，再搭配合适的调料，才能做出让人满意的美味佳肴一样。所以，别死板地照搬方案，得因地制宜，因材施教，这样才能确保我们的工作既高效又有效。

2024-09-06 16:26:39

月影清风

Docker

Docker+Portainer+Rancher+Traefik：服务器管理工具容器化与可视化管理实践

...时，简直就像在玩拼图游戏，一不小心就可能把整个系统搞崩。我之前用过宝塔面板和1panel，它们确实简化了很多操作，但总觉得少了点什么。于是我就开始琢磨：难道就没有更酷炫、更灵活的工具了吗？经过一番研究，我发现了一些非常有趣的服务器管理工具，特别是结合Docker使用后，简直是如虎添翼！所以今天，咱们就来聊聊这些工具，看看它们能不能成为你心目中的“神器”。 --- 2. Docker 让一切都变得简单首先，我们得谈谈Docker。Docker是什么？简单来说，它是一种容器化技术，可以让你的应用程序及其依赖项打包成一个独立的“容器”，然后轻松地运行在任何支持Docker的环境中。举个例子吧，假如你想在一个全新的服务器上安装WordPress，传统方法可能是手动下载PHP、MySQL、Nginx等一堆软件，再逐一配置。而如果你用Docker，只需要一条命令就能搞定： bash docker run --name wordpress -d -p 80:80 \ -v /path/to/wordpress:/var/www/html \ -e WORDPRESS_DB_HOST=db \ -e WORDPRESS_DB_USER=root \ -e WORDPRESS_DB_PASSWORD=yourpassword \ wordpress 这段代码的意思是：启动一个名为wordpress的容器，并将本地目录/path/to/wordpress挂载到容器内的/var/www/html路径下，同时设置数据库连接信息。是不是比传统的安装方式简洁多了？不过，单独使用Docker虽然强大，但对于不熟悉命令行的人来说还是有点门槛。这时候就需要一些辅助工具来帮助我们更好地管理和调度容器了。 --- 3. Portainer 可视化管理Docker的好帮手 Portainer绝对是我最近发现的一颗“宝藏”。它的界面非常直观，几乎不需要学习成本。不管是想看看现有的容器啥情况，还是想启动新的容器，甚至连网络和卷的管理，都只需要动动鼠标拖一拖、点一点就行啦！比如，如果你想快速创建一个新的MySQL容器，只需要打开Portainer的Web界面，点击“Add Container”，然后填写几个基本信息即可： yaml image: mysql:5.7 name: my-mysql ports: - "3306:3306" volumes: - /data/mysql:/var/lib/mysql environment: MYSQL_ROOT_PASSWORD: rootpassword 这段YAML配置文件描述了一个MySQL容器的基本参数。Portainer会自动帮你解析并生成对应的Docker命令。是不是超方便？另外，Portainer还有一个特别棒的功能——实时监控。你打开页面就能看到每个“小房子”（就是容器）里用掉的CPU和内存情况，而且还能像穿越空间一样，去访问别的机器上跑着的那些“小房子”（Docker实例）。这种功能对于运维人员来说简直是福音！ --- 4. Rancher 企业级的容器编排利器如果你是一个团队协作的开发者，或者正在运营一个大规模的服务集群，那么Rancher可能是你的最佳选择。它不仅仅是一个Docker管理工具，更是一个完整的容器编排平台。 Rancher的核心优势在于它的“多集群管理”能力。想象一下，你的公司有好几台服务器，分别放在地球上的不同角落，有的在美国，有的在欧洲，还有的在中国。每台服务器上都跑着各种各样的服务，比如网站、数据库啥的。这时候，Rancher就派上用场了！它就像一个超级贴心的小管家，让你不用到处切换界面，在一个地方就能轻松搞定所有服务器和服务的管理工作，省时又省力！举个例子，如果你想在Rancher中添加一个新的节点，只需要几步操作即可完成： 1. 登录Rancher控制台。 2. 点击“Add Cluster”按钮。 3. 输入目标节点的信息（IP地址、SSH密钥等）。 4. 等待几分钟，Rancher会自动为你安装必要的组件。一旦节点加入成功，你就可以直接在这个界面上部署应用了。比如，用Kubernetes部署一个Redis集群： bash kubectl create deployment redis --image=redis:alpine kubectl expose deployment redis --type=LoadBalancer --port=6379 虽然这条命令看起来很简单，但它背后实际上涉及到了复杂的调度逻辑和网络配置。而Rancher把这些复杂的事情封装得很好，让我们可以专注于业务本身。 --- 5. Traefik 反向代理与负载均衡的最佳拍档最后要介绍的是Traefik，这是一个轻量级的反向代理工具，专门用来处理HTTP请求的转发和负载均衡。它最厉害的地方啊，就是能跟Docker完美地融为一体，还能根据容器上的标签，自动调整路由规则呢！比如说，你有两个服务分别监听在8080和8081端口，现在想通过一个域名访问它们。只需要给这两个容器加上相应的标签： yaml labels: - "traefik.enable=true" - "traefik.http.routers.service1.rule=Host(service1.example.com)" - "traefik.http.services.service1.loadbalancer.server.port=8080" - "traefik.http.routers.service2.rule=Host(service2.example.com)" - "traefik.http.services.service2.loadbalancer.server.port=8081" 这样一来，当用户访问service1.example.com时，Traefik会自动将请求转发到监听8080端口的容器；而访问service2.example.com则会指向8081端口。这种方式不仅高效，还极大地减少了配置的工作量。 --- 6. 总结找到最适合自己的工具好了，到这里咱们已经聊了不少关于服务器管理工具的话题。从Docker到Portainer，再到Rancher和Traefik，每一种工具都有其独特的优势和适用场景。我的建议是，先根据自己的需求确定重点。要是你只想弄个小玩意儿，图个省事儿快点搞起来，那用Docker配个Portainer就完全够用了。但要是你们团队一起干活儿，或者要做大范围的部署，那Rancher这种专业的“老司机工具”就得安排上啦！当然啦，技术的世界永远没有绝对的答案。其实啊，很多时候你会发现，最适合你的工具不一定是最火的那个，而是那个最合你心意、用起来最顺手的。就像穿鞋一样，别人觉得好看的根本不合脚，而那双不起眼的小众款却让你走得又稳又舒服！所以啊，在用这些工具的时候，别光顾着看，得多动手试试，边用边记下自己的感受和想法，这样你才能真的搞懂它们到底有啥门道！好了，今天的分享就到这里啦！如果你还有什么问题或者想法，欢迎随时留言交流哦～咱们下次再见啦！

2025-04-16 16:05:13

月影清风_

Sqoop

Sqoop在数据迁移中因透明性不足导致作业失败的案例分析

本文分享了使用Sqoop进行数据迁移的经验，重点分析了作业失败的原因，特别是透明性不足导致的特殊字符处理问题。通过调整分隔符和换行符，成功完成了包含复杂数据类型的表的迁移。文章还介绍了创建增量作业的方法，结合调试步骤优化性能。Sqoop作为连接关系型数据库与Hadoop的工具，在面对大数据量时需谨慎配置，其透明性直接影响迁移效果，未来可结合Spark实现分布式计算。

2025-03-22 15:39:31

风中飘零

Hadoop

Hadoop支持文件跨访问控制协议迁移解析

...在一家电商公司当数据分析师，每天的工作就是跟上亿条用户的点击、浏览、下单这些行为记录打交道，简直就像在海量的信息海洋里淘宝一样！如果用传统的数据库，可能早就崩溃了。但Hadoop不一样，它可以将这些数据分散到多个服务器上进行并行处理，效率杠杠的！不过，Hadoop的魅力远不止于此。嘿，大家好！今天我想跟你们分享一个关于Hadoop的超棒功能——它居然能让你在不同的访问控制协议之间轻松切换文件！是不是听着就很带感？哎呀，是不是觉得这事听着有点绕？别慌，我这就用大白话给你说道说道，保证你一听就明白！ --- 二、什么是跨访问控制协议迁移？首先，我们得明白什么是访问控制协议。简单说，就是规定谁可以访问你的数据以及他们能做些什么的规则。好比说啊，你有个公共文件柜，你想让一些人只能打开看看里面的东西，啥都不能动；但另外一些人呢，不仅能看，还能随便改，甚至直接把东西清空或者拿走。这就是访问控制协议的作用。那么，“跨访问控制协议迁移”又是什么意思呢？想象一下，你有两个不同的系统，它们各自有自己的访问控制规则。比如说，一个是Linux那边的ACL（访问控制列表）系统，另一个则是Windows里的NTFS权限系统，两者各有各的玩法。现在，你要把文件从一个系统迁移到另一个系统，而且你还想保留原来的访问控制设置。这就需要用到跨访问控制协议迁移的技术了。为什么要关心这个功能呢？因为现实世界中，企业往往会有多种操作系统和存储环境。要是你对文件的权限管理不当，那可就麻烦了，要么重要数据被泄露出去，要么一不小心就把东西给搞砸了。而Hadoop通过其强大的灵活性，完美地解决了这个问题。 --- 三、Hadoop如何实现跨访问控制协议迁移？接下来，让我们来看看Hadoop是如何做到这一点的。其实，这主要依赖于Hadoop的分布式文件系统（HDFS）和它的API库。为了更好地理解，我们可以一步步来分析。 3.1 HDFS的基本概念 HDFS是Hadoop的核心组件之一，它是用来存储大量数据的分布式文件系统。这就像是一个超大号的硬盘，不过它有点特别，不是集中在一个地方存东西，而是把数据切成小块，分散到不同的“小房间”里去。这样做的好处是即使某个节点坏了，也不会影响整个系统的运行。 HDFS还提供了一套丰富的接口，允许开发者自定义文件的操作行为。这就为实现跨访问控制协议迁移提供了可能性。 3.2 实现步骤实现跨访问控制协议迁移大致分为以下几个步骤：（1）读取源系统的访问控制信息第一步是获取源系统的访问控制信息。比如，如果你正在从Linux系统迁移到Windows系统，你需要先读取Linux上的ACL配置。 java // 示例代码：读取Linux ACL import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.IOException; public class AccessControlReader { public static void main(String[] args) throws IOException { Path path = new Path("/path/to/source/file"); FileSystem fs = FileSystem.get(new Configuration()); // 获取ACL信息 String acl = fs.getAclStatus(path).toString(); System.out.println("Source ACL: " + acl); } } 这段代码展示了如何使用Hadoop API读取Linux系统的ACL信息。可以看到，Hadoop已经为我们封装好了相关的API，调用起来非常方便。（2）转换为目标系统的格式接下来，我们需要将读取到的访问控制信息转换为目标系统的格式。比如，将Linux的ACL转换为Windows的NTFS权限。 java // 示例代码：模拟ACL到NTFS的转换 public class AclToNtfsConverter { public static void convert(String linuxAcl) { // 这里可以编写具体的转换逻辑 System.out.println("Converting ACL to NTFS: " + linuxAcl); } } 虽然这里只是一个简单的打印函数，但实际上你可以根据实际需求编写复杂的转换算法。（3）应用到目标系统最后一步是将转换后的权限应用到目标系统上。这一步同样可以通过Hadoop提供的API来完成。 java // 示例代码：应用NTFS权限 public class NtfsPermissionApplier { public static void applyPermissions(Path targetPath, String ntfsPermissions) { try { // 模拟应用权限的过程 System.out.println("Applying NTFS permissions to " + targetPath.toString() + ": " + ntfsPermissions); } catch (Exception e) { e.printStackTrace(); } } } 通过这三个步骤，我们就完成了从源系统到目标系统的访问控制协议迁移。 --- 四、实战演练一个完整的案例为了让大家更直观地理解，我准备了一个完整的案例。好啦，想象一下，我们现在要干的事儿就是把一个文件从一台Linux服务器搬去Windows服务器，而且还得保证这个文件在新家里的“门禁权限”跟原来一模一样，不能搞错！ 4.1 准备工作首先，确保你的开发环境中已经安装了Hadoop，并且配置好相关的依赖库。此外，还需要准备两台机器，一台装有Linux系统，另一台装有Windows系统。 4.2 编写代码接下来，我们编写代码来实现迁移过程。首先是读取Linux系统的ACL信息。 java // 读取Linux ACL Path sourcePath = new Path("/source/file.txt"); FileSystem linuxFs = FileSystem.get(new Configuration()); String linuxAcl = linuxFs.getAclStatus(sourcePath).toString(); System.out.println("Linux ACL: " + linuxAcl); 然后，我们将这些ACL信息转换为NTFS格式。 java // 模拟ACL到NTFS的转换 AclToNtfsConverter.convert(linuxAcl); 最后，将转换后的权限应用到Windows系统上。 java // 应用NTFS权限 Path targetPath = new Path("\\\\windows-server\\file.txt"); NtfsPermissionApplier.applyPermissions(targetPath, "Full Control"); 4.3 执行结果执行完上述代码后，你会发现文件已经被成功迁移到了Windows系统，并且保留了原有的访问控制设置。是不是很神奇？ --- 五、总结与展望通过这篇文章，我相信你对Hadoop支持文件的跨访问控制协议迁移有了更深的理解。Hadoop不仅是一个强大的工具，更是一种思维方式的转变。它就像个聪明的老师，不仅教我们怎么用分布式的思路去搞定问题，还时不时敲打我们：嘿，别忘了数据的安全和规矩可不能丢啊！未来，随着技术的发展，Hadoop的功能会越来越强大。我希望你能继续探索更多有趣的话题，一起在这个充满挑战的世界里不断前行！加油吧，程序员们！

2025-04-29 15:54:59

风轻云淡

ElasticSearch

ElasticSearch排障：磁盘空间不足导致节点宕机，集群健康受损，扩容+配置优化恢复日志分析系统

...cSearch的日志分析系统。一切看起来都很顺利，数据导入、索引创建啥的都没问题。但当我尝试对某些节点进行操作时，突然蹦出了这么一行错误： org.elasticsearch.cluster.block.ClusterBlockException: blocked by: [SERVICE_UNAVAILABLE/2/no active shards]; 当时我心里那个急啊！赶紧去查文档，发现这是NodeNotActiveException的表现之一。简单说吧，就好比某个关键的小哥突然“罢工”了，可能是因为它内存不够用，或者网络断了啥的，结果整个团队的工作都乱套了，没法正常运转了。我当时就纳闷了：“这不是应该自动恢复吗？为啥还要报错呢？”后来才明白，虽然ElasticSearch确实有自我修复机制，但有时候我们需要手动干预才能让它恢复正常。 --- 2. 理解背后的逻辑为什么会出现这种问题？在深入了解之前，我觉得有必要先搞清楚这个异常的根本原因。其实NodeNotActiveException并不是什么特别复杂的概念，它主要出现在以下几种情况： - 节点宕机：某个节点由于硬件故障或者网络问题离线了。 - 磁盘空间不足：如果某个节点的磁盘满了，ElasticSearch会自动将其标记为不可用。 - 配置错误：比如分配给节点的资源不够，导致其无法启动。对于我来说，问题出在第二个点上——磁盘空间不足。我当时为了省钱，给服务器分配的空间少得可怜，结果没多久就发现磁盘直接爆满，把自己都吓了一跳！于是ElasticSearch很生气，直接把该节点踢出了集群。 --- 3. 解决方案一扩容磁盘空间既然问题找到了，那就动手解决吧！首先，我决定先扩展磁盘容量。这一步其实很简单，只要登录服务器，增加磁盘大小就行。具体步骤如下： bash 查看当前磁盘状态 df -h 扩展磁盘（假设你已经购买了额外的存储） sudo growpart /dev/xvda 1 sudo resize2fs /dev/xvda1 完成后记得重启ElasticSearch服务： bash sudo systemctl restart elasticsearch 重启之后，神奇的事情发生了——我的节点重新上线了！不过这里有个小技巧分享给大家：如果你不确定扩容是否成功，可以通过以下命令检查磁盘使用情况： bash df -h 看到磁盘空间变大了，心里顿时舒坦了不少。 --- 4. 解决方案二调整ElasticSearch配置当然啦，仅仅扩容还不够，还需要优化ElasticSearch的配置文件。特别是那些容易导致内存不足或磁盘占用过高的参数，比如indices.memory.index_buffer_size和indices.store.throttle.max_bytes_per_sec。修改后的配置文件大概长这样： yaml cluster.routing.allocation.disk.threshold_enabled: true cluster.routing.allocation.disk.watermark.low: 85% cluster.routing.allocation.disk.watermark.high: 90% cluster.routing.allocation.disk.watermark.flood_stage: 95% cluster.info.update.interval: 30s 这些设置的意思是告诉ElasticSearch，当磁盘使用率达到85%时开始警告，达到90%时限制写入，超过95%时完全停止操作。这样可以有效避免再次出现类似的问题。 --- 5. 实战演练代码中的应对策略除了调整配置，我们还可以通过编写脚本来监控和处理NodeNotActiveException。比如，下面这段Java代码展示了如何捕获异常并记录日志： java import org.elasticsearch.client.RestHighLevelClient; import org.elasticsearch.client.RestClient; import org.elasticsearch.client.indices.CreateIndexRequest; import org.elasticsearch.client.indices.CreateIndexResponse; public class ElasticSearchExample { public static void main(String[] args) { RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http"))); try { CreateIndexRequest request = new CreateIndexRequest("test_index"); CreateIndexResponse response = client.indices().create(request, RequestOptions.DEFAULT); System.out.println("Index created: " + response.isAcknowledged()); } catch (Exception e) { if (e instanceof ClusterBlockException) { System.err.println("Cluster block detected: " + e.getMessage()); } else { System.err.println("Unexpected error: " + e.getMessage()); } } finally { try { client.close(); } catch (IOException ex) { System.err.println("Failed to close client: " + ex.getMessage()); } } } } 这段代码的作用是在创建索引时捕获可能发生的异常，并根据异常类型采取不同的处理方式。如果遇到ClusterBlockException，我们可以选择延迟重试或者其他补偿措施。 --- 6. 总结与反思成长路上的一课通过这次经历，我深刻体会到，作为一名开发者，不仅要掌握技术细节，还要学会从实际问题出发，找到最优解。NodeNotActiveException这个错误看着不起眼，但其实背后有不少门道呢！比如说，你的服务器硬件是不是有点吃不消了？集群那边有没有啥小毛病没及时发现？还有啊，咱们平时运维的时候是不是也有点松懈了？这些都是得好好琢磨的地方！最后，我想说的是，技术学习的过程就像爬山一样，有时候会遇到陡峭的山坡，但只要坚持下去，总能看到美丽的风景。希望这篇文章能给大家带来一些启发和帮助！如果还有其他疑问，欢迎随时交流哦~

2025-03-14 15:40:13

林中小径

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...如下所示：一、页面分析首先来分析一下彼岸桌面的网页的结构：我们第一个看到的是网站的域名为http://www.netbian.com/，它有如上所示的分类，我们尝试着点开一些分类去看一下他的链接。通过点击每个分类，发现不同的分类下，地址栏显示为域名后面拼接这对应分类的拼音，但在分类为王者荣耀之后的拼接的确是“s/分类拼音”。这样我们可以创建一个枚举类，将所有分类集中管理。在common包下创建一个Kind枚举类： package com.asahi.common;/ 分类的枚举/public enum Kind {RILI("rili"), DONGMAN("dongman"), FENGJING("fengjing"), MEINV("meinv"), YOUXI("youxi"), YINGSHI("yingshi"),DONGTAI("dongtai"), WEIMEI("weimei"), SHEJI("sheji"), KEAI("keai"), QICHE("qiche"), HUAHUI("huahui"),DONGWU("dongwu"), JIERI("jieri"), RENWU("renwu"), MEISHI("meishi"), SHUIGUO("shuiguo"), JIANZHU("jianzhu"),TIYU("tiyu"), JUNSHI("junshi"), FEIZHULIU("feizhuliu"), QITA("qita"), WANGZHERONGYAO("s/wangzherongyao"), HUYAN("s/huyan"), LOL("s/lol");String kind;Kind(String kind) {this.kind = kind;}public static boolean contains(String test) {for (Kind c : Kind.values()) {if (c.kind.equals(test)) {return true;} }return false;} } 这里我添加了一个比较的方法供之后判断输入的分类名是否包含在这些分类里面。接下来我们在分析分类面的展示情况，以美女分类页面为例(●´∀｀●)，最下边有分页，如果只获取这个页面的图片并不能获取所有美女图，我们还需要点击每一个分页，从分页中获取所有的图片。通过分析发现，第一页的链接是在原有链接基础上拼接“/index.htm”，从第二页之后拼接的是“/index_页号.htm”。这样我们只需要获取总页数在依次遍历拼接就可以了，现在的问题是如何获取总页数，我一开始的想法是获取分页中“共167页”这个标签后再只保留数字就可以个，但发现运行后获取不到该元素节点，经过排查了解到这个标签是通过js生成的，于是我转换了思路，通过获取最后一个页号来得到一共分了多少页 Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();Elements els = root_doc.select("main .page a");//这里els.eq(els.size() - 2的原因是后边确定按钮用的是a标签要去掉，再去掉一个“下一页”标签Integer page = Integer.parseInt(els.eq(els.size() - 2).text()); 分类页中图片所在的标签结构为：分类页面下的图片不是我们想要的，我们想要的是点击进去详细页的高清大图，所以需要获取a标签的链接，再从这个链接中获取真正想要的图片。详细页中图片所在的标签结构为：二、代码实现到这里分类页分析的差不多了，我们通过代码来进行获取图片。首先导入Jsoup的jar包：jsoup-1.12.1.jar，如果采用Maven请导入下边的依赖。 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version></dependency> 在utils创建JsoupPic类，并添加getPic方法，代码如下： public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");//获取所有图片的链接System.out.println(elements1);} }} 在分类页中有一个隐藏的问题图片：正常的图片链接都是以“/”开头，以“.htm”结尾，而每个分类下的第三张图片的链接都是“http://pic.netbian.com/”，如果不过滤的话会报如下错误：所以这里必须要判断一下: Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");//判断是否是以“/”开头if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");System.out.println(elements1);} } 到这里，页面就已经分析好了，问题基本上已经解决了，接下来我们需要将图片存到我们的系统里，这里我将图片保存到我的电脑桌面上，并按照分类来存储图片。首先是要获取桌面路径，在utils包下创建Download类，添加getDesktop方法，代码如下： public static File getDesktop(){FileSystemView fsv = FileSystemView.getFileSystemView();File path=fsv.getHomeDirectory(); return path;} 接着我们再该类中添加下载图片的方法： //urlPath为网络图片的路径，savePath为要保存的本地路径（这里指定为桌面下的images文件夹）public static void download(String urlPath,String savePath) throws Exception {// 构造URLURL url = new URL(urlPath);// 打开连接URLConnection con = url.openConnection();//设置请求超时为5scon.setConnectTimeout(51000);// 输入流InputStream is = con.getInputStream();// 1K的数据缓冲byte[] bs = new byte[1024];// 读取到的数据长度int len;// 输出的文件流File sf=new File(savePath);int randomNo=(int)(Math.random()1000000);String filename=urlPath.substring(urlPath.lastIndexOf("/")+1,urlPath.length());//获取服务器上图片的名称filename=new java.text.SimpleDateFormat("yyyy-MM-dd-HH-mm-ss").format(new Date())+randomNo+filename;//时间+随机数防止重复OutputStream os = new FileOutputStream(sf.getPath()+"\\"+filename);// 开始读取while ((len = is.read(bs)) != -1) {os.write(bs, 0, len);}// 完毕，关闭所有链接os.close();is.close();} 写好后，我们再完善一下JsouPic中的getPic方法。 public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}File desktop = Download.getDesktop();Download.checkPath(desktop.getPath() + "\\images\\" + kind);//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");Download.download(elements1.attr("src"), desktop.getPath() + "\\images\\" + kind);} }} } 在Download类中，我添加了checkPath方法，用于判断目录是否存在，不存在就创建一个。 public static void checkPath(String savePath) throws Exception {File file = new File(savePath);if (!file.exists()){file.mkdirs();} } 最后在mainapp包内创建PullPic类，并添加主方法。 package com.asahi.mainapp;import com.asahi.common.Kind;import com.asahi.common.PrintLog;import com.asahi.utils.JsoupPic;import java.util.Scanner;public class PullPic {public static void main(String[] args) throws Exception {new PullPic().downloadPic();}public void downloadPic() throws Exception {System.out.println("启动程序>>\n请输入所爬取的分类：");Scanner scanner = new Scanner(System.in);String kind = scanner.next();while(!Kind.contains(kind)){System.out.println("分类不存在，请重新输入：");kind = scanner.next();}System.out.println("分类输入正确！");System.out.println("开始下载>>");JsoupPic.getPic(kind);} } 三、成果展示最终的运行结果如下：最终的代码已上传到我的github中，点击“我的github”进行查看。在学习Java爬虫的过程中，我收获了很多，一开始做的时候确实遇到了很多困难，这次写的获取图片也是最基础的，还可以继续深入。本来我想写一个通过多线程来获取图片来着，也尝试着去写了一下，越写越跑偏，暂时先放着不处理吧，等以后有时间再来弄，我想问题应该不大，只是考虑的东西有很多。希望大家多多指点不足，有哪些需要改进的地方，我也好多学习学习๑乛◡乛๑。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_39693281/article/details/108463868。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-12 10:26:04

130

转载

转载文章

[转载]学习MySql第二天

...ave，这是一种融合分析型数据库引擎，能在同一个MySQL数据库中实现事务处理与实时分析，极大简化了大数据处理流程，提升了业务决策速度。综上所述，了解MySQL的最新动态和技术演进不仅可以帮助我们更好地进行日常的数据库管理工作，还能洞悉未来数据库技术的发展趋势，从而为我们的系统设计与优化提供有力支撑。在实战中，结合具体业务场景灵活运用SQL语句及数据库管理系统，将有效提升整个系统的稳定性和效率。

2024-02-16 12:44:07

544

转载

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

systemctl start|stop|restart|status service_name - 管理systemd服务。