...这可能是由于多种原因导致的，包括但不限于： - 日志段损坏：Kafka在存储消息时，会将其分割成多个日志段（log segments）。哎呀，你猜怎么着？如果某个日志段因为存储的时候出了点小差错，或者是硬件哪里有点小故障，那可就有可能导致一些问题冒出来！就像是你家电脑里的文件不小心被删了，或者硬盘突然罢工了，结果你得花时间去找回丢失的信息，这事儿在日志里也可能会发生。所以，咱们得好好照顾这些数据，别让它们乱跑乱跳，对吧？ - 日志清理策略冲突：Kafka的默认配置可能与特定场景下的需求不匹配，例如日志清理策略设置为保留时间过短或日志备份数量过多等，都可能导致日志段状态异常。 - 生产者组管理问题：生产者组内部的成员管理不当，或者组内成员的增加或减少频繁，也可能引发这种状态的错误。三、代码示例如何检测和修复问题为了更直观地理解这个问题及其解决方法，下面我们将通过一些简单的代码示例来演示如何在Kafka环境中检测并修复这类问题。示例代码1：检查和修复日志段状态首先，我们需要使用Kafka提供的命令行工具kafka-log-consumer来检查日志段的状态。以下是一个基本的命令示例： bash 连接到Kafka集群 bin/kafka-log-consumer.sh --zookeeper localhost:2181 --topic your-topic-name --group your-group-name 检查特定日志段的状态 bin/kafka-log-consumer.sh --zookeeper localhost:2181 --topic your-topic-name --group your-group-name --log-segment-state INVALID 如果发现特定日志段的状态为“INVALID”，可以尝试使用kafka-log-cleaner工具来修复问题： bash 启动日志清理器，修复日志段 bin/kafka-log-cleaner.sh --zookeeper localhost:2181 --topic your-topic-name --group your-group-name --repair 示例代码2：调整日志清理策略对于日志清理策略的调整，可以通过修改Kafka配置文件server.properties来实现。以下是一个示例配置，用于延长日志段的保留时间： properties 延长日志段保留时间 log.retention.hours=24 确保在进行任何配置更改后，重启Kafka服务器以使更改生效： bash 重启Kafka服务器 service kafka-server-start.sh config/server.properties 四、最佳实践与预防措施为了预防“InvalidProducerGroupLogPartitionLogSegmentState”错误的发生，建议采取以下最佳实践： - 定期监控：使用Kafka监控工具（如Kafka Manager）定期检查集群状态，特别是日志清理和存储情况。 - 合理配置：根据实际业务需求合理配置Kafka的参数，如日志清理策略、备份策略等，避免过度清理导致数据丢失。 - 容错机制：设计具有高容错性的生产者和消费者逻辑，能够处理临时网络中断或其他不可预测的错误。 - 定期维护：执行定期的集群健康检查和日志清理任务，及时发现并解决问题。五、结语从失败到成长面对“InvalidProducerGroupLogPartitionLogSegmentState”这样的问题，虽然它可能会带来暂时的困扰，但正是这些挑战促使我们深入理解Kafka的工作机制和最佳实践。哎呀，学着怎么识别问题，然后把它们解决掉，这事儿可真挺有意思的！不仅能让你的电脑或者啥设备运行得更稳当，还不停地长本事，就像个技术侦探一样，对各种情况都能看得透透的。这不是简单地提升技能，简直是开挂啊！记住，每一次挑战都是成长的机会，让我们在技术的道路上不断前行。

2024-08-28 16:00:42

107

春暖花开

Apache Atlas

Apache Atlas Hook部署失败排查：元数据管理与Kafka错误日志分析

...的某些库版本不兼容而导致加载失败。 - 配置错误：有时候，我们可能在application.properties文件中漏掉了必要的参数设置。 - 权限不足：Hook需要访问目标系统的API接口，但如果权限配置不当，自然会报错。为了验证我的猜测，我决定先从最简单的配置检查做起。打开atlas-application.properties文件，我仔细核对了以下内容： properties atlas.hook.kafka.enabled=true atlas.hook.kafka.consumer.group=atlas-kafka-group atlas.kafka.bootstrap.servers=localhost:9092 确认无误后，我又检查了Kafka服务是否正常运行，确保Atlas能够连接到它。虽然这一系列操作看起来很基础，但它们往往是排查问题的第一步。 --- 4. 实战演练动手修复Hook部署失败接下来，让我们一起动手试试如何修复Hook部署失败吧！首先，我们需要明确一点：问题的根源可能有很多，因此我们需要分步骤逐一排除。 Step 1: 检查依赖关系假设我们的Hook是基于Hive的，那么首先需要确保Hive的客户端库已经正确添加到了项目中。例如，在Maven项目的pom.xml文件里，我们应该看到类似如下的配置： xml org.apache.hive hive-jdbc 3.1.2 如果版本不对，或者缺少了必要的依赖项，就需要更新或补充。记得每次修改完配置后都要重新构建项目哦！ Step 2: 调试日志级别为了让日志更加详细，帮助我们定位问题，可以在log4j.properties文件中将日志级别调整为DEBUG级别： properties log4j.rootLogger=DEBUG, console 这样做虽然会让日志输出变得冗长，但却能为我们提供更多有用的信息。 Step 3: 手动测试连接有时候，Hook部署失败并不是代码本身的问题，而是网络或者环境配置出了差错。这时候，我们可以尝试手动测试一下Atlas与目标系统的连接情况。例如，对于Kafka Hook，可以用下面的命令检查是否能正常发送消息： bash kafka-console-producer.sh --broker-list localhost:9092 --topic test-topic 如果这条命令执行失败，那就可以确定是网络或者Kafka服务的问题了。 --- 5. 总结与反思成长中的点滴收获经过这次折腾，我对Apache Atlas有了更深的理解，同时也意识到，任何技术工具都不是万能的，都需要我们投入足够的时间和精力去学习和实践。最后想说的是，尽管Hook部署失败的经历让我一度感到挫败，但它也教会了我很多宝贵的经验。比如： - 不要害怕出错，错误往往是进步的起点； - 日志是排查问题的重要工具，要学会善加利用； - 团队合作很重要，遇到难题时不妨寻求同事的帮助。希望这篇文章对你有所帮助，如果你也有类似的经历或见解，欢迎随时交流讨论！我们一起探索技术的世界，共同进步！

2025-04-03 16:11:35

醉卧沙场

Dubbo

Dubbo报错排查：服务端+服务注册中心+客户端配置+网络配置综合分析

...需要根据实际情况进行排查一、Dubbo的基本概念与作用首先，咱们得聊聊Dubbo是什么。Dubbo嘛，就是一个特别牛的Java工具，简单讲，它能让咱们的服务像住在不同房间的小伙伴一样，虽然不在一个屋檐下，但还能互相串门、干活儿。就像你家里的电视、冰箱、空调这些家伙，插上电就能一起工作，超方便！举个例子，假设你开发了一个电商系统，用户下单时，订单服务要调用库存服务来检查商品是否还有货。在这种情况下，Dubbo就能很好地完成这个任务。哎呀，Dubbo这东西确实挺牛的，功能强大到让人爱不释手，但也不是完美无缺啦！时不时地就会给你来个“报错警告”，而且这些错误啊，很多时候都跟你的环境配置脱不了干系，一不小心就中招了。记得有一次我调试一个Dubbo项目的时候，就遇到了这个问题。我当时在本地测的时候，那叫一个顺风顺水，啥问题都没有，结果一到生产环境，各种错误蹦出来，看得我头都大了，心里直犯嘀咕：这是不是选错了人生路啊？后来才反应过来，哎呀妈呀，原来是生产环境的网络设置跟本地的不一样，这就搞不定啦，服务之间压根连不上话！所以说啊，在解决Dubbo问题的时候，咱们得结合实际情况来分析，不能一概而论。就像穿衣服一样，得看天气、场合啥的，对吧？ --- 二、Dubbo报错信息的特点与常见原因 Dubbo的报错信息通常会包含一些关键信息，比如服务名称、接口版本、错误堆栈等。不过啊，这些东西通常不会直接告诉我们哪里出了岔子，得我们自己去刨根问底才行。比如说，你可能会看到这样的报错： Failed to invoke remote method: sayHello, on 127.0.0.1:20880 看到这个错误，你是不是会觉得很懵？其实这可能是因为你的服务端没有正确启动，或者客户端的配置不对。又或者是网络不通畅，导致客户端无法连接到服务端。再比如，你可能会遇到这种错误： No provider available for the service com.example.UserService on the consumer 192.168.1.100 use dubbo version 2.7.8 这表明你的消费者（也就是客户端）找不到提供者（也就是服务端）。哎呀，这问题八成是服务注册中心没整利索，要不就是服务提供方压根没成功注册上。我的建议是，遇到这种问题时，先别急着改代码，而是要冷静下来分析一下，是不是配置文件出了问题。比如说，你是不是忘记在dubbo.properties里填对了服务地址？ --- 三、排查报错的具体步骤接下来，咱们来聊聊怎么排查这些问题。首先，你需要确认服务端是否正常运行。你可以通过以下命令查看服务端的状态： bash netstat -tuln | grep 20880 如果看不到监听的端口，那肯定是服务端没启动成功。然后，检查服务注册中心是否正常工作。Dubbo支持多种注册中心，比如Zookeeper、Nacos等。如果你用的是Zookeeper，可以试试进入Zookeeper的客户端，看看服务是否已经注册： bash zkCli.sh -server 127.0.0.1:2181 ls /dubbo/com.example.UserService 如果这里看不到服务，那就说明服务注册中心可能有问题。最后，别忘了检查客户端的配置。客户端的配置文件通常是dubbo-consumer.xml，里面需要填写服务提供者的地址。例如： xml 如果地址写错了，当然就会报错了。 --- 四、代码示例与实际案例分析下面我给大家举几个具体的例子，让大家更直观地了解Dubbo的报错排查过程。示例1：服务启动失败假设你在本地启动服务端时，发现服务一直无法启动，报错如下： Failed to bind URL: dubbo://192.168.1.100:20880/com.example.UserService?anyhost=true&application=demo-provider&dubbo=2.7.8&interface=com.example.UserService&methods=sayHello&pid=12345&side=provider×tamp=123456789 经过检查，你会发现是因为服务端的application.name配置错了。修改后，重新启动服务端，问题就解决了。示例2：服务找不到假设你在客户端调用服务时，发现服务找不到，报错如下： No provider available for the service com.example.UserService on the consumer 192.168.1.100 use dubbo version 2.7.8 经过排查，你发现服务注册中心的地址配置错了。正确的配置应该是： xml 示例3：网络不通假设你在生产环境中，发现客户端和服务端之间的网络不通，报错如下： ConnectException: Connection refused 这时候，你需要检查防火墙设置，确保服务端的端口是开放的。同时，也要检查客户端的网络配置，确保能够访问服务端。 --- 五、总结与感悟总的来说，Dubbo的报错信息确实有时候让人摸不着头脑，但它并不是不可战胜的。只要你细心排查，结合具体的环境和配置，总能找到问题的根源。在这个过程中，我学到的东西太多了。比如说啊，别啥都相信默认设置，每一步最好自己动手试一遍，心里才踏实。再比如说，碰到问题的时候，先别忙着去找同事求助，自己多琢磨琢磨，说不定就能找到解决办法了呢！毕竟，编程的乐趣就在于不断解决问题的过程嘛！最后，我想说的是，Dubbo虽然复杂，但它真的很棒。希望大家都能掌握它，让它成为我们技术生涯中的一把利器！

2025-03-20 16:29:46

雪落无痕

Kibana

Kibana中设置数据保留策略：索引生命周期与滚动操作详解

...存了太多无用的数据，导致查询速度慢得像乌龟爬……这些问题是不是让你头疼？别担心，Kibana可以帮助我们轻松管理数据，而数据保留策略就是其中的重要一环。其实，数据保留策略的核心思想很简单：只保留必要的数据，删除那些不再需要的垃圾信息。这不仅能够节省宝贵的存储资源，还能提高系统的运行效率。所以，今天咱们就来深入探讨一下，如何在Kibana中搞定这个事儿！ --- 2. 数据保留策略是什么？为什么要用它？ 2.1 什么是数据保留策略？简单来说，数据保留策略就是定义数据的生命周期。比如说，“只留最近30天的记录”，或者是“超过一年的就自动清掉”。你可以根据业务需求灵活设置这些规则。 2.2 为什么我们需要它？想象一下，如果你是一家电商平台的数据分析师，每天都会生成大量的日志文件。这些日志里可能包含了用户的购买记录、浏览行为等重要信息。不过呢，日子一长啊，那些早期的日志就变得没啥分析的意义了，反而是白白占着磁盘空间，挺浪费的。这时候，数据保留策略就能帮你解决这个问题。再比如，如果你是一家医院的IT管理员，医疗设备产生的监控数据可能每秒都在增加。要是不赶紧把那些旧数据清理掉，系统非但会变得越来越卡，还可能出大问题，甚至直接“翻车”！所以，合理规划数据的生命周期是非常必要的。 --- 3. 如何在Kibana中设置数据保留策略？接下来，咱们进入正题——具体操作步骤。相信我，这并不复杂，只要跟着我的节奏走，你一定能学会！ 3.1 第一步：创建索引模式首先，我们需要确保你的数据已经被正确地存储到Elasticsearch中，并且可以通过Kibana访问。如果还没有创建索引模式，可以按照以下步骤操作： bash 登录Kibana界面 1. 点击左侧菜单栏中的“Management”。 2. 找到“Stack Management”部分，点击“Index Patterns”。 3. 点击“Create index pattern”按钮。 4. 输入你的索引名称（例如 "logstash-"），然后点击“Next step”。 5. 选择时间字段（通常是@timestamp），点击“Create index pattern”完成配置。 > 思考点：这里的关键在于选择合适的索引名称和时间字段。如果你的时间字段命名不规范，后续可能会导致数据无法正确筛选哦！ 3.2 第二步：设置索引生命周期策略接下来，我们要为索引创建生命周期策略。这是Kibana中最核心的部分，直接决定了数据的保留方式。示例代码： javascript PUT _ilm/policy/my_policy { "policy": { "phases": { "hot": { "actions": { "rollover": { "max_size": "50gb", "max_age": "30d" } } }, "delete": { "min_age": "1y", "actions": { "delete": {} } } } } } 这段代码的意思是： - 热阶段（Hot Phase）：当索引大小达到50GB或者超过30天时，触发滚动操作。 - 删除阶段（Delete Phase）：超过1年后，自动删除该索引。 > 小贴士：这里的max_size和max_age可以根据你的实际需求调整。比如，如果你的服务器内存较小，可以将max_size调低一点。 3.3 第三步：将策略应用到索引设置好生命周期策略后，我们需要将其绑定到具体的索引上。具体步骤如下： bash POST /my-index/_settings { "index.lifecycle.name": "my_policy", "index.lifecycle.rollover_alias": "my_index" } 这段代码的作用是将之前创建的my_policy策略应用到名为my-index的索引上。同时，通过rollover_alias指定滚动索引的别名。 --- 4. 实战案例数据保留策略的实际效果为了让大家更直观地理解数据保留策略的效果，我特意准备了一个小案例。假设你是一名电商公司的运维工程师，每天都会收到大量的订单日志，格式如下： json { "order_id": "123456789", "status": "success", "timestamp": "2023-09-01T10:00:00Z" } 现在，你想对这些日志进行生命周期管理，具体要求如下： - 最近3个月的数据需要保留。 - 超过3个月的数据自动归档到冷存储。 - 超过1年的数据完全删除。实现方案： 1. 创建索引模式，命名为orders-。 2. 定义生命周期策略 javascript PUT _ilm/policy/orders_policy { "policy": { "phases": { "hot": { "actions": { "rollover": { "max_size": "10gb", "max_age": "3m" } } }, "warm": { "actions": { "freeze": {} } }, "delete": { "min_age": "1y", "actions": { "delete": {} } } } } } 3. 将策略绑定到索引 bash POST /orders-/_settings { "index.lifecycle.name": "orders_policy", "index.lifecycle.rollover_alias": "orders" } 运行以上代码后，你会发现： - 每隔3个月，新的订单日志会被滚动到一个新的索引中。 - 超过3个月的旧数据会被冻结，存入冷存储。 - 超过1年的数据会被彻底删除，释放存储空间。 --- 5. 总结与展望通过今天的分享，相信大家对如何在Kibana中设置数据保留策略有了更深的理解。虽然设置过程看似繁琐，但实际上只需要几步就能搞定。而且啊，要是咱们好好用数据保留这招，不仅能让系统跑得更快、更顺畅，还能帮咱们把那些藏在数据里的宝贝疙瘩给挖出来，多好呀！最后，我想说的是，技术学习是一个不断探索的过程。如果你在实践中遇到问题，不妨多查阅官方文档或者向社区求助。毕竟，我们每个人都是技术路上的探索者，一起努力才能走得更远！好了，今天的分享就到这里啦！如果你觉得这篇文章有用，记得点赞支持哦~咱们下次再见！

2025-04-30 16:26:33

风轻云淡

Logstash

Logstash+Elasticsearch：实时索引与日志分析中的Grok过滤器和批量处理

...安全性，还大幅缩短了故障排查时间，显著提升了用户体验。另外，Logstash和Elasticsearch在安全领域的应用也日益广泛。据报道，一家国际网络安全公司利用Logstash和Elasticsearch构建了一套先进的威胁检测系统。该系统能够实时分析来自不同来源的安全日志，及时发现并预警潜在的攻击行为。这种方法不仅提高了安全响应的速度，还增强了防御体系的整体效能。除了企业级应用外，Logstash和Elasticsearch在科研领域也有广泛应用。一项由某著名大学的研究团队发表的论文指出，他们利用Logstash和Elasticsearch处理大规模科学实验数据，实现了高效的数据采集、清洗和分析。研究结果表明，这种组合不仅极大地提升了数据处理效率，还为科学研究提供了强有力的数据支持。值得注意的是，随着技术的不断发展，Logstash和Elasticsearch也在持续迭代更新。最新的版本引入了多项改进，包括增强的性能优化、更灵活的配置选项以及更丰富的插件生态系统。这些更新使得Logstash和Elasticsearch能够更好地适应多样化的应用场景，为企业和科研机构提供了更为强大的数据处理工具。综上所述，Logstash和Elasticsearch在企业级应用、安全防护以及科研领域均展现出巨大潜力，未来有望在更多领域发挥重要作用。

2024-12-17 15:55:35

追梦人

MySQL

MySQL错误日志中Too many open files解决实录：定位+配置+运维经验+调试优化

...开了过多的文件句柄，导致操作系统限制了它进一步的操作。为了验证这一点，我执行了一个简单的命令来检查当前系统的文件描述符限制： bash ulimit -n 结果显示默认值为1024。这意味着每个进程最多只能同时打开1024个文件。说实话，咱们的MySQL实例现在正忙着应付一大堆同时连进来的需求，还得折腾临时表呢。这么一看，那个限制就跟挠痒痒似的——太不够用了！接下来，我查看了MySQL的配置文件my.cnf，发现确实没有显式设置文件描述符的上限。于是，我修改了配置文件，将open_files_limit参数调整为更大的值： ini [mysqld] open_files_limit=65535 然后重启了MySQL服务，再次检查日志，果然，错误消失了！ --- 3. 实践中的代码调试与优化当然，仅仅解决问题还不够，我还想进一步优化整个系统的性能。于是，我编写了一些脚本来监控MySQL的运行状态，特别是文件描述符的使用情况。以下是一个简单的Python脚本，用于统计MySQL当前使用的文件描述符数量： python import psutil import subprocess def get_mysql_open_files(): 获取所有MySQL进程ID mysql_pids = [] result = subprocess.run(['pgrep', 'mysqld'], capture_output=True, text=True) for line in result.stdout.splitlines(): mysql_pids.append(int(line)) total_open_files = 0 for pid in mysql_pids: try: proc = psutil.Process(pid) open_files = len(proc.open_files()) print(f"Process {pid} has opened {open_files} files.") total_open_files += open_files except Exception as e: print(f"Error checking process {pid}: {e}") print(f"Total open files by MySQL processes: {total_open_files}") if __name__ == "__main__": get_mysql_open_files() 运行这个脚本后，我发现某些特定的查询会导致文件描述符迅速增加。经过分析，这些问题主要出现在涉及大文件读写的场景中。所以呢，我觉得咱们开发的小伙伴们得好好捯饬捯饬这些查询语句啦！比如说，能不能少建那些没用的临时表啊？再比如，能不能换个更快的存储引擎啥的？反正就是得让这个程序跑得更顺畅些，别老是卡在那里干瞪眼不是？ --- 4. 总结与反思从问题中学到的东西回顾这次经历，我深刻体会到，处理数据库问题时，不能仅凭直觉行事，而是要结合实际数据和技术手段，逐步排查问题的根本原因。同时，我也认识到，预防胜于治疗。如果能在日常运维中提前做好监控和预警，就可以避免很多突发状况。最后，我想分享一点个人感悟：技术之路永无止境，每一次遇到难题都是一次成长的机会。说实话，有时候真的会觉得头大，甚至怀疑自己是不是走错了路。但我觉得啊，这就好比在黑暗里找钥匙，你得不停地摸索、试错才行。只要别轻易放弃，一直在学、一直在练，总有一天你会发现，“！原来它在这儿呢！”就跟我在处理这个MySQL报错的时候似的，最后不光把问题搞定了，还顺带学了不少实用的招儿呢！如果你也遇到了类似的情况，不妨试试上面提到的方法，也许能帮到你！

2025-04-17 16:17:44

109

山涧溪流_

MemCache

MemCache服务连接超时？详解网络问题、调整超时时间、重试机制与客户端配置

...he集群崩溃的情况，导致部分订单数据丢失，给公司带来了巨大的经济损失。事后调查显示，问题的根本原因在于MemCache的主从同步机制未能及时应对突发流量，加上监控系统的滞后，未能第一时间发现问题并采取措施。针对这一事件，业内专家提出了几点改进建议。首先，应该引入更先进的分布式一致性协议，如Paxos或Raft算法，确保在节点故障时数据不会丢失。其次，加强监控系统的实时性，利用Prometheus等工具对MemCache的各项指标进行持续跟踪，一旦发现异常立即触发报警。此外，还可以考虑采用多活架构，即在同一地区部署多个MemCache集群，当某个集群出现问题时，能够迅速切换到备用集群，从而最大限度地降低业务中断的风险。与此同时，开源社区也在不断推进MemCache的功能完善。例如，最新的MemCache版本已经支持动态扩容，这意味着企业在高峰期可以通过快速增加节点来应对流量激增。同时，新的插件机制也让开发者可以根据自身需求定制化功能，比如添加额外的安全认证层或者优化数据压缩算法。总之，MemCache作为一种高效的缓存解决方案，在现代IT基础设施中扮演着不可或缺的角色。但要想充分发挥其潜力，企业必须正视潜在风险，积极拥抱技术创新，才能在激烈的市场竞争中立于不败之地。

2025-04-08 15:44:16

雪落无痕

转载文章

[转载]运维监控之Nagios实战(三)Nagios配置文件

...置文件出现错误，就会导致Nagios 无法正常工作。也很灵活,但只要掌握了其中的规律,就很简单了了解Nagios 的各个配置文件 1.主配置文件nagios.cfg nagios默认的配置文件比较少,并且将很主机,主机组,服务,服务组写在同一个文件中. 这样做的好处是配置文件管理比较方便,但是数据量大了之后,很难整理.所以建议将这些配置分开 cfg_file=/usr/local/nagios/etc/objects/commands.cfg cfg_file=/usr/local/nagios/etc/objects/contacts.cfg cfg_file=/usr/local/nagios/etc/objects/timeperiods.cfg cfg_file=/usr/local/nagios/etc/objects/templates.cfg cfg_file=/usr/local/nagios/etc/objects/contactgroups.cfg cfg_file=/usr/local/nagios/etc/objects/hosts.cfg cfg_file=/usr/local/nagios/etc/objects/hostgroups.cfg cfg_file=/usr/local/nagios/etc/objects/services.cfg cfg_file=/usr/local/nagios/etc/objects/servicegroups.cfg 改check_external_commands=0为check_external_commands=1.这行的作用是允许在web 界面下执行重启nagios、停止主机/服务检查等操作。把command_check_interval的值从默认的1 改成command_check_interval=15s（根据自己的情况定这个命令检查时间间隔，不要太长也不要太短）。 2.资源配置文件resource.cfg 资源文件可以保存用户自定义的宏.资源文件的一个主要用处是用于保存一些敏感的配置信息,如系统口令等不能让CGIs 程序模块获取到的东西 3.CGI配置文件cgi.cfg CGI 配置文件包含了一系列的设置,它们会影响CGIs程序模块.还有一些保存在主配置文件之中,因此CGI 程序会知道你是如何配置的Nagios并且在哪里保存了对象定义.最实际的例子就是,如果你想建立一个只有查看报警权限的用户,或者只有查看其中一些服务器或者服务状态的权限,通过修改cfi.cfg可以灵活的控制web访问端的权限. 4.主机定义文件定义你要监控的对象,这里定义的“host_name”被应用到其它的所有配置文件中，这个是我们配置Nagios 必须修改的配置文件. [root@test objects] vim hosts.cfg define host{ host_name Nagios-Server ; 设置主机的名字，该名字会出现在hostgroups.cfg 和services.cfg 中。注意，这个名字可以不是该服务器的主机名。 alias Nagios服务器 ; 别名 address 192.168.81.128 ; 主机的IP 地址 check_command check-host-alive ; 检查使用的命令，需要在命令定义文件定义，默认是定义好的。 check_interval 1 ; 检测的时间间隔 retry_interval 1 ; 检测失败后重试的时间间隔 max_check_attempts 3 ; 最大重试次数 check_period 24x7 ; 检测的时段 process_perf_data 0 retain_nonstatus_information 0 contact_groups sagroup ; 需要通知的联系组 notification_interval 30 ; 通知的时间间隔 notification_period 24x7 ; 通知的时间段 notification_options d,u,r ; 通知的选项 w—报警(warning)，u—未知(unkown) c—严重(critical)，r—从异常情况恢复正常 } define host{ host_name Nagios-Client alias Nagios客户端 address 192.168.81.129 check_command check-host-alive check_interval 1 retry_interval 1 max_check_attempts 3 check_period 24x7 process_perf_data 0 retain_nonstatus_information 0 contact_groups sagroup notification_interval 30 notification_period 24x7 notification_options d,u,r } 5.主机组定义文件主机组定义文件,可以方便的将相同功能或者在应用上相同的服务器添加到一个主机组里,在WEB 界面可以通过HOST Group 方便的查看该组主机的状态信息. 将刚才定义的两个主机加入到主机组中,针对生产环境就像把所有的MySQL 服务器加到一个MySQL主机组里,将Oracle 服务器加到一个Oracle 主机组里,方便管理和查看,可以配置多个组. [root@test objects] vim hostgroups.cfg define hostgroup { hostgroup_name Nagios-Example ; 主机组名字 alias Nagios 主机组 ; 主机组别名 members Nagios-Server,Nagios-Client ; 主机组成员，用逗号隔开 } 6.服务定义文件服务定义文件定义你需要监控的对象的服务,比如本例为检测主机是否存活,在后面会讲到如何监控其它服务,比如服务器负载、内存、磁盘等. [root@test objects] vim services.cfg define service { host_name Nagios-Server ; hosts.cfg 定义的主机名称 service_description check-host-alive ; 服务描述 check_period 24x7 ; 检测的时间段 max_check_attempts 3 ; 最大检测次数 normal_check_interval 3 retry_check_interval 2 contact_groups sagroup ; 发生故障通知的联系人组 notification_interval 10 notification_period 24x7 ; 通知的时间段 notification_options w,u,c,r check_command check-host-alive } define service { host_name Nagios-Client service_description check-host-alive check_period 24x7 max_check_attempts 3 normal_check_interval 3 retry_check_interval 2 contact_groups sagroup notification_interval 10 notification_period 24x7 notification_options w,u,c,r check_command check-host-alive } 7.服务组定义文件和主机组一样,我们可以按需将相同的服务放入一个服务组,这样有规律的分类,便于我们在WEB端查看. [root@test objects] vim servicegroups.cfg define servicegroup{ servicegroup_name Host-Alive ; 组名 alias Host Alive ; 别名设置 members Nagios-Server,check-host-alive,Nagios-Client,check-host-alive } 8.联系人定义文件定义发生故障时,需要通知的联系人信息.默认安装完成后，该配置文件已经存在,而且该文件不仅定义了联系人,也定义了联系人组,为了条理化的规划,我们把联系人定义放在contacts.cfg文件里,把联系人组放在contactgroups.cfg文件中. [root@test objects] mv contacts.cfg contacts.cfg.bak [root@test objects] vim contacts.cfg define contact{ contact_name maoxian ; 联系人的名字 alias maoxian ; 别名 service_notification_period 24x7 ; 服务报警的时间段 host_notification_period 24x7 ; 主机报警的时间段 service_notification_options w,u,c,r ; 就是在这四种情况下报警。 host_notification_options d,u,r ;同上。服务报警发消息的命令，在command.cfg 中定义。 service_notification_commands notify-service-by-email 服务报警发消息的命令，在command.cfg 中定义。 host_notification_commands notify-host-by-email email wangyx088@gmail.com ; 定义邮件地址，也就是接收报警邮件地址。 } 9.联系人组定义文件联系人组定义文件在实际应用中很有好处,我们可以把报警信息分级别,报联系人分级别存放在联系人组里面.例如：当发生一些警告信息的情况下,只发邮件给系统工程师联系人组即可,但是当发生重大问题,比如主机宕机了,可以发给领导联系人组. [root@test objects] vim contactgroups.cfg define contactgroup{ contactgroup_name sagroup ; 组名 alias Nagios Administrators ; 别名 members maoxian ; 联系人组成员 } 10.命令定义文件 commands.cfg 命令定义文件是Nagios中很重要的配置文件,所有在hosts.cfg还是services.cfg使用的命令都必须在命令定义文件中定义才能使用.默认情况下,范例配置文件已经配置好了日常需要使用的命令,所以一般不做修改. 11.时间段定义文件 timeperiods.cfg 我们在检测、通知、报警的时候都需要定义时间段,默认都是使用7x24,这也是默认配置文件里配置好的,如果你需要周六日不做检测,或者在制定的维护时间不做检测,都可以在该时间段定义文件定义好,这样固定维护的时候,就不会为大量的报警邮件或者短信烦恼 [root@test objects] cat timeperiods.cfg |grep -v "^" |grep -v "^$" 可以根据业务需求来更改 12.启动Nagios 1> 修改配置文件所有者 [root@test objects] chown -R nagios:nagios /usr/local/nagios/etc/objects/ 2> 检测配置是否正确 [root@test objects] /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg 如果配置错误,会给出相应的报错信息,可以根据信息查找,注意,如果配置文件中有不可见字符也可以导致配置错误 3> 重载Nagios [root@test objects] service nagios restart 本文出自 “毛线的linux之路” 博客，请务必保留此出处http://maoxian.blog.51cto.com/4227070/756516 本篇文章为转载内容。原文链接：https://blog.csdn.net/gzh0222/article/details/8549202。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-16 20:48:42

483

转载

Apache Lucene

文本检索挑战：从Lucene的EOFException剖析分词器与分析器配置

...：如果输入的文本长度不足以产生足够的令牌，TokenStream 可能会过早地报告结束。 - 解析问题：在复杂的文本结构下，解析器可能未能正确地分割文本，导致部分文本未被识别为有效的令牌。为了应对这种情况，我们可以采取以下策略： - 增加文本长度：确保输入的文本足够长，以生成多个令牌。 - 优化解析器配置：根据特定的应用场景调整分析器的配置，例如使用不同的分词器（如 CJKAnalyzer）来适应不同语言的需求。 - 错误处理机制：在代码中加入适当的错误处理逻辑，以便在遇到 EOFException 时进行相应的处理，例如记录日志、提示用户重新输入更长的文本等。结语：拥抱挑战，驾驭全文检索面对 org.apache.lucene.analysis.TokenStream$EOFException: End of stream 这样的挑战，我们的目标不仅仅是解决问题，更是通过这样的经历深化对 Lucene 工作原理的理解。哎呀，你猜怎么着？咱们在敲代码、调参数的过程中，不仅技术越来越溜，还能在处理那些乱七八糟的数据时，感觉自己就像个数据处理的小能手，得心应手的呢！就像是在厨房里，熟练地翻炒各种食材，做出来的菜品色香味俱全，让人赞不绝口。编程也是一样，每一次的实践和调试，都是在给我们的技能加料，让我们的作品越来越美味，越来越有营养！嘿！兄弟，听好了，每次遇到难题都像是在给咱的成长加个buff，咱们得一起揭开全文检索的神秘面纱，掌控技术的大棒，让用户体验到最棒、最快的搜索服务，让每一次敲击键盘都能带来惊喜！ --- 以上内容不仅涵盖了理论解释与代码实现，还穿插了人类在面对技术难题时的思考与探讨，旨在提供一种更加贴近实际应用、充满情感与主观色彩的技术解读方式。

2024-07-25 00:52:37

392

青山绿水

Netty

Netty如何通过异常处理、长连接复用、零拷贝技术和心跳检测实现故障恢复

... Netty如何实现故障恢复？一、背景与初衷嘿，各位搞技术的小伙伴们！今天咱们聊聊一个超级重要的东西——Netty。如果你正在做网络编程或者分布式系统开发，那一定绕不开它。Netty作为一个高性能、异步事件驱动的Java网络应用框架，简直是程序员的福音。话说回来，再厉害的工具也不是全能的啊，在那种超高并发、必须稳如老狗的场景里，总免不了会出点幺蛾子。今天咱们就来聊聊Netty是如何帮我们实现故障恢复的。说到故障恢复，其实很多人可能会觉得这是个很玄乎的事情。但其实，Netty在这方面做得相当出色。它的设计思路非常人性化，既考虑了性能，也兼顾了稳定性。咱们可以从以下几个方面入手，看看它是怎么做到的。 --- 二、为什么需要故障恢复？首先，咱们得明白一个问题：为什么我们需要故障恢复？在现实世界中，网络环境复杂多变，服务器宕机、网络抖动、数据丢失等情况随时随地可能发生。如果我们的程序没有应对这些问题的能力，那后果简直不堪设想！想象一下，你正在做一个在线支付系统，用户刚输入完支付信息，结果服务器突然挂了，这笔交易失败了。哎呀，这要是让用户碰上了，那可真是抓狂了！所以啊，咱们得想点办法，给系统加点“容错”的本事，不然出了问题用户可就懵圈了。说白了，故障恢复不就是干这个的嘛，就是为了不让小问题变成大麻烦！ Netty在这方面做得非常到位。它有一套挺管用的招数，就算网络突然“捣乱”或者出问题了，也能尽量把损失降到最低，然后赶紧恢复到正常状态，一点儿都不耽误事儿。接下来，咱们就一步步拆解这些机制。 --- 三、Netty的故障恢复机制 3.1 异常处理与重试机制首先，咱们来看看Netty最基础的故障恢复手段：异常处理与重试机制。 Netty提供了一种优雅的方式来处理异常。好比说呗，当客户端和服务器之间的连接突然“闹别扭”了，Netty就会立刻反应过来，自动给我们发个提醒，就像是“叮咚！出问题啦！”这样，咱们就能赶紧去处理这个小麻烦了。具体代码如下： java // 定义一个ChannelFutureListener，用于监听连接状态 ChannelFuture future = channel.connect(remoteAddress); future.addListener((ChannelFutureListener) futureListen -> { if (!futureListen.isSuccess()) { System.out.println("连接失败，尝试重新连接..."); // 这里可以加入重试逻辑 scheduleRetry(); } }); 在这段代码中，我们通过addListener为连接操作添加了一个监听器。如果连接失败，我们会打印一条日志并调用scheduleRetry()方法。这个办法啊，特别适合用来搞那种简单的重试操作，比如说隔一会儿就再试试重新连上啥的，挺实用的！当然啦，实际项目中可能需要更复杂的重试策略，比如指数退避算法。不过Netty已经为我们提供了足够的灵活性，剩下的就是根据需求去实现啦！ --- 3.2 零拷贝技术与内存管理接下来，咱们聊聊另一个关键点：零拷贝技术与内存管理。在高并发场景下，频繁的数据传输会导致内存占用飙升，进而引发GC（垃圾回收）风暴。Netty通过零拷贝技术很好地解决了这个问题。简单说呢，零拷贝技术就像是给数据开了一条“直达通道”，不用再把数据倒来倒去地复制一遍，就能让它直接从这儿跑到那儿。举个例子，假设我们要将文件内容发送给远程客户端，传统的做法是先将文件读取到内存中，然后再逐字节写入Socket输出流。这样不仅效率低下，还会浪费大量内存资源。Netty 这家伙可聪明了，它能用 FileRegion 类直接把文件塞进 Socket 通道里，这样就省得在内存里来回倒腾数据啦，效率蹭蹭往上涨！ java // 使用FileRegion发送文件 FileInputStream fileInputStream = new FileInputStream(new File("data.txt")); FileRegion region = new DefaultFileRegion(fileInputStream.getChannel(), 0, fileSize); channel.writeAndFlush(region); 在这段代码中，我们利用DefaultFileRegion将文件内容直接传递给了Netty的通道，大大提升了传输效率。 --- 3.3 长连接复用与心跳检测第三个重要的机制是长连接复用与心跳检测。在高并发环境下，频繁创建和销毁TCP连接的成本是非常高的。所以啊，Netty这个家伙超级聪明，它能让一个TCP连接反复用，不用每次都重新建立新的连接。这就像是你跟朋友煲电话粥，不用每次说完一句话就挂断重拨，直接接着聊就行啦，省心又省资源！与此同时，为了防止连接因为长时间闲置而失效，Netty还引入了心跳检测机制。简单说吧，就像你隔一会儿给对方发个“我还在线”的消息，就为了确认你们的联系没断就行啦！ java // 设置心跳检测参数 Bootstrap bootstrap = new Bootstrap(); bootstrap.option(ChannelOption.SO_KEEPALIVE, true); // 开启TCP保活功能 bootstrap.option(ChannelOption.CONNECT_TIMEOUT_MILLIS, 5000); // 设置连接超时时间在这里，我们通过设置SO_KEEPALIVE选项开启了TCP保活功能，并设置了最长的连接等待时间为5秒。这样一来，即使网络出现短暂中断，Netty也会自动尝试恢复连接。 --- 3.4 数据缓冲与批量处理最后一个要点是数据缓冲与批量处理。在网络通信过程中，数据的大小和频率往往不可控。要是每次传来的数据都一点点的，那老是去处理这些小碎数据，就会多花不少功夫啦。Netty通过内置的缓冲区（Buffer）解决了这个问题。例如，我们可以使用ByteBuf来存储和处理接收到的数据。ByteBuf就像是内存管理界的“万金油”，不仅能够灵活地伸缩大小，还能轻松应对各种编码需求，简直是程序员手里的瑞士军刀！ java // 创建一个ByteBuf实例 ByteBuf buffer = Unpooled.buffer(1024); buffer.writeBytes(data); // 处理数据 while (buffer.readableBytes() > 0) { byte b = buffer.readByte(); process(b); } 在这段代码中，我们首先创建了一个容量为1024字节的缓冲区，然后将接收到的数据写入其中。接着，我们通过循环逐个读取并处理缓冲区中的数据。这种方式不仅可以提高处理效率，还能更好地应对突发流量。 --- 四、总结与展望好了，朋友们，今天的分享就到这里啦！通过上面的内容，相信大家对Netty的故障恢复机制有了更深的理解。不管是应对各种意外情况的异常处理，还是能让数据传输更高效的零拷贝技术，又或者是能重复利用长连接和设置数据缓冲这些招数，Netty可真是个实力派选手啊！不过，技术的世界永远没有尽头。Netty虽然已经足够优秀，但在某些特殊场景下仍可能存在局限性。未来的日子啊，我超级期待能看到更多的小伙伴，在Netty的基础上大展身手，把自己的系统捯饬得既聪明又靠谱，简直就像给它装了个“智慧大脑”一样！最后，我想说的是，技术的学习是一个不断探索的过程。希望大家能在实践中积累经验，在挑战中成长进步。如果你有任何疑问或者想法，欢迎随时留言交流哦！祝大家都能写出又快又稳的代码，一起迈向技术巅峰吧！😎

2025-03-19 16:22:40

红尘漫步

Sqoop

Sqoop在数据迁移中因透明性不足导致作业失败的案例分析

...时提供自动化的监控和故障恢复机制。这种云原生解决方案大幅降低了传统本地部署工具的复杂度，使得中小企业也能轻松实现大规模数据迁移。值得注意的是，数据隐私法规的变化对数据迁移工具提出了更高的合规要求。欧盟的《通用数据保护条例》（GDPR）和美国加州的《消费者隐私法》（CCPA）等法律框架，都对企业如何收集、存储和传输个人数据作出了严格规定。因此，企业在选用数据迁移工具时，不仅要考虑技术层面的兼容性和稳定性，还需要确保工具符合最新的法律法规，以避免潜在的法律风险。在未来，随着人工智能和机器学习技术的进步，数据迁移工具将进一步智能化。例如，利用AI算法预测数据迁移过程中可能出现的问题，并提前采取措施优化流程，将成为行业发展的新方向。同时，开源社区的持续贡献也将推动工具的创新，为企业提供更多低成本、高效率的解决方案。总之，数据迁移领域的技术创新正在加速演进，为企业的数据管理带来了前所未有的机遇和挑战。

2025-03-22 15:39:31

风中飘零

转载文章

[转载]Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

...不到该元素节点，经过排查了解到这个标签是通过js生成的，于是我转换了思路，通过获取最后一个页号来得到一共分了多少页 Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();Elements els = root_doc.select("main .page a");//这里els.eq(els.size() - 2的原因是后边确定按钮用的是a标签要去掉，再去掉一个“下一页”标签Integer page = Integer.parseInt(els.eq(els.size() - 2).text()); 分类页中图片所在的标签结构为：分类页面下的图片不是我们想要的，我们想要的是点击进去详细页的高清大图，所以需要获取a标签的链接，再从这个链接中获取真正想要的图片。详细页中图片所在的标签结构为：二、代码实现到这里分类页分析的差不多了，我们通过代码来进行获取图片。首先导入Jsoup的jar包：jsoup-1.12.1.jar，如果采用Maven请导入下边的依赖。 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.12.1</version></dependency> 在utils创建JsoupPic类，并添加getPic方法，代码如下： public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");//获取所有图片的链接System.out.println(elements1);} }} 在分类页中有一个隐藏的问题图片：正常的图片链接都是以“/”开头，以“.htm”结尾，而每个分类下的第三张图片的链接都是“http://pic.netbian.com/”，如果不过滤的话会报如下错误：所以这里必须要判断一下: Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");//判断是否是以“/”开头if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");System.out.println(elements1);} } 到这里，页面就已经分析好了，问题基本上已经解决了，接下来我们需要将图片存到我们的系统里，这里我将图片保存到我的电脑桌面上，并按照分类来存储图片。首先是要获取桌面路径，在utils包下创建Download类，添加getDesktop方法，代码如下： public static File getDesktop(){FileSystemView fsv = FileSystemView.getFileSystemView();File path=fsv.getHomeDirectory(); return path;} 接着我们再该类中添加下载图片的方法： //urlPath为网络图片的路径，savePath为要保存的本地路径（这里指定为桌面下的images文件夹）public static void download(String urlPath,String savePath) throws Exception {// 构造URLURL url = new URL(urlPath);// 打开连接URLConnection con = url.openConnection();//设置请求超时为5scon.setConnectTimeout(51000);// 输入流InputStream is = con.getInputStream();// 1K的数据缓冲byte[] bs = new byte[1024];// 读取到的数据长度int len;// 输出的文件流File sf=new File(savePath);int randomNo=(int)(Math.random()1000000);String filename=urlPath.substring(urlPath.lastIndexOf("/")+1,urlPath.length());//获取服务器上图片的名称filename=new java.text.SimpleDateFormat("yyyy-MM-dd-HH-mm-ss").format(new Date())+randomNo+filename;//时间+随机数防止重复OutputStream os = new FileOutputStream(sf.getPath()+"\\"+filename);// 开始读取while ((len = is.read(bs)) != -1) {os.write(bs, 0, len);}// 完毕，关闭所有链接os.close();is.close();} 写好后，我们再完善一下JsouPic中的getPic方法。 public static void getPic(String kind) throws Exception {//get请求方式进行请求Document root_doc = Jsoup.connect("http://www.netbian.com/" + kind + "/").get();//获取分页标签，用于获取总页数Elements els = root_doc.select("main .page a");Integer page = Integer.parseInt(els.eq(els.size() - 2).text());for (int i = 1; i < page; i++) {Document document = null;//这里判断的是当前页号是否为1，如果为1就不拼页号，否则拼上对应的页号if (i == 1) {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index.htm").get();} else {document = Jsoup.connect("http://www.netbian.com/" + kind + "/index_" + i + ".htm").get();}File desktop = Download.getDesktop();Download.checkPath(desktop.getPath() + "\\images\\" + kind);//获取每个分页链接里面a标签的链接，进入链接页面获取当前图拼的大尺寸图片Elements elements = document.select("main .list li a");for (Element element : elements) {String href = element.attr("href");if (href.startsWith("/")) {String picUrl = "http://www.netbian.com" + href;Document document1 = Jsoup.connect(picUrl).get();Elements elements1 = document1.select(".endpage .pic p a img");Download.download(elements1.attr("src"), desktop.getPath() + "\\images\\" + kind);} }} } 在Download类中，我添加了checkPath方法，用于判断目录是否存在，不存在就创建一个。 public static void checkPath(String savePath) throws Exception {File file = new File(savePath);if (!file.exists()){file.mkdirs();} } 最后在mainapp包内创建PullPic类，并添加主方法。 package com.asahi.mainapp;import com.asahi.common.Kind;import com.asahi.common.PrintLog;import com.asahi.utils.JsoupPic;import java.util.Scanner;public class PullPic {public static void main(String[] args) throws Exception {new PullPic().downloadPic();}public void downloadPic() throws Exception {System.out.println("启动程序>>\n请输入所爬取的分类：");Scanner scanner = new Scanner(System.in);String kind = scanner.next();while(!Kind.contains(kind)){System.out.println("分类不存在，请重新输入：");kind = scanner.next();}System.out.println("分类输入正确！");System.out.println("开始下载>>");JsoupPic.getPic(kind);} } 三、成果展示最终的运行结果如下：最终的代码已上传到我的github中，点击“我的github”进行查看。在学习Java爬虫的过程中，我收获了很多，一开始做的时候确实遇到了很多困难，这次写的获取图片也是最基础的，还可以继续深入。本来我想写一个通过多线程来获取图片来着，也尝试着去写了一下，越写越跑偏，暂时先放着不处理吧，等以后有时间再来弄，我想问题应该不大，只是考虑的东西有很多。希望大家多多指点不足，有哪些需要改进的地方，我也好多学习学习๑乛◡乛๑。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_39693281/article/details/108463868。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-06-12 10:26:04

130

转载

转载文章

[转载]同事拿下阿里菜鸟P6offer，程序员：没看两本书还真不敢去跳槽

...了什么工作？ Jvm内存模型，垃圾回收机制，如何确定被清除的对象？了解哪些垃圾回收器和区别？多线程相关，线程池的参数列表和拒绝策略 Jvm如何分析出哪个对象上锁？ Mysql索引类型和区别，事务的隔离级别和事务原理 Spring scope 和设计模式 Sql优化三面 fullgc的时候会导致接口的响应速度特别慢，该如何排查和解决？项目内存或者CPU占用率过高如何排查？ ConcurrentHashmap原理数据库分库分表 MQ相关，为什么kafka这么快，什么是零拷贝？小算法题 http和https协议区别，具体原理四面(Leader) 手画自己项目的架构图，并且针对架构和中间件提问印象最深的一本技术书籍是什么？五面(HR) 没什么过多的问题，主要就是聊了一下自己今后的职业规划，告知了薪资组成体系等等。插播一条福利！！！最近整理了一套1000道面试题的文档(详细内容见文首推荐文章)，以及大厂面试真题，和最近看的几本书。需要刷题和跳槽的朋友，这些可以免费赠送给大家，帮忙转发文章，宣传一下，后台私信【面试】免费领取！小天：好像问了两次看书的情况诶？现在面试还问这个？程序员H：是啊，幸亏之前为了弄懂JVM还看了两本书，不然真不知道说啥了！小天：看来，我也要找几本书去看了，感情没看过两本书都不敢跳槽了！程序员H：对了，还有简历，告诉你一个捷径简历尽量写好一些，项目经验突出： 1、自己的知识广度和深度 2、自身的优势 3、项目的复杂性和难度以及指标 4、自己对于项目做的贡献或者优化程序员H：唉~这还不能走可怎么办呀！你说，我把主管打一顿，是不是马上就可以走了？小天：... 查看全文 http://www.taodudu.cc/news/show-3387369.html 相关文章：阿里菜鸟面经 Java后端开发社招三年已拿offer 阿里菜鸟网络(一面) 2021年阿里菜鸟网络春招实习岗面试分享，简历+面试+面经全套资料！阿里菜鸟国际Java研发面经(三面+总结):JVM+架构+MySQL+Redis等 2021年3月29日阿里菜鸟实习面试（一面）（含部分总结） mongodb 子文档排序_猫鼬101：基础知识，子文档和人口简介特征工程计算方法Gauss-Jordan消去法求线性方程组的解使用(VAE)生成建模,理解可变自动编码器背后的数学原理视觉SLAM入门 -- 学习笔记 - Part2 带你入门nodejs第一天——node基础语法及使用 python3数据结构_Python3-数据结构 debezium-connect-oracle使用相关数值分析多种算法代码 android iphone treeview,Android之IphoneTreeView带组指示器的ExpandableListView效果 nginx rewrite功能使用 3-3 OneHot编码 JavaWeb：shiro入门小案例 MySQL的定义、操作、控制、查询语言的用法 MongoDB入门学习(三)：MongoDB的增删查改赋值、浅复制和深复制解析以及get/set应用他是吴恩达导师，被马云聘为「达摩院」首座 Jordan 标准型定理列主元的Gauss-Jordan消元法-python实现 Jordan 块的几何若尔当型（The Jordan form）第七章其他神经网络类型解决迁移系统后无法配置启用WindowsRE环境的问题宝塔面板迁移系统盘/www到数据盘/home 使用vmware vconverter从物理机迁移系统到虚拟机P2V 本篇文章为转载内容。原文链接：https://blog.csdn.net/m0_62695120/article/details/124510157。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-08 20:01:49

转载

转载文章

[转载]大数据——海量数据处理的基本方法总结

...解决，无法一次性装入内存。本文在前人的基础上总结一下解决此类问题的办法。那么有什么解决办法呢? 时间复杂度方面，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树。空间复杂度方面，分而治之/hash映射。海量数据处理的基本方法总结起来分为以下几种：分而治之/hash映射 + hash统计 + 堆/快速/归并排序；双层桶划分； Bloom filter/Bitmap； Trie树/数据库/倒排索引；外排序；分布式处理之Hadoop/Mapreduce。前提基础知识： 1 byte= 8 bit。 int整形一般为4 bytes 共32位bit。 2^32=4G。 1G=2^30=10.7亿。 1 分而治之+hash映射+快速/归并/堆排序问题1 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？分析：50亿64=320G大小空间。算法思想1：hash 分解+ 分而治之 + 归并遍历文件a，对每个url根据某种hash规则求取hash(url)/1024，然后根据所取得的值将url分别存储到1024个小文件（a0~a1023）中。这样每个小文件的大约为300M。如果hash结果很集中使得某个文件ai过大，可以在对ai进行二级hash(ai0~ai1024)。这样url就被hash到1024个不同级别的目录中。然后可以分别比较文件，a0VSb0……a1023VSb1023。求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_map中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_map中，如果是，那么就是共同的url，存到文件里面就可以了。把1024个级别目录下相同的url合并起来。问题2 有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。解决思想1：hash分解+ 分而治之 +归并顺序读取10个文件a0~a9，按照hash(query)%10的结果将query写入到另外10个文件（记为 b0~b9）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。找一台内存2G左右的机器，依次对用hash_map(query, query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件c0~c9。对这10个文件c0~c9进行归并排序（内排序与外排序相结合）。每次取c0~c9文件的m个数据放到内存中，进行10m个数据的归并，即使把归并好的数据存到d结果文件中。如果ci对应的m个数据全归并完了，再从ci余下的数据中取m个数据重新加载到内存中。直到所有ci文件的所有数据全部归并完成。解决思想2： Trie树如果query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。在这种假设前提下，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。问题3：有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。类似问题：怎么在海量数据中找出重复次数最多的一个？解决思想： hash分解+ 分而治之+归并顺序读文件中，对于每个词x，按照hash(x)/(10244)存到4096个小文件中。这样每个文件大概是250k左右。如果其中的有的文件超过了1M大小，还可以按照hash继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100词及相应的频率存入文件。这样又得到了4096个文件。下一步就是把这4096个文件进行归并的过程了。（类似与归并排序）问题4 海量日志数据，提取出某日访问百度次数最多的那个IP 解决思想： hash分解+ 分而治之 + 归并把这一天访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有2^32个IP。同样可以采用hash映射的方法，比如模1024，把整个大文件映射为1024个小文件。再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1024组最大的IP中，找出那个频率最大的IP，即为所求。问题5 海量数据分布在100台电脑中，想个办法高效统计出这批数据的TOP10。解决思想：分而治之 + 归并。注意TOP10是取最大值或最小值。如果取频率TOP10，就应该先hash分解。在每台电脑上求出TOP10，采用包含10个元素的堆完成（TOP10小，用最大堆，TOP10大，用最小堆）。比如求TOP10大，我们首先取前10个元素调整成最小堆，如果发现，然后扫描后面的数据，并与堆顶元素比较，如果比堆顶元素大，那么用该元素替换堆顶，然后再调整为最小堆。最后堆中的元素就是TOP10大。求出每台电脑上的TOP10后，然后把这100台电脑上的TOP10组合起来，共1000个数据，再利用上面类似的方法求出TOP10就可以了。问题6 在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数。解决思路1 ： hash 分解+ 分而治之 + 归并 2.5亿个int数据hash到1024个小文件中a0~a1023，如果某个小文件大小还大于内存，进行多级hash。每个小文件读进内存，找出只出现一次的数据，输出到b0~b1023。最后数据合并即可。解决思路2 ： 2-Bitmap 如果内存够1GB的话，采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存2^322bit=1GB内存。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。注意，如果是找出重复的数据，可以用1-bitmap。第一次bit位由0变1，第二次查询到相应bit位为1说明是重复数据，输出即可。问题7 一共有N个机器，每个机器上有N个数。每个机器最多存O(N)个数并对它们操作。如何找到N^2个数中的中数？解决思想1 ： hash分解 + 排序按照升序顺序把这些数字，hash划分为N个范围段。假设数据范围是2^32 的unsigned int 类型。理论上第一台机器应该存的范围为0~(2^32)/N，第i台机器存的范围是(2^32)(i-1)/N~(2^32)i/N。hash过程可以扫描每个机器上的N个数，把属于第一个区段的数放到第一个机器上，属于第二个区段的数放到第二个机器上，…，属于第N个区段的数放到第N个机器上。注意这个过程每个机器上存储的数应该是O(N)的。然后我们依次统计每个机器上数的个数，一次累加，直到找到第k个机器，在该机器上累加的数大于或等于（N^2）/2，而在第k-1个机器上的累加数小于（N^2）/2，并把这个数记为x。那么我们要找的中位数在第k个机器中，排在第（N^2）/2-x位。然后我们对第k个机器的数排序，并找出第（N^2）/2-x个数，即为所求的中位数的复杂度是O（N^2）的。解决思想2：分而治之 + 归并先对每台机器上的数进行排序。排好序后，我们采用归并排序的思想，将这N个机器上的数归并起来得到最终的排序。找到第（N^2）/2个便是所求。复杂度是O（N^2 lgN^2）的。 2 Trie树+红黑树+hash_map 这里Trie树木、红黑树或者hash_map可以认为是第一部分中分而治之算法的具体实现方法之一。问题1 上千万或上亿数据（有重复），统计其中出现次数最多的钱N个数据。解决思路：红黑树 + 堆排序如果是上千万或上亿的int数据，现在的机器4G内存可以能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计重复次数。然后取出前N个出现次数最多的数据，可以用包含N个元素的最小堆找出频率最大的N个数据。问题2 1000万字符串，其中有些是重复的，需要把重复的全部去掉，保留没有重复的字符串。请怎么设计和实现？解决思路：trie树。这题用trie树比较合适，hash_map也应该能行。问题3 一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。解决思路： trie树 + 堆排序这题是考虑时间效率。 1. 用trie树统计每个词出现的次数，时间复杂度是O(nlen)（len表示单词的平准长度）。 2. 然后找出出现最频繁的前10个词，可以用堆来实现，前面的题中已经讲到了，时间复杂度是O(nlg10)。总的时间复杂度，是O(nle)与O(nlg10)中较大的哪一个。问题4 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录，这些查询串的重复读比较高，虽然总数是1千万，但是如果去除重复和，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就越热门。请你统计最热门的10个查询串，要求使用的内存不能超过1G。解决思想： trie树 + 堆排序采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3 BitMap或者Bloom Filter 3.1 BitMap BitMap说白了很easy，就是通过bit位为1或0来标识某个状态存不存在。可进行数据的快速查找，判重，删除，一般来说适合的处理数据范围小于82^32。否则内存超过4G，内存资源消耗有点多。问题1 已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。解决思路： bitmap 8位最多99 999 999，需要100M个bit位，不到12M的内存空间。我们把0-99 999 999的每个数字映射到一个Bit位上，所以只需要99M个Bit==12MBytes，这样，就用了小小的12M左右的内存表示了所有的8位数的电话问题2 2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。解决思路：2bit map 或者两个bitmap。将bit-map扩展一下，用2bit表示一个数即可，00表示未出现，01表示出现一次，10表示出现2次及以上，11可以暂时不用。在遍历这些数的时候，如果对应位置的值是00，则将其置为01；如果是01，将其置为10；如果是10，则保持不变。需要内存大小是2^32/82=1G内存。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map，都是一样的道理。 3.2 Bloom filter Bloom filter可以看做是对bit-map的扩展。参考july大神csdn文章 Bloom Filter 详解 4 Hadoop+MapReduce 参考引用july大神 csdn文章 MapReduce的初步理解 Hadoop框架与MapReduce模式转载请注明本文地址：大数据——海量数据处理的基本方法总结本篇文章为转载内容。原文链接：https://blog.csdn.net/hong2511/article/details/80842704。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-03-01 12:40:17

541

转载

转载文章

[转载]项目维护几年了，为啥还这么卡？

...都比较复杂，如CPU内存大小，IO操作，锁操作，低效的算法等都会引起卡顿。站在开发的角度看：通常我们讲，屏幕刷新率是60fps，需要在16ms内完成所有的工作才不会造成卡顿。为什么是16ms，不是17，18呢？下面我们先来理清在UI绘制中的几个概念： SurfaceFlinger： SurfaceFlinger作用是接受多个来源的图形显示数据Surface，合成后发送到显示设备,比如我们的主界面中：可能会有statusBar，侧滑菜单，主界面，这些View都是独立Surface渲染和更新，最后提交给SF后，SF根据Zorder，透明度，大小，位置等参数，合成为一个数据buffer，传递HWComposer或者OpenGL处理，最终给显示器。在显示过程中使用到了bufferqueue，surfaceflinger作为consumer方，比如windowmanager管理的surface作为生产方产生页面，交由surfaceflinger进行合成。 VSYNC Android系统每隔16ms发出VSYNC信号，触发对UI进行渲染，VSYNC是一种在PC上很早就有应用，可以理解为一种定时中断技术。 tearing 问题：早期的 Android 是没有 vsync 机制的，CPU 和 GPU 的配合也比较混乱，这也造成著名的 tearing 问题，即 CPU/GPU 直接更新正在显示的屏幕 buffer 造成画面撕裂。后续 Android 引入了双缓冲机制，但是 buffer 的切换也需要一个比较合适的时机，也就是屏幕扫描完上一帧后的时机，这也就是引入 vsync 的原因。早先一般的屏幕刷新率是 60fps，所以每个 vsync 信号的间隔也是 16ms，不过随着技术的更迭以及厂商对于流畅性的追求，越来越多 90fps 和 120fps 的手机面世，相对应的间隔也就变成了 11ms 和 8ms。 VSYNC信号种类： 1.屏幕产生的硬件VSYNC：硬件VSYNC是一种脉冲信号，起到开关和触发某种操作的作用。 2.由SurfaceFlinger将其转成的软件VSYNC信号，经由Binder传递给Choreographer Choreographer：编舞者，用于注册VSYNC信号并接收VSYNC信号回调，当内部接收到这个信号时最终会调用到doFrame进行帧的绘制操作。 Choreographer在系统中流程：如何通过Choreographer计算掉帧情况：原理就是: 通过给Choreographer设置FrameCallback，在每次绘制前后看时间差是16.6ms的多少倍，即为前后掉帧率。使用方式如下： //Application.javapublic void onCreate() {super.onCreate();//在Application中使用postFrameCallbackChoreographer.getInstance().postFrameCallback(new FPSFrameCallback(System.nanoTime()));}public class FPSFrameCallback implements Choreographer.FrameCallback {private static final String TAG = "FPS_TEST";private long mLastFrameTimeNanos = 0;private long mFrameIntervalNanos;public FPSFrameCallback(long lastFrameTimeNanos) {mLastFrameTimeNanos = lastFrameTimeNanos;mFrameIntervalNanos = (long)(1000000000 / 60.0);}@Overridepublic void doFrame(long frameTimeNanos) {//初始化时间if (mLastFrameTimeNanos == 0) {mLastFrameTimeNanos = frameTimeNanos;}final long jitterNanos = frameTimeNanos - mLastFrameTimeNanos;if (jitterNanos >= mFrameIntervalNanos) {final long skippedFrames = jitterNanos / mFrameIntervalNanos;if(skippedFrames>30){//丢帧30以上打印日志Log.i(TAG, "Skipped " + skippedFrames + " frames! "+ "The application may be doing too much work on its main thread.");} }mLastFrameTimeNanos=frameTimeNanos;//注册下一帧回调Choreographer.getInstance().postFrameCallback(this);} } UI绘制全路径分析：有了前面几个概念，这里我们让SurfaceFlinger结合View的绘制流程用一张图来表达整个绘制流程：生产者：APP方构建Surface的过程。消费者：SurfaceFlinger UI绘制全路径分析卡顿原因：接下来，我们逐个分析，看看都会有哪些原因可能造成卡顿： 1.渲染流程 1.Vsync 调度：这个是起始点，但是调度的过程会经过线程切换以及一些委派的逻辑，有可能造成卡顿，但是一般可能性比较小，我们也基本无法介入； 2.消息调度：主要是 doframe Message 的调度，这就是一个普通的 Handler 调度，如果这个调度被其他的 Message 阻塞产生了时延，会直接导致后续的所有流程不会被触发 3.input 处理：input 是一次 Vsync 调度最先执行的逻辑，主要处理 input 事件。如果有大量的事件堆积或者在事件分发逻辑中加入大量耗时业务逻辑，会造成当前帧的时长被拉大，造成卡顿，可以尝试通过事件采样的方案，减少 event 的处理 4.动画处理：主要是 animator 动画的更新，同理，动画数量过多，或者动画的更新中有比较耗时的逻辑，也会造成当前帧的渲染卡顿。对动画的降帧和降复杂度其实解决的就是这个问题； 5.view 处理：主要是接下来的三大流程，过度绘制、频繁刷新、复杂的视图效果都是此处造成卡顿的主要原因。比如我们平时所说的降低页面层级，主要解决的就是这个问题； 6.measure/layout/draw：view 渲染的三大流程，因为涉及到遍历和高频执行，所以这里涉及到的耗时问题均会被放大，比如我们会降不能在 draw 里面调用耗时函数，不能 new 对象等等； 7.DisplayList 的更新：这里主要是 canvas 和 displaylist 的映射，一般不会存在卡顿问题，反而可能存在映射失败导致的显示问题； 8.OpenGL 指令转换：这里主要是将 canvas 的命令转换为 OpenGL 的指令，一般不存在问题 9.buffer 交换：这里主要指 OpenGL 指令集交换给 GPU，这个一般和指令的复杂度有关 10.GPU 处理：顾名思义，这里是 GPU 对数据的处理，耗时主要和任务量和纹理复杂度有关。这也就是我们降低 GPU 负载有助于降低卡顿的原因； 11.layer 合成：Android P 修改了 Layer 的计算方法 , 把这部分放到了 SurfaceFlinger 主线程去执行, 如果后台 Layer 过多, 就会导致 SurfaceFlinger 在执行 rebuildLayerStacks 的时候耗时 , 导致 SurfaceFlinger 主线程执行时间过长。可以选择降低Surface层级来优化卡顿。 12.光栅化/Display：这里暂时忽略，底层系统行为； Buffer 切换：主要是屏幕的显示，这里 buffer 的数量也会影响帧的整体延迟，不过是系统行为，不能干预。 2.系统负载内存：内存的吃紧会直接导致 GC 的增加甚至 ANR，是造成卡顿的一个不可忽视的因素； CPU：CPU 对卡顿的影响主要在于线程调度慢、任务执行的慢和资源竞争，比如 1.降频会直接导致应用卡顿； 2.后台活动进程太多导致系统繁忙，cpu \ io \ memory 等资源都会被占用, 这时候很容易出现卡顿问题，这种情况比较常见,可以使用dumpsys cpuinfo查看当前设备的cpu使用情况： 3.主线程调度不到 , 处于 Runnable 状态，这种情况比较少见 4.System 锁：system_server 的 AMS 锁和 WMS 锁 , 在系统异常的情况下 , 会变得非常严重 , 如下图所示 , 许多系统的关键任务都被阻塞 , 等待锁的释放 , 这时候如果有 App 发来的 Binder 请求带锁 , 那么也会进入等待状态 , 这时候 App 就会产生性能问题 ; 如果此时做 Window 动画 , 那么 system_server 的这些锁也会导致窗口动画卡顿 GPU：GPU 的影响见渲染流程，但是其实还会间接影响到功耗和发热；功耗/发热：功耗和发热一般是不分家的，高功耗会引起高发热，进而会引起系统保护，比如降频、热缓解等，间接的导致卡顿。如何监控卡顿线下监控：我们知道卡顿问题的原因错综复杂，但最终都可以反馈到CPU使用率上来 1.使用dumpsys cpuinfo命令这个命令可以获取当时设备cpu使用情况，我们可以在线下通过重度使用应用来检测可能存在的卡顿点 A8S:/ $ dumpsys cpuinfoLoad: 1.12 / 1.12 / 1.09CPU usage from 484321ms to 184247ms ago (2022-11-02 14:48:30.793 to 2022-11-02 14:53:30.866):2% 1053/scanserver: 0.2% user + 1.7% kernel0.6% 934/system_server: 0.4% user + 0.1% kernel / faults: 563 minor0.4% 564/signserver: 0% user + 0.4% kernel0.2% 256/ueventd: 0.1% user + 0% kernel / faults: 320 minor0.2% 474/surfaceflinger: 0.1% user + 0.1% kernel0.1% 576/vendor.sprd.hardware.gnss@2.0-service: 0.1% user + 0% kernel / faults: 54 minor0.1% 286/logd: 0% user + 0% kernel / faults: 10 minor0.1% 2821/com.allinpay.appstore: 0.1% user + 0% kernel / faults: 1312 minor0.1% 447/android.hardware.health@2.0-service: 0% user + 0% kernel / faults: 1175 minor0% 1855/com.smartpos.dataacqservice: 0% user + 0% kernel / faults: 755 minor0% 2875/com.allinpay.appstore:pushcore: 0% user + 0% kernel / faults: 744 minor0% 1191/com.android.systemui: 0% user + 0% kernel / faults: 70 minor0% 1774/com.android.nfc: 0% user + 0% kernel0% 172/kworker/1:2: 0% user + 0% kernel0% 145/irq/24-70900000: 0% user + 0% kernel0% 575/thermald: 0% user + 0% kernel / faults: 300 minor... 2.CPU Profiler 这个工具是AS自带的CPU性能检测工具，可以在PC上实时查看我们CPU使用情况。 AS提供了四种Profiling Model配置： 1.Sample Java Methods：在应用程序基于Java的代码执行过程中，频繁捕获应用程序的调用堆栈获取有关应用程序基于Java的代码执行的时间和资源使用情况信息。 2.Trace java methods：在运行时对应用程序进行检测，以在每个方法调用的开始和结束时记录时间戳。收集时间戳并进行比较以生成方法跟踪数据，包括时序信息和CPU使用率。请注意与检测每种方法相关的开销会影响运行时性能，并可能影响性能分析数据。对于生命周期相对较短的方法，这一点甚至更为明显。此外，如果您的应用在短时间内执行大量方法，则探查器可能会很快超过其文件大小限制，并且可能无法记录任何进一步的跟踪数据。 3.Sample C/C++ Functions:捕获应用程序本机线程的示例跟踪。要使用此配置，您必须将应用程序部署到运行Android 8.0（API级别26）或更高版本的设备。 4.Trace System Calls:捕获细粒度的详细信息，使您可以检查应用程序与系统资源的交互方式您可以检查线程状态的确切时间和持续时间，可视化CPU瓶颈在所有内核中的位置，并添加自定义跟踪事件进行分析。在对性能问题进行故障排除时，此类信息可能至关重要。要使用此配置，您必须将应用程序部署到运行Android 7.0（API级别24）或更高版本的设备。使用方式： Debug.startMethodTracing("");// 需要检测的代码片段...Debug.stopMethodTracing(); 优点：有比较全面的调用栈以及图像化方法时间显示，包含所有线程的情况缺点：本身也会带来一点的性能开销，可能会带偏优化方向火焰图：可以显示当前应用的方法堆栈： 3.Systrace Systrace在前面一篇分析启动优化的文章讲解过这里我们简单来复习下： Systrace用来记录当前应用的系统以及应用(使用Trace类打点)的各阶段耗时信息包括绘制信息以及CPU信息等。使用方式： Trace.beginSection("MyApp.onCreate_1");alt(200);Trace.endSection(); 在命令行中： python systrace.py -t 5 sched gfx view wm am app webview -a "com.chinaebipay.thirdcall" -o D:\trac1.html 记录的方法以及CPU中的耗时情况：优点： 1.轻量级，开销小，CPU使用率可以直观反映 2.右侧的Alerts能够根据我们应用的问题给出具体的建议，比如说，它会告诉我们App界面的绘制比较慢或者GC比较频繁。 4.StrictModel StrictModel是Android提供的一种运行时检测机制，用来帮助开发者自动检测代码中不规范的地方。主要和两部分相关： 1.线程相关 2.虚拟机相关基础代码： private void initStrictMode() {// 1、设置Debug标志位，仅仅在线下环境才使用StrictModeif (DEV_MODE) {// 2、设置线程策略StrictMode.setThreadPolicy(new StrictMode.ThreadPolicy.Builder().detectCustomSlowCalls() //API等级11，使用StrictMode.noteSlowCode.detectDiskReads().detectDiskWrites().detectNetwork() // or .detectAll() for all detectable problems.penaltyLog() //在Logcat 中打印违规异常信息// .penaltyDialog() //也可以直接跳出警报dialog// .penaltyDeath() //或者直接崩溃.build());// 3、设置虚拟机策略StrictMode.setVmPolicy(new StrictMode.VmPolicy.Builder().detectLeakedSqlLiteObjects()// 给NewsItem对象的实例数量限制为1.setClassInstanceLimit(NewsItem.class, 1).detectLeakedClosableObjects() //API等级11.penaltyLog().build());} } 线上监控：线上需要自动化的卡顿检测方案来定位卡顿，它能记录卡顿发生时的场景。自动化监控原理：采用拦截消息调度流程，在消息执行前埋点计时，当耗时超过阈值时，则认为是一次卡顿，会进行堆栈抓取和上报工作首先，我们看下Looper用于执行消息循环的loop()方法，关键代码如下所示： / Run the message queue in this thread. Be sure to call {@link quit()} to end the loop./public static void loop() {...for (;;) {Message msg = queue.next(); // might blockif (msg == null) {// No message indicates that the message queue is quitting.return;// This must be in a local variable, in case a UI event sets the loggerfinal Printer logging = me.mLogging;if (logging != null) {// 1logging.println(">>>>> Dispatching to " + msg.target + " " +msg.callback + ": " + msg.what);}...try {// 2 msg.target.dispatchMessage(msg);dispatchEnd = needEndTime ? SystemClock.uptimeMillis() : 0;} finally {if (traceTag != 0) {Trace.traceEnd(traceTag);} }...if (logging != null) {// 3logging.println("<<<<< Finished to " + msg.target + " " + msg.callback);} 在Looper的loop()方法中，在其执行每一个消息（注释2处）的前后都由logging进行了一次打印输出。可以看到，在执行消息前是输出的">>>>> Dispatching to “，在执行消息后是输出的”<<<<< Finished to ",它们打印的日志是不一样的，我们就可以由此来判断消息执行的前后时间点。具体的实现可以归纳为如下步骤： 1、首先，我们需要使用Looper.getMainLooper().setMessageLogging()去设置我们自己的Printer实现类去打印输出logging。这样，在每个message执行的之前和之后都会调用我们设置的这个Printer实现类。 2、如果我们匹配到">>>>> Dispatching to "之后，我们就可以执行一行代码：也就是在指定的时间阈值之后，我们在子线程去执行一个任务，这个任务就是去获取当前主线程的堆栈信息以及当前的一些场景信息，比如：内存大小、电脑、网络状态等。 3、如果在指定的阈值之内匹配到了"<<<<< Finished to "，那么说明message就被执行完成了，则表明此时没有产生我们认为的卡顿效果，那我们就可以将这个子线程任务取消掉。这里我们使用blockcanary来做测试: BlockCanary APM是一个非侵入式的性能监控组件，可以通过通知的形式弹出卡顿信息。它的原理就是我们刚刚讲述到的卡顿监控的实现原理。使用方式： 1.导入依赖 implementation 'com.github.markzhai:blockcanary-android:1.5.0' Application的onCreate方法中开启卡顿监控 // 注意在主进程初始化调用BlockCanary.install(this, new AppBlockCanaryContext()).start(); 3.继承BlockCanaryContext类去实现自己的监控配置上下文类 public class AppBlockCanaryContext extends BlockCanaryContext {....../ 指定判定为卡顿的阈值threshold (in millis), 你可以根据不同设备的性能去指定不同的阈值 @return threshold in mills/public int provideBlockThreshold() {return 1000;}....} 4.在Activity的onCreate方法中执行一个耗时操作 try {Thread.sleep(4000);} catch (InterruptedException e) {e.printStackTrace();} 5.结果：可以看到一个和LeakCanary一样效果的阻塞可视化堆栈图那有了BlockCanary的方法耗时监控方式是不是就可以解百愁了呢，呵呵。有那么容易就好了根据原理：我们拿到的是msg执行前后的时间和堆栈信息，如果msg中有几百上千个方法，就无法确认到底是哪个方法导致的耗时，也有可能是多个方法堆积导致。这就导致我们无法准确定位哪个方法是最耗时的。如图中：堆栈信息是T2的，而发生耗时的方法可能是T1到T2中任何一个方法甚至是堆积导致。那如何优化这块？这里我们采用字节跳动给我们提供的一个方案：基于 Sliver trace 的卡顿监控体系 Sliver trace 整体流程图：主要包含两个方面: 检测方案：在监控卡顿时，首先需要打开 Sliver 的 trace 记录能力，Sliver 采样记录 trace 执行信息，对抓取到的堆栈进行 diff 聚合和缓存。同时基于我们的需要设置相应的卡顿阈值，以 Message 的执行耗时为衡量。对主线程消息调度流程进行拦截，在消息开始分发执行时埋点，在消息执行结束时计算消息执行耗时，当消息执行耗时超过阈值，则认为产生了一次卡顿。堆栈聚合策略：当卡顿发生时，我们需要为此次卡顿准备数据，这部分工作是在端上子线程中完成的，主要是 dump trace 到文件以及过滤聚合要上报的堆栈。分为以下几步： 1.拿到缓存的主线程 trace 信息并 dump 到文件中。 2.然后从文件中读取 trace 信息，按照数据格式，从最近的方法栈向上追溯，找到当前 Message 包含的全部 trace 信息，并将当前 Message 的完整 trace 写入到待上传的 trace 文件中，删除其余 trace 信息。 3.遍历当前 Message trace，按照（Method 执行耗时 > Method 耗时阈值 & Method 耗时为该层堆栈中最耗时）为条件过滤出每一层函数调用堆栈的最长耗时函数，构成最后要上报的堆栈链路，这样特征堆栈中的每一步都是最耗时的，且最底层 Method 为最后的耗时大于阈值的 Method。之后，将 trace 文件和堆栈一同上报，这样的特征堆栈提取策略保证了堆栈聚合的可靠性和准确性，保证了上报到平台后堆栈的正确合理聚合，同时提供了进一步分析问题的 trace 文件。可以看到字节给的是一整套监控方案，和前面BlockCanary不同之处就在于，其是定时存储堆栈，缓存，然后使用diff去重的方式，并上传到服务器，可以最大限度的监控到可能发生比较耗时的方法。开发中哪些习惯会影响卡顿的发生 1.布局太乱，层级太深。 1.1：通过减少冗余或者嵌套布局来降低视图层次结构。比如使用约束布局代替线性布局和相对布局。 1.2：用 ViewStub 替代在启动过程中不需要显示的 UI 控件。 1.3：使用自定义 View 替代复杂的 View 叠加。 2.主线程耗时操作 2.1：主线程中不要直接操作数据库，数据库的操作应该放在数据库线程中完成。 2.2：sharepreference尽量使用apply，少使用commit，可以使用MMKV框架来代替sharepreference。 2.3：网络请求回来的数据解析尽量放在子线程中，不要在主线程中进行复制的数据解析操作。 2.4：不要在activity的onResume和onCreate中进行耗时操作，比如大量的计算等。 2.5：不要在 draw 里面调用耗时函数，不能 new 对象 3.过度绘制过度绘制是同一个像素点上被多次绘制，减少过度绘制一般减少布局背景叠加等方式，如下图所示右边是过度绘制的图片。 4.列表 RecyclerView使用优化，使用DiffUtil和notifyItemDataSetChanged进行局部更新等。 5.对象分配和回收优化自从Android引入 ART 并且在Android 5.0上成为默认的运行时之后，对象分配和垃圾回收（GC）造成的卡顿已经显著降低了，但是由于对象分配和GC有额外的开销，它依然又可能使线程负载过重。在一个调用不频繁的地方（比如按钮点击）分配对象是没有问题的，但如果在在一个被频繁调用的紧密的循环里，就需要避免对象分配来降低GC的压力。减少小对象的频繁分配和回收操作。好了，关于卡顿优化的问题就讲到这里，下篇文章会对卡顿中的ANR情况的处理，这里做个铺垫。如果喜欢我的文章，欢迎关注我的公众号。点击这看原文链接：参考 Android卡顿检测及优化一文读懂直播卡顿优化那些事儿 “终于懂了” 系列：Android屏幕刷新机制—VSync、Choreographer 全面理解！深入探索Android卡顿优化（上）西瓜卡顿 & ANR 优化治理及监控体系建设 5376)] 参考 Android卡顿检测及优化一文读懂直播卡顿优化那些事儿 “终于懂了” 系列：Android屏幕刷新机制—VSync、Choreographer 全面理解！深入探索Android卡顿优化（上）西瓜卡顿 & ANR 优化治理及监控体系建设本篇文章为转载内容。原文链接：https://blog.csdn.net/yuhaibing111/article/details/127682399。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-03-26 08:05:57

214

转载

转载文章

[转载]Postgres-XL集群软件介绍及搭建

...，如果出现问题，就会导致整个集群不可用，为了增加可用性，增加该备用节点。当GTM出现问题时，GTM Standby可以升级为GTM，保证集群正常工作。 GTM-Proxy GTM需要与所有的Coordinators通信，为了降低压力，可以在每个Coordinator机器上部署一个GTM-Proxy。 Coordinator --协调器协调器是应用程序到数据库的接口。它的作用类似于传统的PostgreSQL后台进程，但是协调器不存储任何实际数据。实际数据由数据节点存储。协调器接收SQL语句，根据需要获取全局事务Id和全局快照，确定涉及哪些数据节点，并要求它们执行(部分)语句。当向数据节点发出语句时，它与GXID和全局快照相关联，以便多版本并发控制(MVCC)属性扩展到集群范围。 Datanode --数据节点用于实际存储数据。表可以分布在各个数据节点之间，也可以复制到所有数据节点。数据节点没有整个数据库的全局视图，它只负责本地存储的数据。接下来，协调器将检查传入语句，并制定子计划。然后，根据需要将这些数据连同GXID和全局快照一起传输到涉及的每个数据节点。数据节点可以在不同的会话中接收来自各个协调器的请求。但是，由于每个事务都是惟一标识的，并且与一致的(全局)快照相关联，所以每个数据节点都可以在其事务和快照上下文中正确执行。 Postgres-XL继承了PostgreSQL Postgres-XL是PostgreSQL的扩展并继承了其很多特性：复杂查询外键触发器视图事务 MVCC(多版本控制) 此外，类似于PostgreSQL，用户可以通过多种方式扩展Postgres-XL，例如添加新的数据类型函数操作聚合函数索引类型过程语言安装环境说明由于资源有限，gtm一台、另外两台身兼数职。主机名 IP 角色端口 nodename 数据目录 gtm 192.168.20.132 GTM 6666 gtm /nodes/gtm 协调器 5432 coord1 /nodes/coordinator xl1 192.168.20.133 数据节点 5433 node1 /nodes/pgdata gtm代理 6666 gtmpoxy01 /nodes/gtm_pxy1 协调器 5432 coord2 /nodes/coordinator xl2 192.168.20.134 数据节点 5433 node2 /nodes/pgdata gtm代理 6666 gtmpoxy02 /nodes/gtm_pxy2 要求 GNU make版本 3.8及以上版本 [root@pg ~] make --versionGNU Make 3.82Built for x86_64-redhat-linux-gnuCopyright (C) 2010 Free Software Foundation, Inc.License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>This is free software: you are free to change and redistribute it.There is NO WARRANTY, to the extent permitted by law. 需安装GCC包需安装tar包用于解压缩文件默认需要GNU Readline library 其作用是可以让psql命令行记住执行过的命令，并且可以通过键盘上下键切换命令。但是可以通过--without-readline禁用这个特性，或者可以指定--withlibedit-preferred选项来使用libedit 默认使用zlib压缩库可通过--without-zlib选项来禁用配置hosts 所有主机上都配置 [root@xl2 11] cat /etc/hosts127.0.0.1 localhost192.168.20.132 gtm192.168.20.133 xl1192.168.20.134 xl2 关闭防火墙、Selinux 所有主机都执行关闭防火墙： [root@gtm ~] systemctl stop firewalld.service[root@gtm ~] systemctl disable firewalld.service selinux设置: [root@gtm ~]vim /etc/selinux/config 设置SELINUX=disabled，保存退出。 This file controls the state of SELinux on the system. SELINUX= can take one of these three values: enforcing - SELinux security policy is enforced. permissive - SELinux prints warnings instead of enforcing. disabled - No SELinux policy is loaded.SELINUX=disabled SELINUXTYPE= can take one of three two values: targeted - Targeted processes are protected, minimum - Modification of targeted policy. Only selected processes are protected. mls - Multi Level Security protection. 安装依赖包所有主机上都执行 yum install -y flex bison readline-devel zlib-devel openjade docbook-style-dsssl gcc 创建用户所有主机上都执行 [root@gtm ~] useradd postgres[root@gtm ~] passwd postgres[root@gtm ~] su - postgres[root@gtm ~] mkdir ~/.ssh[root@gtm ~] chmod 700 ~/.ssh 配置SSH免密登录仅仅在gtm节点配置如下操作： [root@gtm ~] su - postgres[postgres@gtm ~] ssh-keygen -t rsa[postgres@gtm ~] cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys[postgres@gtm ~] chmod 600 ~/.ssh/authorized_keys 将刚生成的认证文件拷贝到xl1到xl2中，使得gtm节点可以免密码登录xl1~xl2的任意一个节点： [postgres@gtm ~] scp ~/.ssh/authorized_keys postgres@xl1:~/.ssh/[postgres@gtm ~] scp ~/.ssh/authorized_keys postgres@xl2:~/.ssh/ 对所有提示都不要输入，直接enter下一步。直到最后，因为第一次要求输入目标机器的用户密码，输入即可。下载源码下载地址：https://www.postgres-xl.org/download/ [root@slave ~] ll postgres-xl-10r1.1.tar.gz-rw-r--r-- 1 root root 28121666 May 30 05:21 postgres-xl-10r1.1.tar.gz 编译、安装Postgres-XL 所有节点都安装，编译需要一点时间，最好同时进行编译。 [root@slave ~] tar xvf postgres-xl-10r1.1.tar.gz[root@slave ~] ./configure --prefix=/home/postgres/pgxl/[root@slave ~] make[root@slave ~] make install[root@slave ~] cd contrib/ --安装必要的工具,在gtm节点上安装即可[root@slave ~] make[root@slave ~] make install 配置环境变量所有节点都要配置进入postgres用户，修改其环境变量，开始编辑 [root@gtm ~]su - postgres[postgres@gtm ~]vi .bashrc --不是.bash_profile 在打开的文件末尾，新增如下变量配置： export PGHOME=/home/postgres/pgxlexport LD_LIBRARY_PATH=$PGHOME/lib:$LD_LIBRARY_PATHexport PATH=$PGHOME/bin:$PATH 按住esc，然后输入:wq!保存退出。输入以下命令对更改重启生效。 [postgres@gtm ~] source .bashrc --不是.bash_profile 输入以下语句，如果输出变量结果，代表生效 [postgres@gtm ~] echo $PGHOME 应该输出/home/postgres/pgxl代表生效配置集群生成pgxc_ctl.conf配置文件 [postgres@gtm ~] pgxc_ctl prepare/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxl/pgxc_ctl/pgxc_ctl_bash.ERROR: File "/home/postgres/pgxl/pgxc_ctl/pgxc_ctl.conf" not found or not a regular file. No such file or directoryInstalling pgxc_ctl_bash script as /home/postgres/pgxl/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxl/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxl/pgxc_ctl --configuration /home/postgres/pgxl/pgxc_ctl/pgxc_ctl.confFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxl/pgxc_ctl 配置pgxc_ctl.conf 新建/home/postgres/pgxc_ctl/pgxc_ctl.conf文件，编辑如下：对着模板文件一个一个修改，否则会造成初始化过程出现各种神奇问题。 pgxcInstallDir=$PGHOMEpgxlDATA=$PGHOME/data pgxcOwner=postgres---- GTM Master -----------------------------------------gtmName=gtmgtmMasterServer=gtmgtmMasterPort=6666gtmMasterDir=$pgxlDATA/nodes/gtmgtmSlave=y Specify y if you configure GTM Slave. Otherwise, GTM slave will not be configured and all the following variables will be reset.gtmSlaveName=gtmSlavegtmSlaveServer=gtm value none means GTM slave is not available. Give none if you don't configure GTM Slave.gtmSlavePort=20001 Not used if you don't configure GTM slave.gtmSlaveDir=$pgxlDATA/nodes/gtmSlave Not used if you don't configure GTM slave.---- GTM-Proxy Master -------gtmProxyDir=$pgxlDATA/nodes/gtm_proxygtmProxy=y gtmProxyNames=(gtm_pxy1 gtm_pxy2) gtmProxyServers=(xl1 xl2) gtmProxyPorts=(6666 6666) gtmProxyDirs=($gtmProxyDir $gtmProxyDir) ---- Coordinators ---------coordMasterDir=$pgxlDATA/nodes/coordcoordNames=(coord1 coord2) coordPorts=(5432 5432) poolerPorts=(6667 6667) coordPgHbaEntries=(0.0.0.0/0)coordMasterServers=(xl1 xl2) coordMasterDirs=($coordMasterDir $coordMasterDir)coordMaxWALsernder=0 没设置备份节点，设置为0coordMaxWALSenders=($coordMaxWALsernder $coordMaxWALsernder) 数量保持和coordMasterServers一致coordSlave=n---- Datanodes ----------datanodeMasterDir=$pgxlDATA/nodes/dn_masterprimaryDatanode=xl1 主数据节点datanodeNames=(node1 node2)datanodePorts=(5433 5433) datanodePoolerPorts=(6668 6668) datanodePgHbaEntries=(0.0.0.0/0)datanodeMasterServers=(xl1 xl2)datanodeMasterDirs=($datanodeMasterDir $datanodeMasterDir)datanodeMaxWalSender=4datanodeMaxWALSenders=($datanodeMaxWalSender $datanodeMaxWalSender) 集群初始化，启动，停止初始化 pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf init all 输出结果： /bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlStopping all the coordinator masters.Stopping coordinator master coord1.Stopping coordinator master coord2.pg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord1" does not existpg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord2" does not existDone.Stopping all the datanode masters.Stopping datanode master datanode1.Stopping datanode master datanode2.pg_ctl: PID file "/home/postgres/pgxc/nodes/datanode/datanode1/postmaster.pid" does not existIs server running?Done.Stop GTM masterwaiting for server to shut down.... doneserver stopped[postgres@gtm ~]$ echo $PGHOME/home/postgres/pgxl[postgres@gtm ~]$ ll /home/postgres/pgxl/pgxc/nodes/gtm/gtm.^C[postgres@gtm ~]$ pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf init all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlInitialize GTM masterERROR: target directory (/home/postgres/pgxc/nodes/gtm) exists and not empty. Skip GTM initilializationDone.Start GTM masterserver startingInitialize all the coordinator masters.Initialize coordinator master coord1.ERROR: target coordinator master coord1 is running now. Skip initilialization.Initialize coordinator master coord2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/coord/coord2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting coordinator master.Starting coordinator master coord1ERROR: target coordinator master coord1 is already running now. Skip initialization.Starting coordinator master coord22019-05-30 21:09:25.562 EDT [2148] LOG: listening on IPv4 address "0.0.0.0", port 54322019-05-30 21:09:25.562 EDT [2148] LOG: listening on IPv6 address "::", port 54322019-05-30 21:09:25.563 EDT [2148] LOG: listening on Unix socket "/tmp/.s.PGSQL.5432"2019-05-30 21:09:25.601 EDT [2149] LOG: database system was shut down at 2019-05-30 21:09:22 EDT2019-05-30 21:09:25.605 EDT [2148] LOG: database system is ready to accept connections2019-05-30 21:09:25.612 EDT [2156] LOG: cluster monitor startedDone.Initialize all the datanode masters.Initialize the datanode master datanode1.Initialize the datanode master datanode2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode1 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting all the datanode masters.Starting datanode master datanode1.WARNING: datanode master datanode1 is running now. Skipping.Starting datanode master datanode2.2019-05-30 21:09:33.352 EDT [2404] LOG: listening on IPv4 address "0.0.0.0", port 154322019-05-30 21:09:33.352 EDT [2404] LOG: listening on IPv6 address "::", port 154322019-05-30 21:09:33.355 EDT [2404] LOG: listening on Unix socket "/tmp/.s.PGSQL.15432"2019-05-30 21:09:33.392 EDT [2404] LOG: redirecting log output to logging collector process2019-05-30 21:09:33.392 EDT [2404] HINT: Future log output will appear in directory "pg_log".Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done.[postgres@gtm ~]$ pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf stop all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlStopping all the coordinator masters.Stopping coordinator master coord1.Stopping coordinator master coord2.pg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord1" does not existDone.Stopping all the datanode masters.Stopping datanode master datanode1.Stopping datanode master datanode2.pg_ctl: PID file "/home/postgres/pgxc/nodes/datanode/datanode1/postmaster.pid" does not existIs server running?Done.Stop GTM masterwaiting for server to shut down.... doneserver stopped[postgres@gtm ~]$ pgxc_ctl/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlPGXC monitor allNot running: gtm masterRunning: coordinator master coord1Not running: coordinator master coord2Running: datanode master datanode1Not running: datanode master datanode2PGXC stop coordinator master coord1Stopping coordinator master coord1.pg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord1" does not existDone.PGXC stop datanode master datanode1Stopping datanode master datanode1.pg_ctl: PID file "/home/postgres/pgxc/nodes/datanode/datanode1/postmaster.pid" does not existIs server running?Done.PGXC monitor allNot running: gtm masterRunning: coordinator master coord1Not running: coordinator master coord2Running: datanode master datanode1Not running: datanode master datanode2PGXC monitor allNot running: gtm masterNot running: coordinator master coord1Not running: coordinator master coord2Not running: datanode master datanode1Not running: datanode master datanode2PGXC exit[postgres@gtm ~]$ pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf init all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlInitialize GTM masterERROR: target directory (/home/postgres/pgxc/nodes/gtm) exists and not empty. Skip GTM initilializationDone.Start GTM masterserver startingInitialize all the coordinator masters.Initialize coordinator master coord1.Initialize coordinator master coord2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/coord/coord1 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/coord/coord2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting coordinator master.Starting coordinator master coord1Starting coordinator master coord22019-05-30 21:13:03.998 EDT [25137] LOG: listening on IPv4 address "0.0.0.0", port 54322019-05-30 21:13:03.998 EDT [25137] LOG: listening on IPv6 address "::", port 54322019-05-30 21:13:04.000 EDT [25137] LOG: listening on Unix socket "/tmp/.s.PGSQL.5432"2019-05-30 21:13:04.038 EDT [25138] LOG: database system was shut down at 2019-05-30 21:13:00 EDT2019-05-30 21:13:04.042 EDT [25137] LOG: database system is ready to accept connections2019-05-30 21:13:04.049 EDT [25145] LOG: cluster monitor started2019-05-30 21:13:04.020 EDT [2730] LOG: listening on IPv4 address "0.0.0.0", port 54322019-05-30 21:13:04.020 EDT [2730] LOG: listening on IPv6 address "::", port 54322019-05-30 21:13:04.021 EDT [2730] LOG: listening on Unix socket "/tmp/.s.PGSQL.5432"2019-05-30 21:13:04.057 EDT [2731] LOG: database system was shut down at 2019-05-30 21:13:00 EDT2019-05-30 21:13:04.061 EDT [2730] LOG: database system is ready to accept connections2019-05-30 21:13:04.062 EDT [2738] LOG: cluster monitor startedDone.Initialize all the datanode masters.Initialize the datanode master datanode1.Initialize the datanode master datanode2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode1 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting all the datanode masters.Starting datanode master datanode1.Starting datanode master datanode2.2019-05-30 21:13:12.077 EDT [25392] LOG: listening on IPv4 address "0.0.0.0", port 154322019-05-30 21:13:12.077 EDT [25392] LOG: listening on IPv6 address "::", port 154322019-05-30 21:13:12.079 EDT [25392] LOG: listening on Unix socket "/tmp/.s.PGSQL.15432"2019-05-30 21:13:12.114 EDT [25392] LOG: redirecting log output to logging collector process2019-05-30 21:13:12.114 EDT [25392] HINT: Future log output will appear in directory "pg_log".2019-05-30 21:13:12.079 EDT [2985] LOG: listening on IPv4 address "0.0.0.0", port 154322019-05-30 21:13:12.079 EDT [2985] LOG: listening on IPv6 address "::", port 154322019-05-30 21:13:12.081 EDT [2985] LOG: listening on Unix socket "/tmp/.s.PGSQL.15432"2019-05-30 21:13:12.117 EDT [2985] LOG: redirecting log output to logging collector process2019-05-30 21:13:12.117 EDT [2985] HINT: Future log output will appear in directory "pg_log".Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done. 启动 pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf start all 关闭 pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf stop all 查看集群状态 [postgres@gtm ~]$ pgxc_ctl monitor all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlRunning: gtm masterRunning: coordinator master coord1Running: coordinator master coord2Running: datanode master datanode1Running: datanode master datanode2 配置集群信息分别在数据节点、协调器节点上分别执行以下命令：注：本节点只执行修改操作即可(alert node)，其他节点执行创建命令(create node)。因为本节点已经包含本节点的信息。 create node coord1 with (type=coordinator,host=xl1, port=5432);create node coord2 with (type=coordinator,host=xl2, port=5432);alter node coord1 with (type=coordinator,host=xl1, port=5432);alter node coord2 with (type=coordinator,host=xl2, port=5432);create node datanode1 with (type=datanode, host=xl1,port=15432,primary=true,PREFERRED);create node datanode2 with (type=datanode, host=xl2,port=15432);alter node datanode1 with (type=datanode, host=xl1,port=15432,primary=true,PREFERRED);alter node datanode2 with (type=datanode, host=xl2,port=15432);select pgxc_pool_reload(); 分别登陆数据节点、协调器节点验证 postgres= select from pgxc_node;node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id-----------+-----------+-----------+-----------+----------------+------------------+-------------coord1 | C | 5432 | xl1 | f | f | 1885696643coord2 | C | 5432 | xl2 | f | f | -1197102633datanode2 | D | 15432 | xl2 | f | f | -905831925datanode1 | D | 15432 | xl1 | t | f | 888802358(4 rows) 测试插入数据在数据节点1，执行相关操作。通过协调器端口登录PG [postgres@xl1 ~]$ psql -p 5432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= create database lei;CREATE DATABASEpostgres= \c lei;You are now connected to database "lei" as user "postgres".lei= create table test1(id int,name text);CREATE TABLElei= insert into test1(id,name) select generate_series(1,8),'测试';INSERT 0 8lei= select from test1;id | name----+------1 | 测试2 | 测试5 | 测试6 | 测试8 | 测试3 | 测试4 | 测试7 | 测试(8 rows) 注：默认创建的表为分布式表，也就是每个数据节点值存储表的部分数据。关于表类型具体说明，下面有说明。通过15432端口登录数据节点，查看数据有5条数据 [postgres@xl1 ~]$ psql -p 15432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= \c lei;You are now connected to database "lei" as user "postgres".lei= select from test1;id | name----+------1 | 测试2 | 测试5 | 测试6 | 测试8 | 测试(5 rows) 登录到节点2，查看数据有3条数据 [postgres@xl2 ~]$ psql -p15432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= \c lei;You are now connected to database "lei" as user "postgres".lei= select from test1;id | name----+------3 | 测试4 | 测试7 | 测试(3 rows) 两个节点的数据加起来整个8条，没有问题。至此Postgre-XL集群搭建完成。创建数据库、表时可能会出现以下错误： ERROR: Failed to get pooled connections 是因为pg_hba.conf配置不对，所有节点加上host all all 192.168.20.0/0 trust并重启集群即可。 ERROR: No Datanode defined in cluster 首先确认是否创建了数据节点，也就是create node相关的命令。如果创建了则执行select pgxc_pool_reload();使其生效即可。集群管理与应用表类型说明 REPLICATION表：各个datanode节点中，表的数据完全相同，也就是说，插入数据时，会分别在每个datanode节点插入相同数据。读数据时，只需要读任意一个datanode节点上的数据。建表语法： CREATE TABLE repltab (col1 int, col2 int) DISTRIBUTE BY REPLICATION; DISTRIBUTE ：会将插入的数据，按照拆分规则，分配到不同的datanode节点中存储，也就是sharding技术。每个datanode节点只保存了部分数据，通过coordinate节点可以查询完整的数据视图。 CREATE TABLE disttab(col1 int, col2 int, col3 text) DISTRIBUTE BY HASH(col1); 模拟数据插入任意登录一个coordinate节点进行建表操作 [postgres@gtm ~]$ psql -h xl1 -p 5432 -U postgrespostgres= INSERT INTO disttab SELECT generate_series(1,100), generate_series(101, 200), 'foo';INSERT 0 100postgres= INSERT INTO repltab SELECT generate_series(1,100), generate_series(101, 200);INSERT 0 100 查看数据分布结果： DISTRIBUTE表分布结果 postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;xc_node_id | count ------------+-------1148549230 | 42-927910690 | 58(2 rows) REPLICATION表分布结果 postgres= SELECT count() FROM repltab;count -------100(1 row) 查看另一个datanode2中repltab表结果 [postgres@datanode2 pgxl9.5]$ psql -p 15432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= SELECT count() FROM repltab;count -------100(1 row) 结论：REPLICATION表中，datanode1,datanode2中表是全部数据，一模一样。而DISTRIBUTE表，数据散落近乎平均分配到了datanode1,datanode2节点中。新增数据节点与数据重分布在线新增节点、并重新分布数据。新增datanode节点在gtm集群管理节点上执行pgxc_ctl命令 [postgres@gtm ~]$ pgxc_ctl/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.confFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlPGXC 在服务器xl3上，新增一个master角色的datanode节点，名称是datanode3 端口号暂定5430，pool master暂定6669 ，指定好数据目录位置，从两个节点升级到3个节点，之后要写3个none none应该是datanodeSpecificExtraConfig或者datanodeSpecificExtraPgHba配置PGXC add datanode master datanode3 xl3 15432 6671 /home/postgres/pgxc/nodes/datanode/datanode3 none none none 等待新增完成后，查询集群节点状态： postgres= select from pgxc_node;node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id-----------+-----------+-----------+-----------+----------------+------------------+-------------datanode1 | D | 15432 | xl1 | t | f | 888802358datanode2 | D | 15432 | xl2 | f | f | -905831925datanode3 | D | 15432 | xl3 | f | f | -705831925coord1 | C | 5432 | xl1 | f | f | 1885696643coord2 | C | 5432 | xl2 | f | f | -1197102633(4 rows) 节点新增完毕数据重新分布由于新增节点后无法自动完成数据重新分布，需要手动操作。 DISTRIBUTE表分布在了node1,node2节点上，如下： postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;xc_node_id | count ------------+-------1148549230 | 42-927910690 | 58(2 rows) 新增一个节点后，将sharding表数据重新分配到三个节点上，将repl表复制到新节点重分布sharding表postgres= ALTER TABLE disttab ADD NODE (datanode3);ALTER TABLE 复制数据到新节点postgres= ALTER TABLE repltab ADD NODE (datanode3);ALTER TABLE 查看新的数据分布： postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;xc_node_id | count ------------+--------700122826 | 36-927910690 | 321148549230 | 32(3 rows) 登录datanode3(新增的时候，放在了xl3服务器上，端口15432)节点查看数据： [postgres@gtm ~]$ psql -h xl3 -p 15432 -U postgrespsql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= select count() from repltab;count -------100(1 row) 很明显,通过 ALTER TABLE tt ADD NODE (dn)命令，可以将DISTRIBUTE表数据重新分布到新节点，重分布过程中会中断所有事务。可以将REPLICATION表数据复制到新节点。从datanode节点中回收数据 postgres= ALTER TABLE disttab DELETE NODE (datanode3);ALTER TABLEpostgres= ALTER TABLE repltab DELETE NODE (datanode3);ALTER TABLE 删除数据节点 Postgresql-XL并没有检查将被删除的datanode节点是否有replicated/distributed表的数据，为了数据安全，在删除之前需要检查下被删除节点上的数据，有数据的话，要回收掉分配到其他节点，然后才能安全删除。删除数据节点分为四步骤： 1.查询要删除节点dn3的oid postgres= SELECT oid, FROM pgxc_node;oid | node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id -------+-----------+-----------+-----------+-----------+----------------+------------------+-------------11819 | coord1 | C | 5432 | datanode1 | f | f | 188569664316384 | coord2 | C | 5432 | datanode2 | f | f | -119710263316385 | node1 | D | 5433 | datanode1 | f | t | 114854923016386 | node2 | D | 5433 | datanode2 | f | f | -92791069016397 | dn3 | D | 5430 | datanode1 | f | f | -700122826(5 rows) 2.查询dn3对应的oid中是否有数据 testdb= SELECT FROM pgxc_class WHERE nodeoids::integer[] @> ARRAY[16397];pcrelid | pclocatortype | pcattnum | pchashalgorithm | pchashbuckets | nodeoids ---------+---------------+----------+-----------------+---------------+-------------------16388 | H | 1 | 1 | 4096 | 16397 16385 1638616394 | R | 0 | 0 | 0 | 16397 16385 16386(2 rows) 3.有数据的先回收数据 postgres= ALTER TABLE disttab DELETE NODE (dn3);ALTER TABLEpostgres= ALTER TABLE repltab DELETE NODE (dn3);ALTER TABLEpostgres= SELECT FROM pgxc_class WHERE nodeoids::integer[] @> ARRAY[16397];pcrelid | pclocatortype | pcattnum | pchashalgorithm | pchashbuckets | nodeoids ---------+---------------+----------+-----------------+---------------+----------(0 rows) 4.安全删除dn3 PGXC$ remove datanode master dn3 clean 故障节点FAILOVER 1.查看当前集群状态 [postgres@gtm ~]$ psql -h xl1 -p 5432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= SELECT oid, FROM pgxc_node;oid | node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id-------+-----------+-----------+-----------+-----------+----------------+------------------+-------------11739 | coord1 | C | 5432 | xl1 | f | f | 188569664316384 | coord2 | C | 5432 | xl2 | f | f | -119710263316387 | datanode2 | D | 15432 | xl2 | f | f | -90583192516388 | datanode1 | D | 15432 | xl1 | t | t | 888802358(4 rows) 2.模拟datanode1节点故障直接关闭即可 PGXC stop -m immediate datanode master datanode1Stopping datanode master datanode1.Done. 3.测试查询只要查询涉及到datanode1上的数据，那么该查询就会报错 postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;WARNING: failed to receive file descriptors for connectionsERROR: Failed to get pooled connectionsHINT: This may happen because one or more nodes are currently unreachable, either because of node or network failure.Its also possible that the target node may have hit the connection limit or the pooler is configured with low connections.Please check if all nodes are running fine and also review max_connections and max_pool_size configuration parameterspostgres= SELECT xc_node_id, FROM disttab WHERE col1 = 3;xc_node_id | col1 | col2 | col3------------+------+------+-------905831925 | 3 | 103 | foo(1 row) 测试发现，查询范围如果涉及到故障的node1节点，会报错，而查询的数据范围不在node1上的话，仍然可以查询。 4.手动切换要想切换，必须要提前配置slave节点。 PGXC$ failover datanode node1 切换完成后，查询集群 postgres= SELECT oid, FROM pgxc_node;oid | node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id -------+-----------+-----------+-----------+-----------+----------------+------------------+-------------11819 | coord1 | C | 5432 | datanode1 | f | f | 188569664316384 | coord2 | C | 5432 | datanode2 | f | f | -119710263316386 | node2 | D | 15432 | datanode2 | f | f | -92791069016385 | node1 | D | 15433 | datanode2 | f | t | 1148549230(4 rows) 发现datanode1节点的ip和端口都已经替换为配置的slave了。本篇文章为转载内容。原文链接：https://blog.csdn.net/qianglei6077/article/details/94379331。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-30 11:09:03

转载

转载文章

[转载]opendaylight-O版本与openstack集成

...I进行网络策略管理、故障排查等，Red Hat官方博客最近发布了一篇教程，提供了从理论到实践的全面指南。 5. 学术研究：《计算机网络》期刊最新刊载的一篇研究报告，针对开源SDN控制器（包括OpenDaylight）的安全性和性能进行了深入剖析，并提出了提升其可靠性的若干改进方案，这对于从事相关领域研究和技术开发的专业人士具有很高的参考价值。以上这些资源不仅可以帮助您跟踪了解OpenDaylight与OpenStack集成的最新进展，还能让您洞悉整个SDN领域的前沿趋势和发展方向，从而更好地指导您的项目实施和技术创新。

2023-06-08 17:13:19

294

转载

转载文章

[转载]转发SQLSERVER数据库索引实现

...续空间，当字段的值从内存写入磁盘时，就在这一既定空间随机保存，当一个8K用完的时候，SQLS指针会自动分配一个8K的空间。这里，每个8K空间被称为一个数据页（Page），又名页面或数据页面，并分配从0-7的页号,每个文件的第0页记录引导信息，叫文件头（File header）；每8个数据页（64Ｋ）的组合形成扩展区（Extent），称为扩展。全部数据页的组合形成堆（Heap）。 SQLS规定行不能跨越数据页，所以，每行记录的最大数据量只能为8K。这就是char和varchar这两种字符串类型容量要限制在8K以内的原因，存储超过8K的数据应使用text类型，实际上，text类型的字段值不能直接录入和保存，它只是存储一个指针，指向由若干8K的文本数据页所组成的扩展区，真正的数据正是放在这些数据页中。页面有空间页面和数据页面之分。当一个扩展区的8个数据页中既包含了空间页面又包括了数据或索引页面时，称为混合扩展（Mixed Extent）,每张表都以混合扩展开始；反之，称为一致扩展（Uniform Extent），专门保存数据及索引信息。表被创建之时，SQLS在混合扩展中为其分配至少一个数据页面，随着数据量的增长，SQLS可即时在混合扩展中分配出7个页面，当数据超过8个页面时，则从一致扩展中分配数据页面。空间页面专门负责数据空间的分配和管理，包括：PFS页面（Page free space）：记录一个页面是否已分配、位于混合扩展还是一致扩展以及页面上还有多少可用空间等信息；GAM页面（Global allocation map）和SGAM页面(Secodary global allocation map)：用来记录空闲的扩展或含有空闲页面的混合扩展的位置。SQLS综合利用这三种类型的页面文件在必要时为数据表创建新空间；数据页或索引页则专门保存数据及索引信息，SQLS使用4种类型的数据页面来管理表或索引：它们是IAM页、数据页、文本/图像页和索引页。在WINDOWS中，我们对文件执行的每一步操作，在磁盘上的物理位置只有系统（system）才知道；SQL SERVER沿袭了这种工作方式，在插入数据的过程中，不但每个字段值在数据页面中的保存位置是随机的，而且每个数据页面在“堆”中的排列位置也只有系统（system）才知道。这是为什么呢？众所周知，OS之所以能管理DISK，是因为在系统启动时首先加载了文件分配表：FAT（File Allocation Table），正是由它管理文件系统并记录对文件的一切操作，系统才得以正常运行；同理，作为管理系统级的SQL SERVER,也有这样一张类似FAT的表存在，它就是索引分布映像页：IAM（Index Allocation Map）。 IAM的存在，使SQLS对数据表的物理管理有了可能。 IAM页从混合扩展中分配，记录了8个初始页面的位置和该扩展区的位置，每个IAM页面能管理512,000个数据页面，如果数据量太大，SQLS也可以增加更多的IAM页，可以位于文件的任何位置。第一个IAM页被称为FirstIAM,其中记录了以后的IAM页的位置。数据页和文本/图像页互反，前者保存非文本/图像类型的数据，因为它们都不超过8K的容量，后者则只保存超过8K容量的文本或图像类型数据。而索引页顾名思义，保存的是与索引结构相关的数据信息。了解页面的问题有助我们下一步准确理解SQLS维护索引的方式，如页拆分、填充因子等。二、索引的基本概念索引是一种特殊类型的数据库对象，它与表有着密切的联系。索引是为检索而存在的。如一些书籍的末尾就专门附有索引，指明了某个关键字在正文中的出现的页码位置，方便我们查找，但大多数的书籍只有目录，目录不是索引，只是书中内容的排序，并不提供真正的检索功能。可见建立索引要单独占用空间；索引也并不是必须要建立的，它们只是为更好、更快的检索和定位关键字而存在。再进一步说，我们要在图书馆中查阅图书，该怎么办呢？图书馆的前台有很多叫做索引卡片柜的小柜子，里面分了若干的类别供我们检索图书，比如你可以用书名的笔画顺序或者拼音顺序作为查找的依据，你还可以从作者名的笔画顺序或拼音顺序去查询想要的图书，反正有许多检索方式，但有一点很明白，书库中的书并没有按照这些卡片柜中的顺序排列——虽然理论上可以这样做，事实上，所有图书的脊背上都人工的粘贴了一个特定的编号①，它们是以这个顺序在排列。索引卡片中并没有指明这本书摆放在书库中的第几个书架的第几本，仅仅指明了这个特定的编号。管理员则根据这一编号将请求的图书返回到读者手中。这是很形象的例子，以下的讲解将会反复用到它。 SQLS在安装完成之后，安装程序会自动创建master、model、tempdb等几个特殊的系统数据库，其中master是SQLS的主数据库，用于保存和管理其它系统数据库、用户数据库以及SQLS的系统信息，它在SQLS中的地位与WINDOWS下的注册表相当。 master中有一个名为sysindexes的系统表，专门管理索引。SQLS查询数据表的操作都必须用到它，毫无疑义，它是本文主角之一。查看一张表的索引属性，可以在查询分析器中使用以下命令：select from sysindexes where id=object_id(‘tablename’) ；而要查看表的索引所占空间的大小，可以使用系统存储过程命令：sp_spaceused tablename，其中参数tablename为被索引的表名。三、平衡树如果你通过书后的索引知道了一个关键字所在的页码，你有可能通过随机的翻寻，最终到达正确的页码。但更科学更快捷的方法是：首先把书翻到大概二分之一的位置，如果要找的页码比该页的页码小，就把书向前翻到四分之一处，否则，就把书向后翻到四分之三的地方，依此类推，把书页续分成更小的部分，直至正确的页码。这叫“两分法”，微软在官方教程MOC里另有一种说法：叫B树（B-Tree，Balance Tree），即平衡树。一个表索引由若干页面组成，这些页面构成了一个树形结构。B树由“根”（root）开始，称为根级节点，它通过指向另外两个页，把一个表的记录从逻辑上分成两个部分：“枝”—--非叶级节点（Non-Leaf Level）；而非叶级节点又分别指向更小的部分：“叶”——叶级节点（Leaf Level）。根节点、非叶级节点和叶级节点都位于索引页中，统称为索引节点，属于索引页的范筹。这些“枝”、“叶”最终指向了具体的数据页（Page）。在根级节点和叶级节点之间的叶又叫数据中间页。 “根”（root）对应了sysindexes表的Root字段，其中记载了非叶级节点的物理位置（即指针）；非叶级节点位于根节点和叶节点之间，记载了指向叶级节点的指针；而叶级节点则最终指向数据页。这就是“平衡树”。四、聚集索引和非聚集索引从形式上而言，索引分为聚集索引（Clustered Indexes）和非聚集索引（NonClustered Indexes）。聚集索引相当于书籍脊背上那个特定的编号。如果对一张表建立了聚集索引，其索引页中就包含着建立索引的列的值（下称索引键值），那么表中的记录将按照该索引键值进行排序。比如，我们如果在“姓名”这一字段上建立了聚集索引，则表中的记录将按照姓名进行排列；如果建立了聚集索引的列是数值类型的，那么记录将按照该键值的数值大小来进行排列。非聚集索引用于指定数据的逻辑顺序，也就是说，表中的数据并没有按照索引键值指定的顺序排列，而仍然按照插入记录时的顺序存放。其索引页中包含着索引键值和它所指向该行记录在数据页中的物理位置，叫做行定位符（RID：Row ID）。好似书后面的的索引表，索引表中的顺序与实际的页码顺序也是不一致的。而且一本书也许有多个索引。比如主题索引和作者索引。 SQL Server在默认的情况下建立的索引是非聚集索引，由于非聚集索引不对表中的数据进行重组，而只是存储索引键值并用一个指针指向数据所在的页面。一个表如果没有聚集索引时,理论上可以建立249个非聚集索引。每个非聚集索引提供访问数据的不同排序顺序。五、数据是怎样被访问的若能真正理解了以上索引的基础知识，那么再回头来看索引的工作原理就简单和轻松多了。（一）SQLS怎样访问没有建立任何索引数据表： Heap译成汉语叫做“堆”，其本义暗含杂乱无章、无序的意思，前面提到数据值被写进数据页时，由于每一行记录之间并没地有特定的排列顺序，所以行与行的顺序就是随机无序的，当然表中的数据页也就是无序的了，而表中所有数据页就形成了“堆”，可以说，一张没有索引的数据表，就像一个只有书柜而没有索引卡片柜的图书馆，书库里面塞满了一堆乱七八糟的图书。当读者对管理员提交查询请求后，管理员就一头钻进书库，对照查找内容从头开始一架一柜的逐本查找，运气好的话，在第一个书架的第一本书就找到了，运气不好的话，要到最后一个书架的最后一本书才找到。 SQLS在接到查询请求的时候，首先会分析sysindexes表中一个叫做索引标志符(INDID: Index ID)的字段的值，如果该值为0，表示这是一张数据表而不是索引表，SQLS就会使用sysindexes表的另一个字段——也就是在前面提到过的FirstIAM值中找到该表的IAM页链——也就是所有数据页集合。这就是对一个没有建立索引的数据表进行数据查找的方式，是不是很没效率？对于没有索引的表，对于一“堆”这样的记录，SQLS也只能这样做，而且更没劲的是，即使在第一行就找到了被查询的记录，SQLS仍然要从头到尾的将表扫描一次。这种查询称为“遍历”，又叫“表扫描”。可见没有建立索引的数据表照样可以运行，不过这种方法对于小规模的表来说没有什么太大的问题，但要查询海量的数据效率就太低了。（二）SQLS怎样访问建立了非聚集索引的数据表：如前所述，非聚集索引可以建多个,具有B树结构，其叶级节点不包含数据页，只包含索引行。假定一个表中只有非聚集索引，则每个索引行包含了非聚集索引键值以及行定位符（ROW ID,RID），他们指向具有该键值的数据行。每一个RID由文件ID、页编号和在页中行的编号组成。当INDID的值在2-250之间时，意味着表中存在非聚集索引页。此时，SQLS调用ROOT字段的值指向非聚集索引B树的ROOT，在其中查找与被查询最相近的值，根据这个值找到在非叶级节点中的页号，然后顺藤摸瓜，在叶级节点相应的页面中找到该值的RID，最后根据这个RID在Heap中定位所在的页和行并返回到查询端。例如：假定在Lastname上建立了非聚集索引，则执行Select From Member Where Lastname=’Ota’时，查询过程是：①SQLS查询INDID值为2；②立即从根出发，在非叶级节点中定位最接近Ota的值“Martin”，并查到其位于叶级页面的第61页；③仅在叶级页面的第61页的Martin下搜寻Ota的RID，其RID显示为N∶706∶4，表示Lastname字段中名为Ota的记录位于堆的第707页的第4行，N表示文件的ID值，与数据无关；④根据上述信息，SQLS立马在堆的第 707页第4行将该记录“揪”出来并显示于前台（客户端）。视表的数据量大小，整个查询过程费时从百分之几毫秒到数毫秒不等。在谈到索引基本概念的时候，我们就提到了这种方式：图书馆的前台有很多索引卡片柜，里面分了若干的类别，诸如按照书名笔画或拼音顺序、作者笔画或拼音顺序等等，但不同之处有二：① 索引卡片上记录了每本书摆放的具体位置——位于某柜某架的第几本——而不是“特殊编号”；② 书脊上并没有那个“特殊编号”。管理员在索引柜中查到所需图书的具体位置（RID）后，根据RID直接在书库中的具体位置将书提出来。显然，这种查询方式效率很高，但资源占用极大，因为书库中书的位置随时在发生变化，必然要求管理员花费额外的精力和时间随时做好索引更新。（三）SQLS怎样访问建立了聚集索引的数据表：在聚集索引中，数据所在的数据页是叶级，索引数据所在的索引页是非叶级。查询原理和上述对非聚集索引的查询相似，但由于记录是按照聚集索引中索引键值进行排序，换句话说，聚集索引的索引键值也就是具体的数据页。这就好比书库中的书就是按照书名的拼音在排序，而且也只按照这一种排序方式建立相应的索引卡片，于是查询起来要比上述只建立非聚集索引的方式要简单得多。仍以上面的查询为例：假定在Lastname字段上建立了聚集索引，则执行Select From Member Where Lastname=’Ota’时，查询过程是：①SQLS查询INDID值为1，这是在系统中只建立了聚集索引的标志；②立即从根出发，在非叶级节点中定位最接近Ota的值“Martin”，并查到其位于叶级页面的第120页；③在位于叶级页面第120页的Martin下搜寻到Ota条目，而这一条目已是数据记录本身；④将该记录返回客户端。这一次的效率比第二种方法更高，以致于看起来更美，然而它最大的优点也恰好是它最大的缺点——由于同一张表中同时只能按照一种顺序排列，所以在任何一种数据表中的聚集索引只能建立一个；并且建立聚集索引需要至少相当于源表120%的附加空间，以存放源表的副本和索引中间页！难道鱼和熊掌就不能兼顾了吗？办法是有的。（四）SQLS怎样访问既有聚集索引、又有非聚集索引的数据表：如果我们在建立非聚集索引之前先建立了聚集索引的话，那么非聚集索引就可以使用聚集索引的关键字进行检索，就像在图书馆中，前台卡片柜中的可以有不同类别的图书索引卡，然而每张卡片上都载明了那个特殊编号——并不是书籍存放的具体位置。这样在最大程度上既照顾了数据检索的快捷性，又使索引的日常维护变得更加可行，这是最为科学的检索方法。也就是说，在只建立了非聚集索引的情况下，每个叶级节点指明了记录的行定位符（RID）；而在既有聚集索引又有非聚集索引的情况下，每个叶级节点所指向的是该聚集索引的索引键值，即数据记录本身。假设聚集索引建立在Lastname上，而非聚集索引建立在Firstname上，当执行Select From Member Where Firstname=’Mike’时，查询过程是：①SQLS查询INDID值为2；②立即从根出发，在Firstname的非聚集索引的非叶级节点中定位最接近Mike的值“Jose”条目；③从Jose条目下的叶级页面中查到Mike逻辑位置——不是RID而是聚集索引的指针；④根据这一指针所指示位置，直接进入位于Lastname的聚集索引中的叶级页面中到达Mike数据记录本身；⑤将该记录返回客户端。这就完全和我们在“索引的基本概念”中讲到的现实场景完全一样了，当数据发生更新的时候，SQLS只负责对聚集索引的健值驾以维护，而不必考虑非聚集索引，只要我们在ID类的字段上建立聚集索引，而在其它经常需要查询的字段上建立非聚集索引，通过这种科学的、有针对性的在一张表上分别建立聚集索引和非聚集索引的方法，我们既享受了索引带来的灵活与快捷，又相对规避了维护索引所导致的大量的额外资源消耗。六、索引的优点和不足索引有一些先天不足：1：建立索引，系统要占用大约为表的1.2倍的硬盘和内存空间来保存索引。2：更新数据的时候，系统必须要有额外的时间来同时对索引进行更新，以维持数据和索引的一致性——这就如同图书馆要有专门的位置来摆放索引柜，并且每当库存图书发生变化时都需要有人将索引卡片重整以保持索引与库存的一致。当然建立索引的优点也是显而易见的：在海量数据的情况下，如果合理的建立了索引，则会大大加强SQLS执行查询、对结果进行排序、分组的操作效率。实践表明，不恰当的索引不但于事无补，反而会降低系统性能。因为大量的索引在进行插入、修改和删除操作时比没有索引花费更多的系统时间。比如在如下字段建立索引应该是不恰当的：1、很少或从不引用的字段；2、逻辑型的字段，如男或女(是或否)等。综上所述，提高查询效率是以消耗一定的系统资源为代价的，索引不能盲目的建立，必须要有统筹的规划，一定要在“加快查询速度”与“降低修改速度”之间做好平衡，有得必有失，此消则彼长。这是考验一个DBA是否优秀的很重要的指标。至此，我们一直在说SQLS在维护索引时要消耗系统资源，那么SQLS维护索引时究竟消耗了什么资源？会产生哪些问题？究竟应该才能优化字段的索引？在上篇中，我们就索引的基本概念和数据查询原理作了详细阐述，知道了建立索引时一定要在“加快查询速度”与“降低修改速度”之间做好平衡，有得必有失，此消则彼长。那么，SQLS维护索引时究竟怎样消耗资源？应该从哪些方面对索引进行管理与优化？以下就从七个方面来回答这些问题。一、页分裂微软MOC教导我们：当一个数据页达到了8K容量，如果此时发生插入或更新数据的操作，将导致页的分裂(又名页拆分)： 1、有聚集索引的情况下：聚集索引将被插入和更新的行指向特定的页，该页由聚集索引关键字决定； 2、只有堆的情况下：只要有空间就可以插入新的行，但是如果我们对行数据的更新需要更多的空间，以致大于了当前页的可用空间，行就被移到新的页中，并且在原位置留下一个转发指针，指向被移动的新行，如果具有转发指针的行又被移动了，那么原来的指针将重新指向新的位置； 3、如果堆中有非聚集索引，那么尽管插入和更新操作在堆中不会发生页分裂，但是在非聚集索引上仍然产生页分裂。无论有无索引，大约一半的数据将保留在老页面，而另一半将放入新页面，并且新页面可能被分配到任何可用的页。所以，频繁页分裂，后果很严重，将使物理表产生大量数据碎片，导致直接造成I/O效率的急剧下降，最后，停止SQLS的运行并重建索引将是我们的唯一选择! 二、填充因子然而在“混沌之初”，就可以在一定程度上避免不愉快出现：在创建索引时，可以为这个索引指定一个填充因子，以便在索引的每个叶级页面上保留一定百分比的空间，将来数据可以进行扩充和减少页分裂。填充因子是从0到100的百分比数值，设为100时表示将数据页填满。只有当不会对数据进行更改时(例如只读表中)才用此设置。值越小则数据页上的空闲空间越大，这样可以减少在索引增长过程中进行页分裂的需要，但这一操作需要占用更多的硬盘空间。填充因子只在创建索引时执行，索引创建以后，当表中进行数据的添加、删除或更新时，是不会保持填充因子的，如果想在数据页上保持额外的空间，则有悖于使用填充因子的本意，因为随着数据的输入，SQLS必须在每个页上进行页拆分，以保持填充因子指定的空闲空间。因此，只有在表中的数据进行了较大的变动，才可以填充数据页的空闲空间。这时，可以从容的重建索引，重新指定填充因子，重新分布数据。反之，填充因子指定不当，就会降低数据库的读取性能，其降低量与填充因子设置值成反比。例如，当填充因子的值为50时，数据库的读取性能会降低两倍！所以，只有在表中根据现有数据创建新索引，并且可以预见将来会对这些数据进行哪些更改时，设置填充因子才有意义。三、两道数学题假定数据库设计没有问题，那么是否象上篇中分析的那样，当你建立了众多的索引，在查询工作中SQLS就只能按照“最高指示”用索引处理每一个提交的查询呢？答案是否定的！上篇“数据是怎样被访问的”章节中提到的四种索引方案只是一种静态的、标准的和理论上的分析比较，实际上，将在外，军令有所不从，SQLS几乎完全是“自主”的决定是否使用索引或使用哪一个索引！这是怎么回事呢？让我们先来算一道题：如果某表的一条记录在磁盘上占用1000字节(1K)的话，我们对其中10字节的一个字段建立索引，那么该记录对应的索引大小只有10字节(0.01K)。上篇说过，SQLS的最小空间分配单元是“页（Page）”，一个页面在磁盘上占用8K空间，所以一页只能存储8条“记录”，但可以存储800条“索引”。现在我们要从一个有8000条记录的表中检索符合某个条件的记录(有Where子句)，如果没有索引的话，我们需要遍历8000条×1000字节/8K字节=1000个页面才能够找到结果。如果在检索字段上有上述索引的话，那么我们可以在8000条×10字节/8K字节=10个页面中就检索到满足条件的索引块，然后根据索引块上的指针逐一找到结果数据块，这样I/O访问量肯定要少得多。然而有时用索引还不如不用索引快！同上，如果要无条件检索全部记录(不用Where子句)，不用索引的话，需要访问8000条×1000字节/8K字节=1000个页面；而使用索引的话，首先检索索引，访问8000条×10字节/8K字节=10个页面得到索引检索结果，再根据索引检索结果去对应数据页面，由于是检索全部数据，所以需要再访问8000条×1000字节/8K字节=1000个页面将全部数据读取出来，一共访问了1010个页面，这显然不如不用索引快。 SQLS内部有一套完整的数据索引优化技术，在上述情况下，SQLS会自动使用表扫描的方式检索数据而不会使用任何索引。那么SQLS是怎么知道什么时候用索引，什么时候不用索引的呢？因为SQLS除了维护数据信息外，还维护着数据统计信息！四、统计信息打开企业管理器，单击“Database”节点，右击Northwind数据库→单击“属性”→选择“Options”选项卡，观察“Settings”下的各项复选项，你发现了什么？从Settings中我们可以看到，在数据库中，SQLS将默认的自动创建和更新统计信息，这些统计信息包括数据密度和分布信息，正是它们帮助SQLS确定最佳的查询策略：建立查询计划和是否使用索引以及使用什么样的索引。在创建索引时，SQLS会创建分布数据页来存放有关索引的两种统计信息：分布表和密度表。查询优化器使用这些统计信息估算使用该索引进行查询的成本(Cost)，并在此基础上判断该索引对某个特定查询是否有用。随着表中的数据发生变化，SQLS自动定期更新这些统计信息。采样是在各个数据页上随机进行。从磁盘读取一个数据页后，该数据页上的所有行都被用来更新统计信息。统计信息更新的频率取决于字段或索引中的数据量以及数据更改量。比如，对于有一万条记录的表，当1000个索引键值发生改变时，该表的统计信息便可能需要更新，因为1000 个值在该表中占了10%，这是一个很大的比例。而对于有1千万条记录的表来说，1000个索引值发生更改的意义则可以忽略不计，因此统计信息就不会自动更新。至于它们帮助SQLS建立查询计划的具体过程，限于篇幅，这里就省略了，请有兴趣的朋友们自己研究。顺便多说一句，SQLS除了能自动记录统计信息之外，还可以记录服务器中所发生的其它活动的详细信息，包括I/O 统计信息、CPU 统计信息、锁定请求、T-SQL 和 RPC 统计信息、索引和表扫描、警告和引发的错误、数据库对象的创建/除去、连接/断开、存储过程操作、游标操作等等。这些信息的读取、设置请朋友们在SQLS联机帮助文档(SQL Server Books Online)中搜索字符串“Profiler”查找。五、索引的人工维护上面讲到,某些不合适的索引将影响到SQLS的性能,随着应用系统的运行,数据不断地发生变化,当数据变化达到某一个程度时将会影响到索引的使用。这时需要用户自己来维护索引。随着数据行的插入、删除和数据页的分裂，有些索引页可能只包含几页数据，另外应用在执行大量I/O的时候，重建非聚聚集索引可以维护I/O的效率。重建索引实质上是重新组织B树。需要重建索引的情况有： 1) 数据和使用模式大幅度变化； 2)排序的顺序发生改变； 3)要进行大量插入操作或已经完成； 4)使用I/O查询的磁盘读次数比预料的要多； 5)由于大量数据修改，使得数据页和索引页没有充分使用而导致空间的使用超出估算； 6)dbcc检查出索引有问题。六、索引的使用原则接近尾声的时候，让我们再从另一个角度认识索引的两个重要属性----唯一性索引和复合性索引。在设计表的时候，可以对字段值进行某些限制，比如可以对字段进行主键约束或唯一性约束。主键约束是指定某个或多个字段不允许重复，用于防止表中出现两条完全相同的记录，这样的字段称为主键，每张表都可以建立并且只能建立一个主键，构成主键的字段不允许空值。例如职员表中“身份证号”字段或成绩表中“学号、课程编号”字段组合。而唯一性约束与主键约束类似，区别只在于构成唯一性约束的字段允许出现空值。建立在主键约束和唯一性约束上的索引，由于其字段值具有唯一性，于是我们将这种索引叫做“唯一性索引”，如果这个唯一性索引是由两个以上字段的组合建立的，那么它又叫“复合性索引”。注意，唯一索引不是聚集索引，如果对一个字段建立了唯一索引，你仅仅不能向这个字段输入重复的值。并不妨碍你可以对其它类型的字段也建立一个唯一性索引，它们可以是聚集的，也可以是非聚集的。唯一性索引保证在索引列中的全部数据是唯一的，不会包含冗余数据。如果表中已经有一个主键约束或者唯一性约束，那么当创建表或者修改表时，SQLS自动创建一个唯一性索引。但出于必须保证唯一性，那么应该创建主键约束或者唯一性键约束，而不是创建一个唯一性索引。当创建唯一性索引时，应该认真考虑这些规则：当在表中创建主键约束或者唯一性键约束时， SQLS钭自动创建一个唯一性索引；如果表中已经包含有数据，那么当创建索引时，SQLS检查表中已有数据的冗余性，如果发现冗余值，那么SQLS就取消该语句的执行，并且返回一个错误消息，确保表中的每一行数据都有一个唯一值。复合索引就是一个索引创建在两个列或者多个列上。在搜索时，当两个或者多个列作为一个关键值时，最好在这些列上创建复合索引。当创建复合索引时，应该考虑这些规则：最多可以把16个列合并成一个单独的复合索引，构成复合索引的列的总长度不能超过900字节，也就是说复合列的长度不能太长；在复合索引中，所有的列必须来自同一个表中，不能跨表建立复合列；在复合索引中，列的排列顺序是非常重要的，原则上，应该首先定义最唯一的列，例如在（COL1，COL2）上的索引与在（COL2，COL1）上的索引是不相同的，因为两个索引的列的顺序不同；为了使查询优化器使用复合索引，查询语句中的WHERE子句必须参考复合索引中第一个列；当表中有多个关键列时，复合索引是非常有用的；使用复合索引可以提高查询性能，减少在一个表中所创建的索引数量。综上所述，我们总结了如下索引使用原则： 1)逻辑主键使用唯一的成组索引，对系统键（作为存储过程）采用唯一的非成组索引，对任何外键列采用非成组索引。考虑数据库的空间有多大，表如何进行访问，还有这些访问是否主要用作读写。 2)不要索引memo/note 字段，不要索引大型字段（有很多字符），这样作会让索引占用太多的存储空间。 3)不要索引常用的小型表 4)一般不要为小型数据表设置过多的索引，假如它们经常有插入和删除操作就更别这样作了，SQLS对这些插入和删除操作提供的索引维护可能比扫描表空间消耗更多的时间。七、大结局查询是一个物理过程，表面上是SQLS在东跑西跑，其实真正大部分压马路的工作是由磁盘输入输出系统(I/O)完成，全表扫描需要从磁盘上读表的每一个数据页，如果有索引指向数据值，则I/O读几次磁盘就可以了。但是，在随时发生的增、删、改操作中，索引的存在会大大增加工作量，因此，合理的索引设计是建立在对各种查询的分析和预测上的，只有正确地使索引与程序结合起来,才能产生最佳的优化方案。一般来说建立索引的思路是： (1)主键时常作为where子句的条件，应在表的主键列上建立聚聚集索引，尤其当经常用它作为连接的时候。 (2)有大量重复值且经常有范围查询和排序、分组发生的列，或者非常频繁地被访问的列，可考虑建立聚聚集索引。　　 (3)经常同时存取多列，且每列都含有重复值可考虑建立复合索引来覆盖一个或一组查询，并把查询引用最频繁的列作为前导列，如果可能尽量使关键查询形成覆盖查询。 (4)如果知道索引键的所有值都是唯一的，那么确保把索引定义成唯一索引。 (5)在一个经常做插入操作的表上建索引时，使用fillfactor(填充因子)来减少页分裂，同时提高并发度降低死锁的发生。如果在只读表上建索引，则可以把fillfactor置为100。 (6)在选择索引字段时，尽量选择那些小数据类型的字段作为索引键，以使每个索引页能够容纳尽可能多的索引键和指针，通过这种方式，可使一个查询必须遍历的索引页面降到最小。此外，尽可能地使用整数为键值，因为它能够提供比任何数据类型都快的访问速度。 SQLS是一个很复杂的系统，让索引以及查询背后的东西真相大白，可以帮助我们更为深刻的了解我们的系统。一句话，索引就象盐，少则无味多则咸。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_28052907/article/details/75194926。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-30 23:10:07

转载

ZooKeeper

ZooKeeper中正确处理InterruptedException：并发场景下的线程中断与临时节点创建实践

...就来唠唠嗑，聊聊在 ZooKeeper 这个家伙里头，到底该怎么准确无误地应对那个 InterruptedException 的小妖精吧！二、什么是 InterruptedException？ InterruptedException 是一个在 Java 中表示线程被中断的运行时异常。当线程突然被中断时，它会毫不犹豫地抛出一个异常，这种情况常常发生在我们让线程苦苦等待某个操作完成的时刻，就像我们在等一个IO操作顺利完成那样。三、为什么我们需要处理 InterruptedException？在多线程编程中，我们经常需要在一个线程等待另一个线程执行某些操作，这时就可能会发生 InterruptedException。如果不处理这个异常，程序就会崩溃。因此，我们需要学会正确地捕获和处理 InterruptedException。四、如何在 ZooKeeper 中处理 InterruptedException？在 ZooKeeper 中，我们可以使用 zookeeper.create 方法创建节点，并设置 createMode 参数为 CreateMode.EPHEMERAL_SEQUENTIAL，这样创建的节点会自动删除，而不需要手动删除。这种方式可以避免因长时间未删除节点而导致的数据泄露问题。下面是一个简单的示例： java try { ZooKeeper zk = new ZooKeeper("localhost:2181", 3000, new Watcher() { @Override public void process(WatchedEvent event) { System.out.println("Received watch event : " + event); } }); byte[] data = new byte[10]; String path = "/node"; try { zk.create(path, data, ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL_SEQUENTIAL); } catch (InterruptedException e) { Thread.currentThread().interrupt(); throw new RuntimeException(e); } } catch (IOException | KeeperException e) { e.printStackTrace(); } 在这个示例中，我们首先创建了一个 ZooKeeper 对象，并设置了超时时间为 3 秒钟。然后，我们创建了一个节点，并将节点的数据设置为 null。如果在创建过程中不小心遇到 InterruptedException 这个小插曲，我们会把当前线程的状态给恢复原状，然后抛出一个新的 RuntimeException，就像把一个突然冒出来的小麻烦重新打包成一个新异常扔出去一样。五、总结在 ZooKeeper 中，我们可以通过设置创建模式为 EPHEMERAL_SEQUENTIAL 来自动删除节点，从而避免因长时间未删除节点而导致的数据泄露问题。同时呢，咱们也得留意一下，得妥善处理那个 InterruptedException，可别小看了它，要是没整对的话，可能会让程序闹脾气直接罢工。

2023-05-26 10:23:50

114

幽谷听泉-t

ZooKeeper

ZooKeeper中临时节点下子节点创建限制与NoChildrenForEphemeralsException异常处理实践这个包含了的核心关键词，即NoChildrenForEphemeralsException、临时节点和ZooKeeper，同时也点出了问题所在（子节点在临时节点下的创建限制）以及异常处理的实践内容，符合50字以内的要求，并且没有使用概括性词语。

ZooKeeper NoChildrenForEphemeralsException 解决的要点：深入探讨与实战示例 1. 引言在分布式系统的世界里，ZooKeeper 是一个极具价值的服务协调组件，它的强大之处在于提供了诸如数据发布/订阅、分布式锁、集群管理等多种服务。然而，在实际使用过程中，我们可能会遇到 NoChildrenForEphemeralsException 这个异常。本文将带你一起深入理解这个异常产生的原因，并通过丰富的代码实例，揭示解决这一问题的关键要点。 2. 理解NoChildrenForEphemeralsException NoChildrenForEphemeralsException 是 ZooKeeper 在特定场景下抛出的一种异常，它通常发生在尝试为临时节点创建子节点时。在ZooKeeper的设计理念里，有个挺有趣的设定——临时节点（我们暂且叫它“瞬时小子”）是不允许有自己的小崽崽（也就是子节点）的。为啥呢？因为这个“瞬时小子”的生命周期紧紧绑定了会话的有效期，一旦会话结束，唉，那这个“瞬时小子”就像一阵风一样消失不见了，连带着它身上挂着的所有数据也一并被清理掉。这样一来，如果它下面还有子节点的话，这些子节点也就跟着无影无踪了，这显然跟咱们期望的节点树结构能够长久稳定、保持一致性的原则不太相符哈。 2.1 示例代码：触发异常的情景 java // 创建ZooKeeper客户端连接 ZooKeeper zookeeper = new ZooKeeper("localhost:2181", 5000, null); // 创建临时节点 String ephemeralNodePath = zookeeper.create("/ephemeralNode", "data".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL); // 尝试为临时节点创建子节点，此处会抛出NoChildrenForEphemeralsException zookeeper.create(ephemeralNodePath + "/child", "childData".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT); 运行上述代码，当你试图在临时节点上创建子节点时，ZooKeeper 就会抛出 NoChildrenForEphemeralsException 异常。 3. 解决方案与应对策略面对 NoChildrenForEphemeralsException 异常，我们的解决方案主要有以下两点： 3.1 设计调整：避免在临时节点下创建子节点首先，我们需要检查应用的设计逻辑，确保不违反 ZooKeeper 关于临时节点的规则。比如说，假如你想要存一组有关系的数据，可以考虑不把它们当爹妈孩子那样放在ZooKeeper里，而是像亲兄弟一样肩并肩地放在一起。 3.2 使用永久节点替代临时节点对于那些需要维护子节点的场景，应选择使用永久节点（Persistent Node）。下面是一个修改后的代码示例： java // 创建ZooKeeper客户端连接 ZooKeeper zookeeper = new ZooKeeper("localhost:2181", 5000, null); // 创建永久节点 String parentNodePath = zookeeper.create("/parentNode", "parentData".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT); // 在永久节点下创建子节点，此时不会抛出异常 String childNodePath = zookeeper.create(parentNodePath + "/child", "childData".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT); 4. 总结与思考处理 NoChildrenForEphemeralsException 异常的过程，实际上是对 ZooKeeper 设计理念和应用场景深度理解的过程。我们应当尊重并充分利用其特性，而非强加不符合规范的操作。在实践中，正确地识别并运用临时节点和永久节点的特性，不仅能够规避此类异常的发生，更有助于提升整个分布式系统的稳定性和可靠性。所以，每一次我们理解和解决那些不寻常的问题，其实就是在踏上一段探寻技术本质的冒险旅程。这样的旅途不仅时常布满各种挑战，但也总能让我们收获满满，就像寻宝一样刺激又富有成果。

2024-01-14 19:51:17

青山绿水

JQuery插件下载

轻量级jQuery全屏翻页插件

...以极小的体积（压缩后不足1KB）提供了强大的功能，使得开发者无需额外添加HTML元素，即可轻松实现全屏范围内通过鼠标滚轮或点击按钮进行翻页的功能。NaiveScroll插件通过对鼠标事件的智能覆盖处理，确保了在用户操作时不会产生冗余的事件触发，从而提升了用户体验。此外，它还提供了一系列便捷的API接口，使得开发者可以根据需求手动控制上下翻页的动作，增强了页面内容展示的灵活性与交互性。简而言之，NaiveScroll是一个高效实用的工具，它将简洁、流畅的全屏滚动体验融入到网页设计中，特别适合用于产品介绍、故事叙述、长图文浏览等场景，帮助构建出引人入胜且操作顺畅的一体化全屏页面浏览效果。点我下载文件大小：41.00 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-04-12 18:00:07

本站

JQuery插件下载

mgGlitch.js-模拟显示故障的jQuery插件

...供模拟真实世界显示器故障效果的独特视觉体验。通过这款插件，用户能够轻松地为页面中的任何HTML元素添加错乱、闪烁、扭曲等故障艺术效果，就像老旧电视机或显示器出现信号问题时的画面。该插件充分利用了JavaScript与jQuery的能力，赋予网页元素以动态混合模式，让静态或动态内容呈现出仿佛受到数字信号干扰的独特样式。设计者可以通过简单的API调用，自定义故障特效的程度、频率以及其它视觉参数，从而实现高度定制化的用户体验。总而言之，mgGlitch.js是为那些追求新颖、前卫网页视觉表现力的开发者准备的一款强大工具，它能够在不影响网站整体功能的前提下，为用户提供耳目一新的图片及界面效果，大大增强网站的艺术表现张力与视觉吸引力。点我下载文件大小：139.37 KB 您将下载一个JQuery插件资源包，该资源包内部文件的目录结构如下：本网站提供JQuery插件下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2024-04-05 10:55:30

307

本站

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

free -h - 以人类可读格式显示系统内存和交换空间使用情况。