存储过程 , 在数据库系统中，存储过程是一种预编译的、可重复使用的SQL语句集合，它封装了一系列逻辑操作，并可以接受输入参数和返回结果集。在Hive环境中，存储过程允许用户定义一组复杂的查询或数据处理任务，然后通过一个简单的调用即可执行这些任务，从而提高代码复用性和执行效率，同时还能实现对系统安全性的增强。 ACID事务 , ACID是Atomic（原子性）、Consistency（一致性）、Isolation（隔离性）和Durability（持久性）四个单词的首字母缩写，它是关系型数据库管理系统确保数据完整性和一致性的核心原则。在Hive 3.0版本中，引入了对ACID事务的支持，意味着Hive能够支持满足这四项特性的事务处理，保证即使在并发环境下，对数据的操作也能保持如同单个操作那样的效果，确保数据的一致性和可靠性。 Apache Spark SQL , Apache Spark SQL是Apache Spark项目的一部分，它提供了一种用于处理结构化数据和进行SQL查询的接口。Spark SQL不仅支持传统的SQL查询语法，还与Spark Core API无缝集成，允许开发者使用DataFrame和Dataset API进行编程，实现高效的数据处理和分析。相较于Hive，Spark SQL具有更低的延迟和更强的实时处理能力，在现代大数据处理场景下得到了广泛应用，也可以实现类似于存储过程的功能，如通过用户自定义函数（UDF）和DataFrame API组合实现复杂业务逻辑的封装与执行。

2023-06-04 18:02:45

455

红尘漫步-t

转载文章

[转载]mysql怎么让自增id不连续_MySQL中自增主键不连续之解决方案。（20131109）

...这也是令很多程序员和数据库管理员头疼的事情。假设在一MySQL数据表中，自增的字段为id，唯一字段为abc，还有其它字段若干。自增：AUTO_INCREMENT A、使用insert into插入数据时，若abc的值已存在，因其为唯一键，故不会插入成功。但此时，那个AUTO_INCREMENT已然+1了。 eg : insert into table set abc = '123' B、使用replace插入数据时，若abc的值已存在，则会先删除表中的那条记录，尔后插入新数据。 eg : replace into table set abc = '123' (注：上一行中的into可省略；这只是一种写法。) 这两种方法，效果都不好：A会造成id不连续，B会使得原来abc对应的id值发生改变，而这个id值会和其它表进行关联，这是更不允许的。那么，有没有解决方案呢？笨办法当然是有：每次插入前先查询，若表中不存在要插入的abc的值，才插入。但这样，每次入库之前都会多一个操作，麻烦至极。向同学请教，说用触发器。可在网上找了半天，总是有问题。可能是语法不对，或者是某些东西有限制。其实，最终要做的，就是在每次插入数据之后，修正那个AUTO_INCREMENT值。于是就想到，把这个最实质的SQL语句↓，合并在插入的SQL中。 PS： ALTER TABLE table AUTO_INCREMENT =1 执行之后，不一定再插入的id就是1；而是表中id最大值+1。这是MySQL中的执行结果。其它数据库不清楚。。。。到这里，问题就变的异常简单了：在每次插入之后都重置AUTO_INCREMENT的值。如果插入的自定义函数或类的名称被定义成insert的话，那么就在此基础上扩展一个函数insert_continuous_id好了，其意为：保证自增主键连续的插入。为什么不直接修改原函数呢？这是因为，并不是所有的insert都需要修正AUTO_INCREMENT。只有在设置唯一键、且有自增主键时才有可能需要。虽然重置不会有任何的副作用(经试验，对各种情况都无影响)，但没有必要就不要额外增加这一步。一个优秀的程序员，就是要尽量保证写出的每一个字符都有意义而不多余。啰啰嗦嗦的说了这么多，其实只有一句话：解决MySQL中自增主键不连续的方法，就是上面PS下的那一行代码。附：我写的不成功的触发器的代码。 -- 触发器 CREATE TRIGGER trigger_table after insert ON table FOR EACH ROW ALTER TABLE table AUTO_INCREMENT =1; 大家有想说的，请踊跃发言。期待更好更完美的解决方案。本篇文章为转载内容。原文链接：https://blog.csdn.net/weixin_39554172/article/details/113210084。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-08-26 08:19:54

转载

ClickHouse

ClickHouse外部表使用中文件权限与不存在问题的解决方案：错误提示、查询操作与文件路径管理实务

...ouse，作为一款高性能的列式数据库管理系统，以其卓越的实时数据分析能力广受青睐。不过在实际动手操作的时候，特别是当我们想要利用它的“外部表”功能和外界的数据源打交道的时候，确实会碰到一些让人头疼的小插曲。比如说，可能会遇到文件系统权限设置得不对劲儿，或者压根儿就找不到要找的文件这些让人抓狂的问题。本文将深入探讨这些问题，并通过实例代码解析如何解决这些问题。 2. ClickHouse外部表简介在ClickHouse中，外部表是一种特殊的表类型，它并不直接存储数据，而是指向存储在文件系统或其他数据源中的数据。这种方式让数据的导入导出变得超级灵活，不过呢，也给我们带来了些新麻烦。具体来说，就是在权限控制和文件状态追踪这两个环节上，挑战可是不小。 3. 文件系统权限不正确的处理方法 3.1 问题描述假设我们已创建一个指向本地文件系统的外部表，但在查询时收到错误提示：“Access to file denied”，这通常意味着ClickHouse服务账户没有足够的权限访问该文件。 sql CREATE TABLE external_table (event Date, id Int64) ENGINE = File(Parquet, '/path/to/your/file.parquet'); SELECT FROM external_table; -- Access to file denied 3.2 解决方案首先，我们需要确认ClickHouse服务运行账户对目标文件或目录拥有读取权限。可以通过更改文件或目录的所有权或修改访问权限来实现： bash sudo chown -R clickhouse:clickhouse /path/to/your/file.parquet sudo chmod -R 750 /path/to/your/file.parquet 这里，“clickhouse”是ClickHouse服务默认使用的系统账户名，您需要将其替换为您的实际环境下的账户名。对了，你知道吗？这个“750”啊，就像是个门锁密码一样，代表着一种常见的权限分配方式。具体来说呢，就是文件的所有者，相当于家的主人，拥有全部权限——想读就读，想写就写，还能执行操作；同组的其他用户呢，就好比是家人或者室友，他们能读取文件内容，也能执行相关的操作，但就不能随意修改了；而那些不属于这个组的其他用户呢，就像是门外的访客，对于这个文件来说，那可是一点权限都没有，完全进不去。 4. 文件不存在的问题及其解决策略 4.1 问题描述当我们在创建外部表时指定的文件路径无效或者文件已被删除时，尝试从该表查询数据会返回“File not found”的错误。 sql CREATE TABLE missing_file_table (data String) ENGINE = File(TSV, '/nonexistent/path/file.tsv'); SELECT FROM missing_file_table; -- File not found 4.2 解决方案针对此类问题，我们的首要任务是确保指定的文件路径是存在的并且文件内容有效。若文件确实已被移除，那么重新生成或恢复文件是最直接的解决办法。另外，你还可以琢磨一下在ClickHouse的配置里头开启自动监控和重试功能，这样一来，万一碰到文件临时抽风、没法用的情况，它就能自己动手解决问题了。另外，对于周期性更新的外部数据源，推荐结合ALTER TABLE ... UPDATE语句或MaterializeMySQL等引擎动态更新外部表的数据源路径。 sql -- 假设新文件已经生成，只需更新表结构即可 ALTER TABLE missing_file_table MODIFY SETTING path = '/new/existing/path/file.tsv'; 5. 结论与思考在使用ClickHouse外部表的过程中，理解并妥善处理文件系统权限和文件状态问题是至关重要的。只有当数据能够被安全、稳定地访问，才能充分发挥ClickHouse在大数据分析领域的强大效能。这也正好敲响我们的小闹钟，在我们捣鼓数据架构和运维流程的设计时，千万不能忘了把权限控制和数据完整性这两块大骨头放进思考篮子里。这样一来，咱们才能稳稳当当地保障整个数据链路健健康康地运转起来。

2023-09-29 09:56:06

467

落叶归根

DorisDB

DorisDB在分布式环境下的强一致性实践：基于Raft协议的多副本模型与MVCC并发控制

... DorisDB：应对数据一致性挑战的实战解析在大数据时代，数据的一致性问题，如数据不一致或重复写入，成为了许多企业数据库系统所面临的严峻挑战。这篇文咱要聊聊的，就是那个超给力、实打实能做实时分析的MPP数据库——DorisDB。咱们得钻得深一点，好好掰扯掰扯它那些独具匠心的设计和功能点，是怎么巧妙地把这些问题一一摆平的。 1. 数据一致性问题的痛点剖析在分布式环境下，由于网络延迟、节点故障等各种不确定性因素，数据一致性问题尤为凸显。想象一下，假如我们在处理一项业务操作时，需要同时把数据塞进很多个不同的节点里头。如果没有一套相当硬核的并发控制方法保驾护航，那么这数据就很容易出岔子，可能会出现不一致的情况，甚至于重复写入的问题。这样的情况不仅影响了数据分析的准确性，还可能导致决策失误，对企业造成严重影响。 2. DorisDB 以强一致性为设计理念 DorisDB从底层架构上就对数据一致性给予了高度重视。它采用基于Raft协议的多副本一致性模型，保证在任何情况下，数据的读写都能保持强一致性。这意味着，甭管在网络出现分区啦、节点罢工等啥不正常的场景下，DorisDB都能稳稳地保证同一份数据在同一时间段里只被正确无误地写入一回，这样一来，就彻底跟数据不一致和重复写入的麻烦事儿说拜拜了。 java // 假设我们在DorisDB中进行数据插入操作 String sql = "INSERT INTO my_table (column1, column2) VALUES ('value1', 'value2')"; dorisClient.execute(sql); 上述代码展示了在DorisDB中执行一条简单的插入语句，尽管实际过程涉及到了复杂的分布式事务处理逻辑，但用户无需关心这些细节，DorisDB会自动保障数据的一致性。 3. 多版本并发控制（MVCC）实现无锁并发写入 DorisDB引入了多版本并发控制（MVCC）机制，进一步提升了并发写入的性能和数据一致性。在MVCC这个机制里头，每当有写操作的时候，它不会直接去碰原有的数据，而是巧妙地创建一个新的数据版本来进行更新。这样一来，读和写的操作就能同时开足马力进行了，完全不用担心像传统锁那样，一个操作卡住，其他的操作就得干等着的情况发生。 sql -- 在DorisDB中，即使有多个并发写入请求，也能保证数据一致性 BEGIN TRANSACTION; UPDATE my_table SET column1='new_value1' WHERE key=1; COMMIT; -- 同时发生的另一个写入操作 BEGIN TRANSACTION; UPDATE my_table SET column2='new_value2' WHERE key=1; COMMIT; 上述两个并发更新操作，即便针对的是同一行数据，DorisDB也能借助MVCC机制在保证数据一致性的前提下顺利完成，且不会产生数据冲突。 4. 高效的错误恢复与重试机制对于可能出现的数据写入失败情况，DorisDB具备高效的错误恢复与重试机制。如果你在写东西时，突然网络抽风或者节点罢工导致没写成功，别担心，系统可机灵着呢，它能自动察觉到这个小插曲。然后，它会不厌其烦地尝试再次写入，直到你的数据稳稳当当地落到所有备份里头，确保最后数据的完整性是一致滴。 5. 总结与展望面对数据一致性这一棘手难题，DorisDB凭借其独特的强一致性模型、多版本并发控制以及高效错误恢复机制，为企业提供了可靠的数据存储解决方案。甭管是那种超大型的实时数据分析活儿，还是对数据准确性要求严苛到极致的关键业务场景，DorisDB都能稳稳接住挑战，确保数据的价值被淋漓尽致地挖掘出来，发挥到最大效能。随着技术的不断进步和升级，我们对DorisDB寄予厚望，期待它在未来能够更加给力，提供更牛的数据一致性保障，帮助更多的企业轻松搭上数字化转型这趟高速列车，跑得更快更稳。

2023-07-01 11:32:13

485

飞鸟与鱼

Impala

探究Impala在Hadoop集群中的查询性能：内存计算、列式存储与多线程执行实践及优化策略

Impala的查询性能如何？如果你正在寻找一种高效且强大的查询工具，那么Impala是一个非常好的选择。它是一种开源的分布式SQL查询引擎，可以轻松地处理大规模的数据集。不过，你可能心里正嘀咕呢：“这玩意儿查询速度到底快不快啊？”别急，本文这就给你揭开Impala查询性能的神秘面纱，而且还会附赠一些超实用的优化小窍门，包你看了以后豁然开朗！什么是Impala？ Impala是由Cloudera公司开发的一种开源分布式SQL查询引擎。它的目标是既能展现出媲美商业数据库的强大性能，又能紧紧握住开放源代码带来的灵活与可扩展性优势。就像是想要一个既有大牌实力，又具备DIY自由度的“数据库神器”一样。Impala可以运行在Hadoop集群上，利用MapReduce进行数据分析和查询操作。 Impala的查询性能特点 Impala的设计目标是在大规模数据集上提供高性能的查询。为了达到这个目标，Impala采用了许多独特的技术和优化策略。以下是其中的一些特点：基于内存的计算：Impala的所有计算都在内存中完成，这大大提高了查询速度。跟那些老式批处理系统可不一样，Impala能在几秒钟内就把查询给搞定了，哪还需要等个几分钟甚至更久的时间！多线程执行：Impala采用多线程执行查询，可以充分利用多核CPU的优势。每个线程都会独立地处理一部分数据，然后将结果合并在一起。列式存储：Impala使用列式存储方式，可以显著减少I/O操作，提高查询性能。在列式存储中，每行数据都是一个列块，而不是一个完整的记录。这就意味着，当你在查询时只挑了部分列，Impala这个小机灵鬼就会聪明地只去读取那些被你点名的列所在的区块，压根儿不用浪费时间去翻看整条记录。高速缓存：Impala有一个内置的查询缓存机制，可以将经常使用的查询结果缓存起来，减少不必要的计算。此外，Impala还可以利用Hadoop的内存管理机制，将结果缓存在HDFS上。这些特点使Impala能够在大数据环境中提供卓越的查询性能。其实吧，实际情况是这样的，性能到底怎么样，得看多个因素的脸色。就好比硬件配置啦，查询的复杂程度啦，还有数据分布什么的，这些家伙都对最终的表现有着举足轻重的影响呢！如何优化Impala查询性能？虽然Impala已经非常强大，但是仍然有一些方法可以进一步提高其查询性能。以下是一些常见的优化技巧：合理设计查询语句：首先，你需要确保你的查询语句是最优的。这通常就是说，咱得尽量避开那个费时费力的全表扫一遍的大动作，学会巧妙地利用索引这个神器，还有啊，JOIN操作也得玩得溜，用得恰到好处才行。如果你不确定如何编写最优的查询语句，可以尝试使用Impala自带的优化器。调整资源设置：Impala的性能受到许多资源因素的影响，如内存、CPU、磁盘等。你可以通过调整这些参数来优化查询性能。比如说，你完全可以尝试给Impala喂饱更多的内存，或者把更重的计算任务分配给那些运算速度飞快的核心CPU，就像让短跑健将去跑更重要的赛段一样。使用分区：分区是一种有效的方法，可以将大型表分割成较小的部分，从而提高查询性能。你知道吗，通过给数据分区这么一个操作，你就能把它们分散存到多个不同的硬件设备上。这样一来，当你需要查找信息的时候，效率嗖嗖地提升，就像在图书馆分门别类放书一样，找起来又快又准！缓存查询结果：Impala有一个内置的查询缓存机制，可以将经常使用的查询结果缓存起来，减少不必要的计算。此外，Impala还可以利用Hadoop的内存管理机制，将结果缓存在HDFS上。以上只是优化Impala查询性能的一小部分方法。实际上，还有很多其他的技术和工具可以帮助你提高查询性能。关键在于，你得像了解自家后院一样熟悉你的数据和工作负载，这样才能做出最棒、最合适的决策。总结 Impala是一种强大的查询工具，能够在大数据环境中提供卓越的查询性能。如果你想让你的Impala查询速度嗖嗖提升，这里有几个小妙招可以试试：首先，设计查询时要够精明合理，别让它成为拖慢速度的小尾巴；其次，灵活调整资源分配，确保每一份计算力都用在刀刃上；最后，巧妙运用分区功能，让数据查找和处理变得更加高效。这样一来，你的Impala就能跑得飞快啦！最后，千万记住这事儿啊，你得像了解自家的后花园一样深入了解你的数据和工作负载，这样才能够做出最棒、最合适的决策，一点儿都不含糊。

2023-03-25 22:18:41

486

凌波微步-t

Etcd

Etcd监控与诊断实操：运用Prometheus、etcd-exporter与etcdctl进行性能跟踪与调优

...cd那里悄悄抓取各种数据指标，比如节点健康状况、请求响应速度、存储空间的使用情况等等，然后麻利地把这些信息实时报告给Prometheus。这样一来，我们就有了第一手的数据资料，随时掌握系统的动态啦！ yaml prometheus.yml 配置文件示例 global: scrape_interval: 15s scrape_configs: - job_name: 'etcd' static_configs: - targets: ['localhost:9101'] etcd-exporter监听端口 metrics_path: '/metrics' 同时，编写针对Etcd的Prometheus查询语句，可以让我们洞察集群性能： promql 查询过去5分钟内所有Etcd节点的平均写操作延迟 avg(etcd_request_duration_seconds_bucket{operation="set", le="+Inf"})[5m] 2. 内建诊断工具 etcdctl etcdctl 是官方提供的命令行工具，不仅可以用来与Etcd进行交互（如读写键值对），还内置了一系列诊断命令来排查问题。例如，查看成员列表、检查leader选举状态或执行一致性检查： bash 查看集群当前成员信息 etcdctl member list 检查Etcd的领导者状态 etcdctl endpoint status --write-out=table 执行一次快照以诊断数据完整性 etcdctl snapshot save /path/to/snapshot.db 此外，etcdctl debug 子命令提供了一组调试工具，比如dump.consistent-snap.db可以导出一致性的快照数据，便于进一步分析潜在问题。 3. 日志和跟踪对于更深层次的问题定位，Etcd的日志输出是必不可少的资源。通过调整日志级别（如设置为debug模式），可以获得详细的内部处理流程。同时，结合分布式追踪系统如Jaeger，可以收集和可视化Etcd调用链路，理解跨节点间的通信延迟和错误来源。 bash 设置etcd日志级别为debug ETCD_DEBUG=true etcd --config-file=/etc/etcd/etcd.conf.yaml 4. 性能调优与压力测试在了解了基本的监控和诊断手段后，我们还可以利用像etcd-bench这样的工具来进行压力测试，模拟大规模并发读写请求，评估Etcd在极限条件下的性能表现，并据此优化配置参数。 bash 使用etcd-bench进行基准测试 ./etcd-bench -endpoints=localhost:2379 -total=10000 -conns=100 -keys=100 在面对复杂的生产环境时，人类工程师的理解、思考和决策至关重要。用上这些监视和诊断神器，咱们就能化身大侦探，像剥洋葱那样层层深入，把躲藏在集群最旮旯的性能瓶颈和一致性问题给揪出来。这样一来，Etcd就能始终保持稳如磐石、靠谱无比的运行状态啦！记住了啊，老话说得好，“实践出真知”，想要彻底驯服Etcd这匹“分布式系统的千里马”，就得不断地去摸索、试验和改进。只有这样，才能让它在你的系统里跑得飞快，发挥出最大的效能，成为你最得力的助手。

2023-11-29 10:56:26

385

清风徐来

Hive

Hive中使用GZIP与BZIP2压缩格式构建外部表以提升性能优化

最近，随着大数据技术的快速发展，越来越多的企业开始关注数据压缩对存储成本和查询效率的影响。特别是在云计算环境中，存储空间的优化显得尤为重要。例如，亚马逊AWS近期推出了新的压缩优化服务，该服务能够自动检测并优化存储在S3中的数据，支持多种压缩算法，包括GZIP和BZIP2。这项服务不仅帮助企业减少了存储成本，还显著提高了数据检索的速度。与此同时，Google Cloud也宣布计划在未来版本中增强BigQuery对自定义压缩格式的支持，这将使得用户可以更灵活地选择适合自己业务需求的压缩策略。在国内市场，阿里云也在积极探索数据压缩技术的应用。阿里云团队开发了一种名为“智能压缩”的新技术，可以根据数据特征动态调整压缩算法，以达到最佳的压缩效果。这一技术已经在多个企业的生产环境中得到了验证，结果显示，与传统的固定压缩方式相比，智能压缩可以将存储成本降低30%以上，同时提升查询性能约20%。此外，开源社区也在不断推进相关技术的发展。例如，Apache Arrow项目最近发布了一个新版本，该版本引入了对多种压缩算法的原生支持，包括Zstandard（zstd）和LZ4。这些算法以其高效性和灵活性受到广泛关注，未来有望成为大数据处理领域的主流选择。值得注意的是，尽管这些新技术带来了诸多好处，但在实际应用中仍需注意潜在的风险。例如，过度依赖压缩可能会影响数据的安全性，尤其是在涉及敏感信息的情况下。因此，在采用新的压缩技术时，企业需要仔细评估其安全性、兼容性和维护成本，确保技术的实际效益最大化。总之，随着技术的不断进步，数据压缩正成为大数据领域的一个重要研究方向，未来还有很大的发展空间。

2025-04-19 16:20:43

翡翠梦境

ElasticSearch

ElasticSearch排障：磁盘空间不足导致节点宕机，集群健康受损，扩容+配置优化恢复日志分析系统

...分操作无法完成，例如索引创建或数据查询。文章中提到的磁盘空间不足就是一个典型的触发因素，解决这一问题的关键在于及时扩容磁盘、优化配置以及监控节点状态，确保集群始终处于健康运行的状态。 ClusterBlockException , 这是Elasticsearch中表示集群存在某种阻塞条件的异常类，通常会在集群状态异常（如缺乏活跃节点或资源不足）时抛出。文章中提到的blocked by: SERVICE_UNAVAILABLE/2/no active shards 即是一种ClusterBlockException的表现形式。当磁盘空间耗尽或节点宕机时，Elasticsearch会阻止写入或查询操作，直到问题得到解决。这种机制旨在保护数据完整性和避免进一步的资源消耗，因此需要运维人员密切关注集群状态并采取相应措施，例如释放磁盘空间或重启受影响的节点。磁盘水位阈值 , 这是Elasticsearch中用于监控磁盘使用率的一组配置参数，主要包括low、high和flood_stage三个级别。当磁盘使用率低于low阈值时，Elasticsearch不会采取任何行动；达到high阈值时，集群会限制写入操作以保护剩余空间；超过flood_stage阈值时，所有写入操作将被完全禁止，直到磁盘空间得到释放。文章中提到的cluster.routing.allocation.disk.watermark配置项正是用来定义这些阈值的，默认值分别为85%、90%和95%。合理设置这些参数能够有效预防磁盘空间耗尽引发的NodeNotActiveException，从而保障集群的稳定运行。

2025-03-14 15:40:13

林中小径

转载文章

[转载]SQLite损坏修复

...一个 SQLite 数据库中，一旦这个数据库损坏，将会丢失用户的聊天记录。解决思路预防措施： SQLite 是一个号称每行代码都有对应测试的成熟框架，其代码问题导致的 bug 非常少见。而一般损坏原因主要有3点：空间不足设备断电或 AppCrash 文件 sync 失败针对空间不足：通过中度的使用和观察，我发现 iOS 端的空间占用是相对合理的，并没有对存储空间的明显浪费。并且 App 会在数据库写入时检查可用空间，如果不足时会抛出空间不足的提示。针对设备断电或App崩溃：设备断电属于不可抗力。而 App 崩溃目前我们准备上线 APM 监控平台，预期在一到两个版本的迭代中把崩溃率降低到千分之一以下的行业优秀水平。针对文件 sync 失败：调整 synchronous = FULL ，保证每个事务的操作都能写入文件。目前CoreData的默认配置项。调整 fullfsync = 1 ，保证写入文件顺序和提交顺序一致，拒绝设备重排顺序以优化性能。此项会降低性能。对比得出写入性能大概降低至默认值的25%左右。优化效果：根据微信的实践，调整配置项后，损坏率可以降低一半，但并不能完全避免损坏，所以我们还是需要补救措施。补救措施：通过查阅 SQLite 的相关资料，发现修复损坏数据库的两种思路和四种方案。思路一：数据导出 .dump修复从 master 表中读出一个个表的信息，根据根节点地址和创表语句来 select 出表里的数据，能 select 多少是多少，然后插入到一个新 DB 中。每个SQLite DB都有一个sqlite_master表，里面保存着全部table和index的信息（table本身的信息，不包括里面的数据哦），遍历它就可以得到所有表的名称和 CREATE TABLE ...的SQL语句，输出CREATE TABLE语句，接着使用SELECT FROM ... 通过表名遍历整个表，每读出一行就输出一个INSERT语句，遍历完后就把整个DB dump出来了。这样的操作，和普通查表是一样的，遇到损坏一样会返回SQLITE_CORRUPT，我们忽略掉损坏错误，继续遍历下个表，最终可以把所有没损坏的表以及损坏了的表的前半部分读取出来。将 dump 出来的SQL语句逐行执行，最终可以得到一个等效的新DB。思路二：数据备份拷贝：不能再直白的方式。由于SQLite DB本身是文件（主DB + journal 或 WAL），直接把文件复制就能达到备份的目的。 .dump备份：上一个恢复方案用到的命令的本来目的。在DB完好的时候执行.dump，把 DB所有内容输出为 SQL语句，达到备份目的，恢复的时候执行SQL即可。 Backup API： SQLite自身提供的一套备份机制，按 Page 为单位复制到新 DB，支持热备份。综合思路：备份master表+数据导出 WCDB框架：数据库完整时备份master表，数据库损坏时通过使用已备份的master表读取损坏数据库来恢复数据。成功率大概是70%。缺点在于我们目前项目使用的是CoreData框架，迁移成本非常的高。没有办法使用。补救措施选型原则：这么多的方案孰优孰劣？作为一个移动APP，我们追求的就是用户体验，根据资料推断只有万分之一不到的用户会发生DB损坏，不能为了极个别牺牲全体用户的体验。不影响用户体验的方法就是好方案。主要考量指标如下：一：恢复成功率由于牵涉到用户核心数据，“姑且一试”的方案是不够的，虽说 100% 成功率不太现实，但 90% 甚至 99% 以上的成功率才是我们想要的。二：备份大小：原本用户就可能有2GB 大的 DB，如果备份数据本身也有2GB 大小，用户想必不会接受。三：备份性能：性能则主要影响体验和备份成功率，作为用户不感知的功能，占用太多系统资源造成卡顿是不行的，备份耗时越久，被系统杀死等意外事件发生的概率也越高。数据导出方案考量：恢复成功率大概是30%。不需要事先备份，故备份大小和备份性能都是最优的。备份方案考量：备份方案的理论恢复成功率都为100%，需要考量的即为备份大小和性能。拷贝：备份大小等于原文件大小。备份性能最好，直接拷贝文件，不需要运算。 Backup API：备份大小等于原文件大小。备份性能最差，原因是热备份，需要用到锁机制。 .dump：因为重新进行了排序，备份大小小于原文件。备份性能居中，需要遍历数据库生成语句。可以看出，比较折中的选择是 Dump ，备份大小具有明显优势，备份性能尚可，恢复性能较差但由于需要恢复的场景较少，算是可以接受的短板。深入钻研即使优化后的方案，对于大DB备份也是耗时耗电，对于移动APP来说，可能未必有这样的机会做这样重度的操作，或者频繁备份会导致卡顿和浪费使用空间。备份思路的高成本迫使我们从另外的方案考虑，于是我们再次把注意力放在之前的Dump方案。 Dump 方案本质上是尝试从坏DB里读出信息，这个尝试一般来说会出现两种结果： DB的基本格式仍然健在，但个别数据损坏，读到损坏的地方SQLite返回SQLITE_CORRUPT错误，但已读到的数据得以恢复。基本格式丢失（文件头或sqlite_master损坏），获取有哪些表的时候就返回SQLITE_CORRUPT，根本没法恢复。第一种可以算是预期行为，毕竟没有损坏的数据能部分恢复。从成功率来看，不少用户遇到的是第二种情况，这种有没挽救的余地呢？要回答这个问题，先得搞清楚sqlite_master是什么。它是一个每个SQLite DB都有的特殊的表，无论是查看官方文档Database File Format，还是执行SQL语句 SELECT FROM sqlite_master;，都可得知这个系统表保存以下信息：表名、类型（table/index）、创建此表/索引的SQL语句，以及表的RootPage。sqlite_master的表名、表结构都是固定的，由文件格式定义，RootPage 固定为 page 1。正常情况下，SQLite 引擎打开DB后首次使用，需要先遍历sqlite_master，并将里面保存的SQL语句再解析一遍，保存在内存中供后续编译SQL语句时使用。假如sqlite_master损坏了无法解析，“Dump恢复”这种走正常SQLite 流程的方法，自然会卡在第一步了。为了让sqlite_master受损的DB也能打开，需要想办法绕过SQLite引擎的逻辑。由于SQLite引擎初始化逻辑比较复杂，为了避免副作用，没有采用hack的方式复用其逻辑，而是决定仿造一个只可以读取数据的最小化系统。虽然仿造最小化系统可以跳过很多正确性校验，但sqlite_master里保存的信息对恢复来说也是十分重要的，特别是RootPage，因为它是表对应的B-tree结构的根节点所在地，没有了它我们甚至不知道从哪里开始解析对应的表。 sqlite_master信息量比较小，而且只有改变了表结构的时候（例如执行了CREATE TABLE、ALTER TABLE 等语句）才会改变，因此对它进行备份成本是非常低的，一般手机典型只需要几毫秒到数十毫秒即可完成，一致性也容易保证，只需要执行了上述语句的时候重新备份一次即可。有了备份，我们的逻辑可以在读取DB自带的sqlite_master失败的时候使用备份的信息来代替。到此，初始化必须的数据就保证了，可以仿造读取逻辑了。我们常规使用的读取DB的方法（包括dump方式恢复），都是通过执行SQL语句实现的，这牵涉到SQLite系统最复杂的子系统——SQL执行引擎。我们的恢复任务只需要遍历B-tree所有节点，读出数据即可完成，不需要复杂的查询逻辑，因此最复杂的SQL引擎可以省略。同时，因为我们的系统是只读的，写入恢复数据到新 DB 只要直接调用 SQLite 接口即可，因而可以省略同样比较复杂的B-tree平衡、Journal和同步等逻辑。最后恢复用的最小系统只需要： VFS读取部分的接口（Open/Read/Close），或者直接用stdio的fopen/fread、Posix的open/read也可以 B-tree解析逻辑 Database File Format 详细描述了SQLite文件格式，参照之实现B-tree解析可读取 SQLite DB。实现了上面的逻辑，就能读出DB的数据进行恢复了，但还有一个小插曲。我们知道，使用SQLite查询一个表，每一行的列数都是一致的，这是Schema层面保证的。但是在Schema的下面一层——B-tree层，没有这个保证。 B-tree的每一行（或者说每个entry、每个record）可以有不同的列数，一般来说，SQLite插入一行时， B-tree里面的列数和实际表的列数是一致的。但是当对一个表进行了ALTER TABLE ADD COLUMN操作，整个表都增加了一列，但已经存在的B-tree行实际上没有做改动，还是维持原来的列数。当SQLite查询到ALTER TABLE前的行，缺少的列会自动用默认值补全。恢复的时候，也需要做同样的判断和支持，否则会出现缺列而无法插入到新的DB。解析B-tree方案上线后，成功率约为78%。这个成功率计算方法为恢复成功的 Page 数除以总 Page 数。由于是我们自己的系统，可以得知总 Page 数，使用恢复 Page 数比例的计算方法比人数更能反映真实情况。 B-tree解析好处是准备成本较低，不需要经常更新备份，对大部分表比较少的应用备份开销也小到几乎可以忽略，成功恢复后能还原损坏时最新的数据，不受备份时限影响。坏处是，和Dump一样，如果损坏到表的中间部分，比如非叶子节点，将导致后续数据无法读出。落地实践：剥离封装RepairKit：从WCDB框架中，剥离修复组件，并且封装其C++的原始API为OC管理类。备份 master 表的时机：我们发现 SQLite 里面 B+树算法的实现是向下分裂的，也就是说当一个叶子页满了需要分裂时，原来的叶子页会成为内部节点，然后新申请两个页作为他的叶子页。这就保证了根节点一旦下来，是再也不会变动的。master 表只会在新创建表或者删除一个表时才会发生变化，而CoreData的机制表明每一次数据库的变动都要改动版本标识，那么我通过缓存和查询版本标识的变动来确定何时进行备份，避免频繁备份。备份文件有效性：既然 DB 可以损坏，那么这个备份文件也会损坏，怎么办呢？我用了双备份，每一个版本备份两个文件，如果一个备份恢复失败，就会启动另一个备份文件恢复。介入恢复时机：当CoreData初始化SQLite前，校验SQLite的Head完整性，如果不完整，进行介入修复。经过我深入研究证明了这已经是最佳做法。本篇文章为转载内容。原文链接：https://blog.csdn.net/a66666225/article/details/81637368。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-11-23 18:22:40

127

转载

转载文章

[转载]mysql的配置文件的各项参数意思

...SQL. 指示表名和数据库名如何存储在磁盘上并在MySQL中使用。 Value = 0: Table and database names are stored on disk using the lettercase specified in the CREATE TABLE or CREATE DATABASE statement. Name comparisons are case sensitive. You should not set this variable to 0 if you are running MySQL on a system that has case-insensitive file names (such as Windows or macOS). Value = 0:表名和数据库名使用CREATE Table或CREATE database语句中指定的lettercase存储在磁盘上。名称比较区分大小写。如果您在一个具有不区分大小写文件名(如Windows或macOS)的系统上运行MySQL，则不应将该变量设置为0。 Value = 1: Table names are stored in lowercase on disk and name comparisons are not case-sensitive. MySQL converts all table names to lowercase on storage and lookup. This behavior also applies to database names and table aliases. 表名以小写存储在磁盘上，并且名称比较不区分大小写。MySQL在存储和查找时将所有表名转换为小写。此行为也适用于数据库名称和表别名。 Value = 3, Table and database names are stored on disk using the lettercase specified in the CREATE TABLE or CREATE DATABASE statement, but MySQL converts them to lowercase on lookup. Name comparisons are not case sensitive. This works only on file systems that are not case-sensitive! InnoDB table names and view names are stored in lowercase, as for Value = 1.表名和数据库名使用CREATE Table或CREATE database语句中指定的lettercase存储在磁盘上，但是MySQL在查找时将它们转换为小写。名称比较不区分大小写。这只适用于不区分大小写的文件系统!InnoDB表名和视图名以小写存储，Value = 1。 NOTE: lower_case_table_names can only be configured when initializing the server. Changing the lower_case_table_names setting after the server is initialized is prohibited. lower_case_table_names=1 Secure File Priv. 权限安全文件 secure-file-priv="C:/ProgramData/MySQL/MySQL Server 8.0/Uploads" The maximum amount of concurrent sessions the MySQL server will allow. One of these connections will be reserved for a user with SUPER privileges to allow the administrator to login even if the connection limit has been reached. MySQL服务器允许的最大并发会话量。这些连接中的一个将保留给具有超级特权的用户，以便允许管理员登录，即使已经达到连接限制。 max_connections=151 The number of open tables for all threads. Increasing this value increases the number of file descriptors that mysqld requires. Therefore you have to make sure to set the amount of open files allowed to at least 4096 in the variable "open-files-limit" in 为所有线程打开的表的数量。增加这个值会增加mysqld需要的文件描述符的数量。因此，您必须确保在[mysqld_safe]节中的变量“open-files-limit”中将允许打开的文件数量至少设置为4096 section [mysqld_safe] table_open_cache=2000 Maximum size for internal (in-memory) temporary tables. If a table grows larger than this value, it is automatically converted to disk based table This limitation is for a single table. There can be many of them. 内部(内存)临时表的最大大小。如果一个表比这个值大，那么它将自动转换为基于磁盘的表。可以有很多。 tmp_table_size=94M How many threads we should keep in a cache for reuse. When a client disconnects, the client's threads are put in the cache if there aren't more than thread_cache_size threads from before. This greatly reduces the amount of thread creations needed if you have a lot of new connections. (Normally this doesn't give a notable performance improvement if you have a good thread implementation.) 我们应该在缓存中保留多少线程以供重用。当客户机断开连接时，如果之前的线程数不超过thread_cache_size，则将客户机的线程放入缓存。如果您有很多新连接，这将大大减少所需的线程创建量(通常，如果您有一个良好的线程实现，这不会带来显著的性能改进)。 thread_cache_size=10 MyISAM Specific options The maximum size of the temporary file MySQL is allowed to use while recreating the index (during REPAIR, ALTER TABLE or LOAD DATA INFILE. If the file-size would be bigger than this, the index will be created through the key cache (which is slower). MySQL允许在重新创建索引时(在修复、修改表或加载数据时)使用临时文件的最大大小。如果文件大小大于这个值，那么索引将通过键缓存创建(这比较慢)。 myisam_max_sort_file_size=100G If the temporary file used for fast index creation would be bigger than using the key cache by the amount specified here, then prefer the key cache method. This is mainly used to force long character keys in large tables to use the slower key cache method to create the index. myisam_sort_buffer_size=179M Size of the Key Buffer, used to cache index blocks for MyISAM tables. Do not set it larger than 30% of your available memory, as some memory is also required by the OS to cache rows. Even if you're not using MyISAM tables, you should still set it to 8-64M as it will also be used for internal temporary disk tables. 如果用于快速创建索引的临时文件比这里指定的使用键缓存的文件大，则首选键缓存方法。这主要用于强制大型表中的长字符键使用较慢的键缓存方法来创建索引。 key_buffer_size=8M Size of the buffer used for doing full table scans of MyISAM tables. Allocated per thread, if a full scan is needed. 用于对MyISAM表执行全表扫描的缓冲区的大小。如果需要完整的扫描，则为每个线程分配。 read_buffer_size=256K read_rnd_buffer_size=512K INNODB Specific options INNODB特定选项 innodb_data_home_dir= Use this option if you have a MySQL server with InnoDB support enabled but you do not plan to use it. This will save memory and disk space and speed up some things. 如果您启用了一个支持InnoDB的MySQL服务器，但是您不打算使用它，那么可以使用这个选项。这将节省内存和磁盘空间，并加快一些事情。skip-innodb skip-innodb If set to 1, InnoDB will flush (fsync) the transaction logs to the disk at each commit, which offers full ACID behavior. If you are willing to compromise this safety, and you are running small transactions, you may set this to 0 or 2 to reduce disk I/O to the logs. Value 0 means that the log is only written to the log file and the log file flushed to disk approximately once per second. Value 2 means the log is written to the log file at each commit, but the log file is only flushed to disk approximately once per second. 如果设置为1,InnoDB将在每次提交时将事务日志刷新(fsync)到磁盘，这将提供完整的ACID行为。如果您愿意牺牲这种安全性，并且正在运行小型事务，您可以将其设置为0或2，以将磁盘I/O减少到日志。值0表示日志仅写入日志文件，日志文件大约每秒刷新一次磁盘。值2表示日志在每次提交时写入日志文件，但是日志文件大约每秒只刷新一次磁盘。 innodb_flush_log_at_trx_commit=1 The size of the buffer InnoDB uses for buffering log data. As soon as it is full, InnoDB will have to flush it to disk. As it is flushed once per second anyway, it does not make sense to have it very large (even with long transactions).InnoDB用于缓冲日志数据的缓冲区大小。一旦它满了，InnoDB就必须将它刷新到磁盘。由于它无论如何每秒刷新一次，所以将它设置为非常大的值是没有意义的(即使是长事务)。 innodb_log_buffer_size=5M InnoDB, unlike MyISAM, uses a buffer pool to cache both indexes and row data. The bigger you set this the less disk I/O is needed to access data in tables. On a dedicated database server you may set this parameter up to 80% of the machine physical memory size. Do not set it too large, though, because competition of the physical memory may cause paging in the operating system. Note that on 32bit systems you might be limited to 2-3.5G of user level memory per process, so do not set it too high. 与MyISAM不同，InnoDB使用缓冲池来缓存索引和行数据。设置的值越大，访问表中的数据所需的磁盘I/O就越少。在专用数据库服务器上，可以将该参数设置为机器物理内存大小的80%。但是，不要将它设置得太大，因为物理内存的竞争可能会导致操作系统中的分页。注意，在32位系统上，每个进程的用户级内存可能被限制在2-3.5G，所以不要设置得太高。 innodb_buffer_pool_size=20M Size of each log file in a log group. You should set the combined size of log files to about 25%-100% of your buffer pool size to avoid unneeded buffer pool flush activity on log file overwrite. However, note that a larger logfile size will increase the time needed for the recovery process. 日志组中每个日志文件的大小。您应该将日志文件的合并大小设置为缓冲池大小的25%-100%，以避免在覆盖日志文件时出现不必要的缓冲池刷新活动。但是，请注意，较大的日志文件大小将增加恢复过程所需的时间。 innodb_log_file_size=48M Number of threads allowed inside the InnoDB kernel. The optimal value depends highly on the application, hardware as well as the OS scheduler properties. A too high value may lead to thread thrashing. InnoDB内核中允许的线程数。最优值在很大程度上取决于应用程序、硬件以及OS调度程序属性。过高的值可能导致线程抖动。 innodb_thread_concurrency=9 The increment size (in MB) for extending the size of an auto-extend InnoDB system tablespace file when it becomes full. 增量大小(以MB为单位)，用于在表空间满时扩展自动扩展的InnoDB系统表空间文件的大小。 innodb_autoextend_increment=128 The number of regions that the InnoDB buffer pool is divided into. For systems with buffer pools in the multi-gigabyte range, dividing the buffer pool into separate instances can improve concurrency, by reducing contention as different threads read and write to cached pages. InnoDB缓冲池划分的区域数。对于具有多gb缓冲池的系统，将缓冲池划分为单独的实例可以提高并发性，因为不同的线程对缓存页面的读写会减少争用。 innodb_buffer_pool_instances=8 Determines the number of threads that can enter InnoDB concurrently. 确定可以同时进入InnoDB的线程数 innodb_concurrency_tickets=5000 Specifies how long in milliseconds (ms) a block inserted into the old sublist must stay there after its first access before it can be moved to the new sublist. 指定插入到旧子列表中的块必须在第一次访问之后停留多长时间(毫秒)，然后才能移动到新子列表。 innodb_old_blocks_time=1000 It specifies the maximum number of .ibd files that MySQL can keep open at one time. The minimum value is 10. 它指定MySQL一次可以打开的.ibd文件的最大数量。最小值是10。 innodb_open_files=300 When this variable is enabled, InnoDB updates statistics during metadata statements. 当启用此变量时，InnoDB会在元数据语句期间更新统计信息。 innodb_stats_on_metadata=0 When innodb_file_per_table is enabled (the default in 5.6.6 and higher), InnoDB stores the data and indexes for each newly created table in a separate .ibd file, rather than in the system tablespace. 当启用innodb_file_per_table(5.6.6或更高版本的默认值)时，InnoDB将每个新创建的表的数据和索引存储在单独的.ibd文件中，而不是系统表空间中。 innodb_file_per_table=1 Use the following list of values: 0 for crc32, 1 for strict_crc32, 2 for innodb, 3 for strict_innodb, 4 for none, 5 for strict_none. 使用以下值列表:0表示crc32, 1表示strict_crc32, 2表示innodb, 3表示strict_innodb, 4表示none, 5表示strict_none。 innodb_checksum_algorithm=0 The number of outstanding connection requests MySQL can have. This option is useful when the main MySQL thread gets many connection requests in a very short time. It then takes some time (although very little) for the main thread to check the connection and start a new thread. The back_log value indicates how many requests can be stacked during this short time before MySQL momentarily stops answering new requests. You need to increase this only if you expect a large number of connections in a short period of time. MySQL可以有多少未完成连接请求。当MySQL主线程在很短的时间内收到许多连接请求时，这个选项非常有用。然后，主线程需要一些时间(尽管很少)来检查连接并启动一个新线程。back_log值表示在MySQL暂时停止响应新请求之前的短时间内可以堆多少个请求。只有当您预期在短时间内会有大量连接时，才需要增加这个值。 back_log=80 If this is set to a nonzero value, all tables are closed every flush_time seconds to free up resources and synchronize unflushed data to disk. This option is best used only on systems with minimal resources. 如果将该值设置为非零值，则每隔flush_time秒关闭所有表，以释放资源并将未刷新的数据同步到磁盘。这个选项最好只在资源最少的系统上使用。 flush_time=0 The minimum size of the buffer that is used for plain index scans, range index scans, and joins that do not use 用于普通索引扫描、范围索引扫描和不使用索引执行全表扫描的连接的缓冲区的最小大小。 indexes and thus perform full table scans. join_buffer_size=200M The maximum size of one packet or any generated or intermediate string, or any parameter sent by the mysql_stmt_send_long_data() C API function. 由mysql_stmt_send_long_data() C API函数发送的一个包或任何生成的或中间字符串或任何参数的最大大小 max_allowed_packet=500M If more than this many successive connection requests from a host are interrupted without a successful connection, the server blocks that host from performing further connections. 如果在没有成功连接的情况下中断了来自主机的多个连续连接请求，则服务器将阻止主机执行进一步的连接。 max_connect_errors=100 Changes the number of file descriptors available to mysqld. You should try increasing the value of this option if mysqld gives you the error "Too many open files". 更改mysqld可用的文件描述符的数量。如果mysqld给您的错误是“打开的文件太多”，您应该尝试增加这个选项的值。 open_files_limit=4161 If you see many sort_merge_passes per second in SHOW GLOBAL STATUS output, you can consider increasing the sort_buffer_size value to speed up ORDER BY or GROUP BY operations that cannot be improved with query optimization or improved indexing. 如果在SHOW GLOBAL STATUS输出中每秒看到许多sort_merge_passes，可以考虑增加sort_buffer_size值，以加快ORDER BY或GROUP BY操作的速度，这些操作无法通过查询优化或改进索引来改进。 sort_buffer_size=1M The number of table definitions (from .frm files) that can be stored in the definition cache. If you use a large number of tables, you can create a large table definition cache to speed up opening of tables. The table definition cache takes less space and does not use file descriptors, unlike the normal table cache. The minimum and default values are both 400. 可以存储在定义缓存中的表定义的数量(来自.frm文件)。如果使用大量表，可以创建一个大型表定义缓存来加速表的打开。与普通的表缓存不同，表定义缓存占用更少的空间，并且不使用文件描述符。最小值和默认值都是400。 table_definition_cache=1400 Specify the maximum size of a row-based binary log event, in bytes. Rows are grouped into events smaller than this size if possible. The value should be a multiple of 256. 指定基于行的二进制日志事件的最大大小，单位为字节。如果可能，将行分组为小于此大小的事件。这个值应该是256的倍数。 binlog_row_event_max_size=8K If the value of this variable is greater than 0, a replication slave synchronizes its master.info file to disk. (using fdatasync()) after every sync_master_info events. 如果该变量的值大于0，则复制奴隶将其主.info文件同步到磁盘。(在每个sync_master_info事件之后使用fdatasync())。 sync_master_info=10000 If the value of this variable is greater than 0, the MySQL server synchronizes its relay log to disk. (using fdatasync()) after every sync_relay_log writes to the relay log. 如果这个变量的值大于0,MySQL服务器将其中继日志同步到磁盘。(在每个sync_relay_log写入到中继日志之后使用fdatasync())。 sync_relay_log=10000 If the value of this variable is greater than 0, a replication slave synchronizes its relay-log.info file to disk. (using fdatasync()) after every sync_relay_log_info transactions. 如果该变量的值大于0，则复制奴隶将其中继日志.info文件同步到磁盘。(在每个sync_relay_log_info事务之后使用fdatasync())。 sync_relay_log_info=10000 Load mysql plugins at start."plugin_x ; plugin_y". 开始时加载mysql插件。“plugin_x;plugin_y” plugin_load The TCP/IP Port the MySQL Server X Protocol will listen on. MySQL服务器X协议将监听TCP/IP端口。 loose_mysqlx_port=33060 本篇文章为转载内容。原文链接：https://blog.csdn.net/mywpython/article/details/89499852。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-10-08 09:56:02

129

转载

转载文章

[转载]Postgres-XL集群软件介绍及搭建

...tice公司及其收购数据库技术公司–StormDB的产品。Postgres-XL是一个横向扩展的开源数据库集群，具有足够的灵活性来处理不同的数据库任务。 Postgres-XL功能特性开放源代码：（源协议使用宽松的“Mozilla Public License”许可，允许将开源代码与闭源代码混在一起使用。）完全的ACID支持可横向扩展的关系型数据库（RDBMS）支持OLAP应用，采用MPP（Massively Parallel Processing：大规模并行处理系统）架构模式支持OLTP应用，读写性能可扩展集群级别的ACID特性多租户安全也可被用作分布式Key-Value存储事务处理与数据分析处理混合型数据库支持丰富的SQL语句类型，比如：关联子查询支持绝大部分PostgreSQL的SQL语句分布式多版本并发控制（MVCC：Multi-version Concurrency Control）支持JSON和XML格式 Postgres-XL缺少的功能内建的高可用机制使用外部机制实现高可能，如：Corosync/Pacemaker 有未来功能提升的空间增加节点/重新分片数据（re-shard）的简便性数据重分布（redistribution）期间会锁表可采用预分片（pre-shard）方式解决，在同台物理服务器上建立多个数据节点，每个节点存储一个数据分片。数据重分布时，将一些数据节点迁出即可某些外键、唯一性约束功能 Postgres-XL架构 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M9lFuEIP-1640133702200)(./assets/postgre-xl.jpg)] 基于开源项目Postgres-XC XL增加了MPP，允许数据节点间直接通讯，交换复杂跨节点关联查询相关数据信息，减少协调器负载。多个协调器（Coordinator）应用程序的数据库连入点分析查询语句，生成执行计划多个数据节点（DataNode）实际的数据存储数据自动打散分布到集群中各数据节点本地执行查询一个查询在所有相关节点上并行查询全局事务管理器（GTM：Global Transaction Manager）提供事务间一致性视图部署GTM Proxy实例，以提高性能 Postgre-XL主要组件 GTM (Global Transaction Manager) - 全局事务管理器 GTM是Postgres-XL的一个关键组件，用于提供一致的事务管理和元组可见性控制。 GTM Standby GTM的备节点，在pgxc,pgxl中，GTM控制所有的全局事务分配，如果出现问题，就会导致整个集群不可用，为了增加可用性，增加该备用节点。当GTM出现问题时，GTM Standby可以升级为GTM，保证集群正常工作。 GTM-Proxy GTM需要与所有的Coordinators通信，为了降低压力，可以在每个Coordinator机器上部署一个GTM-Proxy。 Coordinator --协调器协调器是应用程序到数据库的接口。它的作用类似于传统的PostgreSQL后台进程，但是协调器不存储任何实际数据。实际数据由数据节点存储。协调器接收SQL语句，根据需要获取全局事务Id和全局快照，确定涉及哪些数据节点，并要求它们执行(部分)语句。当向数据节点发出语句时，它与GXID和全局快照相关联，以便多版本并发控制(MVCC)属性扩展到集群范围。 Datanode --数据节点用于实际存储数据。表可以分布在各个数据节点之间，也可以复制到所有数据节点。数据节点没有整个数据库的全局视图，它只负责本地存储的数据。接下来，协调器将检查传入语句，并制定子计划。然后，根据需要将这些数据连同GXID和全局快照一起传输到涉及的每个数据节点。数据节点可以在不同的会话中接收来自各个协调器的请求。但是，由于每个事务都是惟一标识的，并且与一致的(全局)快照相关联，所以每个数据节点都可以在其事务和快照上下文中正确执行。 Postgres-XL继承了PostgreSQL Postgres-XL是PostgreSQL的扩展并继承了其很多特性：复杂查询外键触发器视图事务 MVCC(多版本控制) 此外，类似于PostgreSQL，用户可以通过多种方式扩展Postgres-XL，例如添加新的数据类型函数操作聚合函数索引类型过程语言安装环境说明由于资源有限，gtm一台、另外两台身兼数职。主机名 IP 角色端口 nodename 数据目录 gtm 192.168.20.132 GTM 6666 gtm /nodes/gtm 协调器 5432 coord1 /nodes/coordinator xl1 192.168.20.133 数据节点 5433 node1 /nodes/pgdata gtm代理 6666 gtmpoxy01 /nodes/gtm_pxy1 协调器 5432 coord2 /nodes/coordinator xl2 192.168.20.134 数据节点 5433 node2 /nodes/pgdata gtm代理 6666 gtmpoxy02 /nodes/gtm_pxy2 要求 GNU make版本 3.8及以上版本 [root@pg ~] make --versionGNU Make 3.82Built for x86_64-redhat-linux-gnuCopyright (C) 2010 Free Software Foundation, Inc.License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>This is free software: you are free to change and redistribute it.There is NO WARRANTY, to the extent permitted by law. 需安装GCC包需安装tar包用于解压缩文件默认需要GNU Readline library 其作用是可以让psql命令行记住执行过的命令，并且可以通过键盘上下键切换命令。但是可以通过--without-readline禁用这个特性，或者可以指定--withlibedit-preferred选项来使用libedit 默认使用zlib压缩库可通过--without-zlib选项来禁用配置hosts 所有主机上都配置 [root@xl2 11] cat /etc/hosts127.0.0.1 localhost192.168.20.132 gtm192.168.20.133 xl1192.168.20.134 xl2 关闭防火墙、Selinux 所有主机都执行关闭防火墙： [root@gtm ~] systemctl stop firewalld.service[root@gtm ~] systemctl disable firewalld.service selinux设置: [root@gtm ~]vim /etc/selinux/config 设置SELINUX=disabled，保存退出。 This file controls the state of SELinux on the system. SELINUX= can take one of these three values: enforcing - SELinux security policy is enforced. permissive - SELinux prints warnings instead of enforcing. disabled - No SELinux policy is loaded.SELINUX=disabled SELINUXTYPE= can take one of three two values: targeted - Targeted processes are protected, minimum - Modification of targeted policy. Only selected processes are protected. mls - Multi Level Security protection. 安装依赖包所有主机上都执行 yum install -y flex bison readline-devel zlib-devel openjade docbook-style-dsssl gcc 创建用户所有主机上都执行 [root@gtm ~] useradd postgres[root@gtm ~] passwd postgres[root@gtm ~] su - postgres[root@gtm ~] mkdir ~/.ssh[root@gtm ~] chmod 700 ~/.ssh 配置SSH免密登录仅仅在gtm节点配置如下操作： [root@gtm ~] su - postgres[postgres@gtm ~] ssh-keygen -t rsa[postgres@gtm ~] cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys[postgres@gtm ~] chmod 600 ~/.ssh/authorized_keys 将刚生成的认证文件拷贝到xl1到xl2中，使得gtm节点可以免密码登录xl1~xl2的任意一个节点： [postgres@gtm ~] scp ~/.ssh/authorized_keys postgres@xl1:~/.ssh/[postgres@gtm ~] scp ~/.ssh/authorized_keys postgres@xl2:~/.ssh/ 对所有提示都不要输入，直接enter下一步。直到最后，因为第一次要求输入目标机器的用户密码，输入即可。下载源码下载地址：https://www.postgres-xl.org/download/ [root@slave ~] ll postgres-xl-10r1.1.tar.gz-rw-r--r-- 1 root root 28121666 May 30 05:21 postgres-xl-10r1.1.tar.gz 编译、安装Postgres-XL 所有节点都安装，编译需要一点时间，最好同时进行编译。 [root@slave ~] tar xvf postgres-xl-10r1.1.tar.gz[root@slave ~] ./configure --prefix=/home/postgres/pgxl/[root@slave ~] make[root@slave ~] make install[root@slave ~] cd contrib/ --安装必要的工具,在gtm节点上安装即可[root@slave ~] make[root@slave ~] make install 配置环境变量所有节点都要配置进入postgres用户，修改其环境变量，开始编辑 [root@gtm ~]su - postgres[postgres@gtm ~]vi .bashrc --不是.bash_profile 在打开的文件末尾，新增如下变量配置： export PGHOME=/home/postgres/pgxlexport LD_LIBRARY_PATH=$PGHOME/lib:$LD_LIBRARY_PATHexport PATH=$PGHOME/bin:$PATH 按住esc，然后输入:wq!保存退出。输入以下命令对更改重启生效。 [postgres@gtm ~] source .bashrc --不是.bash_profile 输入以下语句，如果输出变量结果，代表生效 [postgres@gtm ~] echo $PGHOME 应该输出/home/postgres/pgxl代表生效配置集群生成pgxc_ctl.conf配置文件 [postgres@gtm ~] pgxc_ctl prepare/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxl/pgxc_ctl/pgxc_ctl_bash.ERROR: File "/home/postgres/pgxl/pgxc_ctl/pgxc_ctl.conf" not found or not a regular file. No such file or directoryInstalling pgxc_ctl_bash script as /home/postgres/pgxl/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxl/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxl/pgxc_ctl --configuration /home/postgres/pgxl/pgxc_ctl/pgxc_ctl.confFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxl/pgxc_ctl 配置pgxc_ctl.conf 新建/home/postgres/pgxc_ctl/pgxc_ctl.conf文件，编辑如下：对着模板文件一个一个修改，否则会造成初始化过程出现各种神奇问题。 pgxcInstallDir=$PGHOMEpgxlDATA=$PGHOME/data pgxcOwner=postgres---- GTM Master -----------------------------------------gtmName=gtmgtmMasterServer=gtmgtmMasterPort=6666gtmMasterDir=$pgxlDATA/nodes/gtmgtmSlave=y Specify y if you configure GTM Slave. Otherwise, GTM slave will not be configured and all the following variables will be reset.gtmSlaveName=gtmSlavegtmSlaveServer=gtm value none means GTM slave is not available. Give none if you don't configure GTM Slave.gtmSlavePort=20001 Not used if you don't configure GTM slave.gtmSlaveDir=$pgxlDATA/nodes/gtmSlave Not used if you don't configure GTM slave.---- GTM-Proxy Master -------gtmProxyDir=$pgxlDATA/nodes/gtm_proxygtmProxy=y gtmProxyNames=(gtm_pxy1 gtm_pxy2) gtmProxyServers=(xl1 xl2) gtmProxyPorts=(6666 6666) gtmProxyDirs=($gtmProxyDir $gtmProxyDir) ---- Coordinators ---------coordMasterDir=$pgxlDATA/nodes/coordcoordNames=(coord1 coord2) coordPorts=(5432 5432) poolerPorts=(6667 6667) coordPgHbaEntries=(0.0.0.0/0)coordMasterServers=(xl1 xl2) coordMasterDirs=($coordMasterDir $coordMasterDir)coordMaxWALsernder=0 没设置备份节点，设置为0coordMaxWALSenders=($coordMaxWALsernder $coordMaxWALsernder) 数量保持和coordMasterServers一致coordSlave=n---- Datanodes ----------datanodeMasterDir=$pgxlDATA/nodes/dn_masterprimaryDatanode=xl1 主数据节点datanodeNames=(node1 node2)datanodePorts=(5433 5433) datanodePoolerPorts=(6668 6668) datanodePgHbaEntries=(0.0.0.0/0)datanodeMasterServers=(xl1 xl2)datanodeMasterDirs=($datanodeMasterDir $datanodeMasterDir)datanodeMaxWalSender=4datanodeMaxWALSenders=($datanodeMaxWalSender $datanodeMaxWalSender) 集群初始化，启动，停止初始化 pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf init all 输出结果： /bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlStopping all the coordinator masters.Stopping coordinator master coord1.Stopping coordinator master coord2.pg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord1" does not existpg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord2" does not existDone.Stopping all the datanode masters.Stopping datanode master datanode1.Stopping datanode master datanode2.pg_ctl: PID file "/home/postgres/pgxc/nodes/datanode/datanode1/postmaster.pid" does not existIs server running?Done.Stop GTM masterwaiting for server to shut down.... doneserver stopped[postgres@gtm ~]$ echo $PGHOME/home/postgres/pgxl[postgres@gtm ~]$ ll /home/postgres/pgxl/pgxc/nodes/gtm/gtm.^C[postgres@gtm ~]$ pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf init all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlInitialize GTM masterERROR: target directory (/home/postgres/pgxc/nodes/gtm) exists and not empty. Skip GTM initilializationDone.Start GTM masterserver startingInitialize all the coordinator masters.Initialize coordinator master coord1.ERROR: target coordinator master coord1 is running now. Skip initilialization.Initialize coordinator master coord2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/coord/coord2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting coordinator master.Starting coordinator master coord1ERROR: target coordinator master coord1 is already running now. Skip initialization.Starting coordinator master coord22019-05-30 21:09:25.562 EDT [2148] LOG: listening on IPv4 address "0.0.0.0", port 54322019-05-30 21:09:25.562 EDT [2148] LOG: listening on IPv6 address "::", port 54322019-05-30 21:09:25.563 EDT [2148] LOG: listening on Unix socket "/tmp/.s.PGSQL.5432"2019-05-30 21:09:25.601 EDT [2149] LOG: database system was shut down at 2019-05-30 21:09:22 EDT2019-05-30 21:09:25.605 EDT [2148] LOG: database system is ready to accept connections2019-05-30 21:09:25.612 EDT [2156] LOG: cluster monitor startedDone.Initialize all the datanode masters.Initialize the datanode master datanode1.Initialize the datanode master datanode2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode1 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting all the datanode masters.Starting datanode master datanode1.WARNING: datanode master datanode1 is running now. Skipping.Starting datanode master datanode2.2019-05-30 21:09:33.352 EDT [2404] LOG: listening on IPv4 address "0.0.0.0", port 154322019-05-30 21:09:33.352 EDT [2404] LOG: listening on IPv6 address "::", port 154322019-05-30 21:09:33.355 EDT [2404] LOG: listening on Unix socket "/tmp/.s.PGSQL.15432"2019-05-30 21:09:33.392 EDT [2404] LOG: redirecting log output to logging collector process2019-05-30 21:09:33.392 EDT [2404] HINT: Future log output will appear in directory "pg_log".Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done.[postgres@gtm ~]$ pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf stop all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlStopping all the coordinator masters.Stopping coordinator master coord1.Stopping coordinator master coord2.pg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord1" does not existDone.Stopping all the datanode masters.Stopping datanode master datanode1.Stopping datanode master datanode2.pg_ctl: PID file "/home/postgres/pgxc/nodes/datanode/datanode1/postmaster.pid" does not existIs server running?Done.Stop GTM masterwaiting for server to shut down.... doneserver stopped[postgres@gtm ~]$ pgxc_ctl/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlPGXC monitor allNot running: gtm masterRunning: coordinator master coord1Not running: coordinator master coord2Running: datanode master datanode1Not running: datanode master datanode2PGXC stop coordinator master coord1Stopping coordinator master coord1.pg_ctl: directory "/home/postgres/pgxc/nodes/coord/coord1" does not existDone.PGXC stop datanode master datanode1Stopping datanode master datanode1.pg_ctl: PID file "/home/postgres/pgxc/nodes/datanode/datanode1/postmaster.pid" does not existIs server running?Done.PGXC monitor allNot running: gtm masterRunning: coordinator master coord1Not running: coordinator master coord2Running: datanode master datanode1Not running: datanode master datanode2PGXC monitor allNot running: gtm masterNot running: coordinator master coord1Not running: coordinator master coord2Not running: datanode master datanode1Not running: datanode master datanode2PGXC exit[postgres@gtm ~]$ pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf init all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlInitialize GTM masterERROR: target directory (/home/postgres/pgxc/nodes/gtm) exists and not empty. Skip GTM initilializationDone.Start GTM masterserver startingInitialize all the coordinator masters.Initialize coordinator master coord1.Initialize coordinator master coord2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/coord/coord1 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/coord/coord2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting coordinator master.Starting coordinator master coord1Starting coordinator master coord22019-05-30 21:13:03.998 EDT [25137] LOG: listening on IPv4 address "0.0.0.0", port 54322019-05-30 21:13:03.998 EDT [25137] LOG: listening on IPv6 address "::", port 54322019-05-30 21:13:04.000 EDT [25137] LOG: listening on Unix socket "/tmp/.s.PGSQL.5432"2019-05-30 21:13:04.038 EDT [25138] LOG: database system was shut down at 2019-05-30 21:13:00 EDT2019-05-30 21:13:04.042 EDT [25137] LOG: database system is ready to accept connections2019-05-30 21:13:04.049 EDT [25145] LOG: cluster monitor started2019-05-30 21:13:04.020 EDT [2730] LOG: listening on IPv4 address "0.0.0.0", port 54322019-05-30 21:13:04.020 EDT [2730] LOG: listening on IPv6 address "::", port 54322019-05-30 21:13:04.021 EDT [2730] LOG: listening on Unix socket "/tmp/.s.PGSQL.5432"2019-05-30 21:13:04.057 EDT [2731] LOG: database system was shut down at 2019-05-30 21:13:00 EDT2019-05-30 21:13:04.061 EDT [2730] LOG: database system is ready to accept connections2019-05-30 21:13:04.062 EDT [2738] LOG: cluster monitor startedDone.Initialize all the datanode masters.Initialize the datanode master datanode1.Initialize the datanode master datanode2.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode1 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.The files belonging to this database system will be owned by user "postgres".This user must also own the server process.The database cluster will be initialized with locale "en_US.UTF-8".The default database encoding has accordingly been set to "UTF8".The default text search configuration will be set to "english".Data page checksums are disabled.fixing permissions on existing directory /home/postgres/pgxc/nodes/datanode/datanode2 ... okcreating subdirectories ... okselecting default max_connections ... 100selecting default shared_buffers ... 128MBselecting dynamic shared memory implementation ... posixcreating configuration files ... okrunning bootstrap script ... okperforming post-bootstrap initialization ... creating cluster information ... oksyncing data to disk ... okfreezing database template0 ... okfreezing database template1 ... okfreezing database postgres ... okWARNING: enabling "trust" authentication for local connectionsYou can change this by editing pg_hba.conf or using the option -A, or--auth-local and --auth-host, the next time you run initdb.Success.Done.Starting all the datanode masters.Starting datanode master datanode1.Starting datanode master datanode2.2019-05-30 21:13:12.077 EDT [25392] LOG: listening on IPv4 address "0.0.0.0", port 154322019-05-30 21:13:12.077 EDT [25392] LOG: listening on IPv6 address "::", port 154322019-05-30 21:13:12.079 EDT [25392] LOG: listening on Unix socket "/tmp/.s.PGSQL.15432"2019-05-30 21:13:12.114 EDT [25392] LOG: redirecting log output to logging collector process2019-05-30 21:13:12.114 EDT [25392] HINT: Future log output will appear in directory "pg_log".2019-05-30 21:13:12.079 EDT [2985] LOG: listening on IPv4 address "0.0.0.0", port 154322019-05-30 21:13:12.079 EDT [2985] LOG: listening on IPv6 address "::", port 154322019-05-30 21:13:12.081 EDT [2985] LOG: listening on Unix socket "/tmp/.s.PGSQL.15432"2019-05-30 21:13:12.117 EDT [2985] LOG: redirecting log output to logging collector process2019-05-30 21:13:12.117 EDT [2985] HINT: Future log output will appear in directory "pg_log".Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done.psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"psql: FATAL: no pg_hba.conf entry for host "192.168.20.132", user "postgres", database "postgres"Done. 启动 pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf start all 关闭 pgxc_ctl -c /home/postgres/pgxc_ctl/pgxc_ctl.conf stop all 查看集群状态 [postgres@gtm ~]$ pgxc_ctl monitor all/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.conf/home/postgres/pgxc_ctl/pgxc_ctl.conf: line 189: $coordExtraConfig: ambiguous redirectFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlRunning: gtm masterRunning: coordinator master coord1Running: coordinator master coord2Running: datanode master datanode1Running: datanode master datanode2 配置集群信息分别在数据节点、协调器节点上分别执行以下命令：注：本节点只执行修改操作即可(alert node)，其他节点执行创建命令(create node)。因为本节点已经包含本节点的信息。 create node coord1 with (type=coordinator,host=xl1, port=5432);create node coord2 with (type=coordinator,host=xl2, port=5432);alter node coord1 with (type=coordinator,host=xl1, port=5432);alter node coord2 with (type=coordinator,host=xl2, port=5432);create node datanode1 with (type=datanode, host=xl1,port=15432,primary=true,PREFERRED);create node datanode2 with (type=datanode, host=xl2,port=15432);alter node datanode1 with (type=datanode, host=xl1,port=15432,primary=true,PREFERRED);alter node datanode2 with (type=datanode, host=xl2,port=15432);select pgxc_pool_reload(); 分别登陆数据节点、协调器节点验证 postgres= select from pgxc_node;node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id-----------+-----------+-----------+-----------+----------------+------------------+-------------coord1 | C | 5432 | xl1 | f | f | 1885696643coord2 | C | 5432 | xl2 | f | f | -1197102633datanode2 | D | 15432 | xl2 | f | f | -905831925datanode1 | D | 15432 | xl1 | t | f | 888802358(4 rows) 测试插入数据在数据节点1，执行相关操作。通过协调器端口登录PG [postgres@xl1 ~]$ psql -p 5432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= create database lei;CREATE DATABASEpostgres= \c lei;You are now connected to database "lei" as user "postgres".lei= create table test1(id int,name text);CREATE TABLElei= insert into test1(id,name) select generate_series(1,8),'测试';INSERT 0 8lei= select from test1;id | name----+------1 | 测试2 | 测试5 | 测试6 | 测试8 | 测试3 | 测试4 | 测试7 | 测试(8 rows) 注：默认创建的表为分布式表，也就是每个数据节点值存储表的部分数据。关于表类型具体说明，下面有说明。通过15432端口登录数据节点，查看数据有5条数据 [postgres@xl1 ~]$ psql -p 15432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= \c lei;You are now connected to database "lei" as user "postgres".lei= select from test1;id | name----+------1 | 测试2 | 测试5 | 测试6 | 测试8 | 测试(5 rows) 登录到节点2，查看数据有3条数据 [postgres@xl2 ~]$ psql -p15432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= \c lei;You are now connected to database "lei" as user "postgres".lei= select from test1;id | name----+------3 | 测试4 | 测试7 | 测试(3 rows) 两个节点的数据加起来整个8条，没有问题。至此Postgre-XL集群搭建完成。创建数据库、表时可能会出现以下错误： ERROR: Failed to get pooled connections 是因为pg_hba.conf配置不对，所有节点加上host all all 192.168.20.0/0 trust并重启集群即可。 ERROR: No Datanode defined in cluster 首先确认是否创建了数据节点，也就是create node相关的命令。如果创建了则执行select pgxc_pool_reload();使其生效即可。集群管理与应用表类型说明 REPLICATION表：各个datanode节点中，表的数据完全相同，也就是说，插入数据时，会分别在每个datanode节点插入相同数据。读数据时，只需要读任意一个datanode节点上的数据。建表语法： CREATE TABLE repltab (col1 int, col2 int) DISTRIBUTE BY REPLICATION; DISTRIBUTE ：会将插入的数据，按照拆分规则，分配到不同的datanode节点中存储，也就是sharding技术。每个datanode节点只保存了部分数据，通过coordinate节点可以查询完整的数据视图。 CREATE TABLE disttab(col1 int, col2 int, col3 text) DISTRIBUTE BY HASH(col1); 模拟数据插入任意登录一个coordinate节点进行建表操作 [postgres@gtm ~]$ psql -h xl1 -p 5432 -U postgrespostgres= INSERT INTO disttab SELECT generate_series(1,100), generate_series(101, 200), 'foo';INSERT 0 100postgres= INSERT INTO repltab SELECT generate_series(1,100), generate_series(101, 200);INSERT 0 100 查看数据分布结果： DISTRIBUTE表分布结果 postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;xc_node_id | count ------------+-------1148549230 | 42-927910690 | 58(2 rows) REPLICATION表分布结果 postgres= SELECT count() FROM repltab;count -------100(1 row) 查看另一个datanode2中repltab表结果 [postgres@datanode2 pgxl9.5]$ psql -p 15432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= SELECT count() FROM repltab;count -------100(1 row) 结论：REPLICATION表中，datanode1,datanode2中表是全部数据，一模一样。而DISTRIBUTE表，数据散落近乎平均分配到了datanode1,datanode2节点中。新增数据节点与数据重分布在线新增节点、并重新分布数据。新增datanode节点在gtm集群管理节点上执行pgxc_ctl命令 [postgres@gtm ~]$ pgxc_ctl/bin/bashInstalling pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Installing pgxc_ctl_bash script as /home/postgres/pgxc_ctl/pgxc_ctl_bash.Reading configuration using /home/postgres/pgxc_ctl/pgxc_ctl_bash --home /home/postgres/pgxc_ctl --configuration /home/postgres/pgxc_ctl/pgxc_ctl.confFinished reading configuration. PGXC_CTL START Current directory: /home/postgres/pgxc_ctlPGXC 在服务器xl3上，新增一个master角色的datanode节点，名称是datanode3 端口号暂定5430，pool master暂定6669 ，指定好数据目录位置，从两个节点升级到3个节点，之后要写3个none none应该是datanodeSpecificExtraConfig或者datanodeSpecificExtraPgHba配置PGXC add datanode master datanode3 xl3 15432 6671 /home/postgres/pgxc/nodes/datanode/datanode3 none none none 等待新增完成后，查询集群节点状态： postgres= select from pgxc_node;node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id-----------+-----------+-----------+-----------+----------------+------------------+-------------datanode1 | D | 15432 | xl1 | t | f | 888802358datanode2 | D | 15432 | xl2 | f | f | -905831925datanode3 | D | 15432 | xl3 | f | f | -705831925coord1 | C | 5432 | xl1 | f | f | 1885696643coord2 | C | 5432 | xl2 | f | f | -1197102633(4 rows) 节点新增完毕数据重新分布由于新增节点后无法自动完成数据重新分布，需要手动操作。 DISTRIBUTE表分布在了node1,node2节点上，如下： postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;xc_node_id | count ------------+-------1148549230 | 42-927910690 | 58(2 rows) 新增一个节点后，将sharding表数据重新分配到三个节点上，将repl表复制到新节点重分布sharding表postgres= ALTER TABLE disttab ADD NODE (datanode3);ALTER TABLE 复制数据到新节点postgres= ALTER TABLE repltab ADD NODE (datanode3);ALTER TABLE 查看新的数据分布： postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;xc_node_id | count ------------+--------700122826 | 36-927910690 | 321148549230 | 32(3 rows) 登录datanode3(新增的时候，放在了xl3服务器上，端口15432)节点查看数据： [postgres@gtm ~]$ psql -h xl3 -p 15432 -U postgrespsql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= select count() from repltab;count -------100(1 row) 很明显,通过 ALTER TABLE tt ADD NODE (dn)命令，可以将DISTRIBUTE表数据重新分布到新节点，重分布过程中会中断所有事务。可以将REPLICATION表数据复制到新节点。从datanode节点中回收数据 postgres= ALTER TABLE disttab DELETE NODE (datanode3);ALTER TABLEpostgres= ALTER TABLE repltab DELETE NODE (datanode3);ALTER TABLE 删除数据节点 Postgresql-XL并没有检查将被删除的datanode节点是否有replicated/distributed表的数据，为了数据安全，在删除之前需要检查下被删除节点上的数据，有数据的话，要回收掉分配到其他节点，然后才能安全删除。删除数据节点分为四步骤： 1.查询要删除节点dn3的oid postgres= SELECT oid, FROM pgxc_node;oid | node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id -------+-----------+-----------+-----------+-----------+----------------+------------------+-------------11819 | coord1 | C | 5432 | datanode1 | f | f | 188569664316384 | coord2 | C | 5432 | datanode2 | f | f | -119710263316385 | node1 | D | 5433 | datanode1 | f | t | 114854923016386 | node2 | D | 5433 | datanode2 | f | f | -92791069016397 | dn3 | D | 5430 | datanode1 | f | f | -700122826(5 rows) 2.查询dn3对应的oid中是否有数据 testdb= SELECT FROM pgxc_class WHERE nodeoids::integer[] @> ARRAY[16397];pcrelid | pclocatortype | pcattnum | pchashalgorithm | pchashbuckets | nodeoids ---------+---------------+----------+-----------------+---------------+-------------------16388 | H | 1 | 1 | 4096 | 16397 16385 1638616394 | R | 0 | 0 | 0 | 16397 16385 16386(2 rows) 3.有数据的先回收数据 postgres= ALTER TABLE disttab DELETE NODE (dn3);ALTER TABLEpostgres= ALTER TABLE repltab DELETE NODE (dn3);ALTER TABLEpostgres= SELECT FROM pgxc_class WHERE nodeoids::integer[] @> ARRAY[16397];pcrelid | pclocatortype | pcattnum | pchashalgorithm | pchashbuckets | nodeoids ---------+---------------+----------+-----------------+---------------+----------(0 rows) 4.安全删除dn3 PGXC$ remove datanode master dn3 clean 故障节点FAILOVER 1.查看当前集群状态 [postgres@gtm ~]$ psql -h xl1 -p 5432psql (PGXL 10r1.1, based on PG 10.6 (Postgres-XL 10r1.1))Type "help" for help.postgres= SELECT oid, FROM pgxc_node;oid | node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id-------+-----------+-----------+-----------+-----------+----------------+------------------+-------------11739 | coord1 | C | 5432 | xl1 | f | f | 188569664316384 | coord2 | C | 5432 | xl2 | f | f | -119710263316387 | datanode2 | D | 15432 | xl2 | f | f | -90583192516388 | datanode1 | D | 15432 | xl1 | t | t | 888802358(4 rows) 2.模拟datanode1节点故障直接关闭即可 PGXC stop -m immediate datanode master datanode1Stopping datanode master datanode1.Done. 3.测试查询只要查询涉及到datanode1上的数据，那么该查询就会报错 postgres= SELECT xc_node_id, count() FROM disttab GROUP BY xc_node_id;WARNING: failed to receive file descriptors for connectionsERROR: Failed to get pooled connectionsHINT: This may happen because one or more nodes are currently unreachable, either because of node or network failure.Its also possible that the target node may have hit the connection limit or the pooler is configured with low connections.Please check if all nodes are running fine and also review max_connections and max_pool_size configuration parameterspostgres= SELECT xc_node_id, FROM disttab WHERE col1 = 3;xc_node_id | col1 | col2 | col3------------+------+------+-------905831925 | 3 | 103 | foo(1 row) 测试发现，查询范围如果涉及到故障的node1节点，会报错，而查询的数据范围不在node1上的话，仍然可以查询。 4.手动切换要想切换，必须要提前配置slave节点。 PGXC$ failover datanode node1 切换完成后，查询集群 postgres= SELECT oid, FROM pgxc_node;oid | node_name | node_type | node_port | node_host | nodeis_primary | nodeis_preferred | node_id -------+-----------+-----------+-----------+-----------+----------------+------------------+-------------11819 | coord1 | C | 5432 | datanode1 | f | f | 188569664316384 | coord2 | C | 5432 | datanode2 | f | f | -119710263316386 | node2 | D | 15432 | datanode2 | f | f | -92791069016385 | node1 | D | 15433 | datanode2 | f | t | 1148549230(4 rows) 发现datanode1节点的ip和端口都已经替换为配置的slave了。本篇文章为转载内容。原文链接：https://blog.csdn.net/qianglei6077/article/details/94379331。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-01-30 11:09:03

转载

MySQL

怎么打开mysql新建数据库

...何在MySQL中新建数据库之后，进一步的探索可以聚焦于数据库优化、安全性管理以及最新的MySQL版本特性。近日，MySQL 8.0版本的发布带来了许多重要更新，如窗口函数的增强、JSON支持的改进以及默认事务隔离级别的变更（从REPEATABLE READ变为READ COMMITTED），这些都为开发者提供了更高效、灵活的数据管理工具。针对数据库性能优化，了解索引原理与实践策略至关重要。例如，选择合适的索引类型（B树、哈希、全文等），合理设计表结构以减少JOIN操作的复杂度，以及定期分析并优化执行计划，都是提升MySQL数据库性能的关键手段。此外，随着数据安全问题日益凸显，MySQL的安全配置和权限管理同样值得深入研究。学习如何设置复杂的密码策略、实现用户访问审计、利用SSL加密传输数据，以及对备份与恢复策略进行定制化设计，是确保数据库系统稳定运行和数据安全的重要步骤。综上所述，在掌握了MySQL数据库的基础创建操作后，持续关注MySQL最新动态，深入了解数据库性能调优和安全管理领域，将极大地助力您在实际项目中构建更加健壮、高效的数据库架构。

2023-08-12 18:53:34

138

码农

MySQL

怎么在cmd开启mysql服务

关系型数据库管理系统 , 关系型数据库管理系统（RDBMS）是一种基于关系模型的数据库管理系统，它以表格的形式存储数据，并通过预定义的关系来组织和管理这些数据。在MySQL服务中，作为关系型数据库管理系统，其核心功能是确保数据的一致性、完整性和高效查询。用户可以使用SQL语言对数据进行结构化查询，如创建表、插入记录、更新信息以及删除无用数据等操作。 SQL语言 , SQL（Structured Query Language）即结构化查询语言，是一种用于管理和处理关系型数据库的标准计算机语言。在MySQL服务上下文中，SQL语言是用户与数据库交互的关键工具，允许用户执行各种数据操作，包括但不限于数据查询、数据更新、数据插入和数据删除，以及数据库模式创建和修改等任务。 MySQL Workbench , MySQL Workbench是一款由Oracle公司开发的强大集成开发环境，专为MySQL数据库设计、开发和管理而构建。在本文情境下，MySQL Workbench被提及作为一种客户端应用程序，提供了图形界面的方式来访问和管理MySQL服务中的数据，支持高级数据库建模、SQL开发以及数据库管理等复杂任务，使得非命令行用户能够更加直观和便捷地操作MySQL数据库。

2023-04-15 17:10:20

127

键盘勇士

MySQL

您已安装mysql 或3306

...字化时代，MySQL数据库的重要性不言而喻。近日（请根据实际日期填充），Oracle公司发布了MySQL 8.0的最新版本，引入了诸多性能优化和新特性，如窗口函数、原子DDL操作以及改进的安全模块等，进一步提升了MySQL在大规模数据处理与安全防护上的能力。针对日益严峻的数据安全问题，InfoWorld网站近期发布了一篇深度分析文章，探讨了如何通过实施严格的访问控制策略、加密敏感数据及定期审计来强化MySQL数据库的安全性。此外，文中还介绍了业界最新的数据保护法规GDPR对数据库管理的影响，提醒用户在使用MySQL时需遵循合规要求。同时，鉴于云服务的普及，Amazon RDS for MySQL作为一种托管型数据库服务备受关注。AWS官方博客分享了关于如何高效迁移本地MySQL数据库至RDS，并实现无缝备份与恢复的实战经验，为众多寻求上云解决方案的企业提供了宝贵参考。不仅如此，对于希望深入理解MySQL内部机制的开发者，Stack Overflow上有资深专家撰写了系列教程，详尽解析了InnoDB存储引擎的工作原理，以及SQL查询优化技巧，帮助读者提升数据库设计与运维水平。总之，在掌握MySQL基本使用的基础上，持续跟进技术发展动态，深入了解并实践高级功能与安全管理措施，是确保MySQL数据库在各类型应用程序中稳定高效运行的关键。

2023-02-05 14:43:17

程序媛

转载文章

[转载]MySql数据库报错SQLSTATE[HY000]: General error: 1364 Field ‘xxxxx‘ doesn‘t have a default value解决方案

...站开发中与MySQL数据库交互时，尤其是文件上传等复杂操作，可能会遇到因MySQL严格模式引发的各种错误。本文所讨论的“SQLSTATE[HY000]: General error: 1364 Field 'xxxxx' doesn't have a default value”就是一个典型例子。为了解决这类问题，开发者需深入理解MySQL的sql-mode配置及其对数据验证的影响。近期，随着MySQL 8.0版本的广泛使用，数据库的严格性设置得到了进一步强化，这要求开发者更加关注表结构设计和SQL语句编写规范。例如，MySQL官方文档建议，在迁移到新版本前应审查现有的sql-mode设置，并根据业务需求进行适当调整（参见：https://dev.mysql.com/doc/refman/8.0/en/sql-mode.html）。另外，考虑到数据一致性及安全性，尽管放宽严格模式可以解决部分插入异常，但并不意味着完全摒弃严格模式的优点。实际上，诸如STRICT_TRANS_TABLES等严格模式选项有助于提前发现潜在的数据问题，防止脏数据入库。因此，在实际项目中，应当权衡灵活性与数据完整性，选择最合适的sql-mode组合。此外，为了更好地应对因MySQL严格模式引起的问题，开发人员还应该熟悉并掌握错误日志分析、事务控制、以及利用触发器、存储过程等手段确保数据完整性。同时，结合具体业务场景，通过合理的表结构设计（如设置默认值或允许字段为空），可以从根本上避免类似问题的发生。综上所述，深入理解MySQL的运行模式并合理配置sql-mode参数对于优化数据库性能、保证数据安全性和完整性至关重要。同时，结合最新的MySQL版本特性与最佳实践，可有效预防和解决在网站开发过程中可能遇到的相关问题。

2023-12-02 23:16:25

289

转载

Mongo

MongoDB中批量插入与更新操作详解：使用insertMany()和updateMany()方法优化数据处理性能

...量操作能力对提升系统性能与效率至关重要。近期，MongoDB 5.0版本对其批量插入和更新功能进行了进一步优化。例如，新增了“Bulk Write Operations”功能，它允许开发者一次性执行多个写入操作，并能更好地处理错误与回滚，使得大规模数据处理更为高效且安全。另外，针对大数据场景下的内存限制问题，MongoDB引入了更灵活的分片技术（Sharding），通过水平分割数据来分散存储压力，从而支持TB甚至PB级别的数据存储及高效查询。同时，MongoDB还提供了Change Streams功能，实时监控数据库变更事件，使得批量更新策略能够根据实时业务需求做出动态调整。值得注意的是，在进行批量操作时，尤其是批量更新，应遵循严谨的数据管理原则，结合具体的业务逻辑，利用好索引优化和条件筛选以确保数据更新的准确性。此外，随着MongoDB Atlas云服务的成熟，用户可以通过其自动化的规模伸缩和优化工具，更加便捷地管理和优化包括批量操作在内的各类数据库任务，进一步释放NoSQL数据库的潜力。综上所述，深入理解和掌握MongoDB的批量插入与更新机制，并结合最新技术和最佳实践，有助于我们在应对大规模、高并发数据处理挑战时游刃有余，实现系统性能和可靠性的双重提升。

2023-09-16 14:14:15

146

心灵驿站-t

MySQL

怎么看mysql数据库启动

在深入了解MySQL数据库的启动过程及其管理命令之后，您可能对数据库运维和优化有了更深的兴趣。近期，MySQL 8.0版本推出了一系列改进与新特性，例如增强的安全功能、性能提升以及InnoDB存储引擎的优化，这些都直接影响了数据库启动和运行效率（参考来源：MySQL官方网站发布说明）。针对MySQL的启动问题，许多专业论坛如Stack Overflow上持续有开发者分享实战经验及解决方案。此外，随着云原生技术的发展，越来越多的企业选择将MySQL部署在云环境中，如AWS RDS或阿里云RDS等服务，它们提供了自动化的MySQL实例生命周期管理，包括启动、停止、备份恢复以及监控告警等功能，大大简化了运维工作流程（参考来源：AWS官方文档、阿里云RDS产品介绍）。对于深入理解MySQL启动机制并进一步进行故障排查，可参阅《高性能MySQL》一书中的相关章节，作者深入剖析了MySQL服务器内部运作原理，并给出了大量实战案例和优化建议，是数据库管理员和技术开发人员的重要参考资料（参考来源：《高性能MySQL》）。同时，为了保障数据安全和业务连续性，掌握MySQL日志文件分析也是至关重要的技能之一。通过查看错误日志、查询日志和二进制日志，可以实时追踪数据库启动过程中的任何异常情况，从而快速定位问题并实施有效修复（参考来源：MySQL官方文档关于日志配置和解读的内容）。总之，在实际应用中，了解并熟练运用MySQL的启动管理命令只是数据库运维的基础，结合最新版本特性、云环境实践以及深入的理论学习，才能真正实现对MySQL数据库高效稳定的运维管理。

2023-06-06 17:14:58

逻辑鬼才

MySQL

怎么创建MYSQL可打开的表格

关系型数据库管理系统 , 关系型数据库管理系统是一种以表格形式存储数据，并使用结构化查询语言（SQL）进行交互的软件系统。在MySQL中，这种系统将数据组织成一系列相互关联的表格，通过预定义的关系或键来建立这些表格之间的联系，确保数据的一致性和完整性。用户可以通过执行SQL语句对数据进行增删改查等操作。主键 , 在MySQL的表格设计中，主键是一个或一组列，其值能够唯一标识表中的每一行记录。例如，在上述customers表格中，id字段被定义为主键，它具有自动递增属性，这意味着每当新增一行记录时，系统会自动为该字段赋予一个唯一的、大于已有记录的数值，从而保证了每条客户记录的唯一性。自动递增 , 自动递增是MySQL中主键的一种特殊属性。当某个字段被标记为自动递增（AUTO_INCREMENT），在插入新记录时不需手动指定该字段的值，MySQL会自动为该字段分配下一个可用的唯一整数值。比如在创建customers表格时，id字段设置为自动递增，每次插入新客户信息时，系统会自动为新记录分配一个比现有记录更大的id值，确保了主键字段的唯一性和连续性。 INSERT INTO 语句 , 在MySQL中，INSERT INTO 是用于向表格中添加新记录的关键SQL语句。它允许用户指定要插入数据的表格名称以及相应的列名和对应值。例如，INSERT INTO customers (first_name, last_name, email, age) VALUES ( John , Doe , john@example.com , 30 )这条语句会在customers表格中插入一条包含姓名、电子邮件和年龄的新客户记录。 SELECT 语句 , SELECT 是MySQL中用于从数据库表格中检索数据的核心SQL命令。通过编写不同的SELECT语句，可以实现对表格中数据的不同筛选、排序和组合需求。如 SELECT FROM customers; 这条语句表示从customers表格中选择所有列的所有记录，返回整个表格的内容。 DROP TABLE 语句 , 在MySQL中，DROP TABLE 是一种DDL（数据定义语言）命令，用于删除不再需要的数据库表格及其所有相关数据。例如，执行 DROP TABLE customers; 将永久删除名为customers的表格，包括其中的所有客户记录，这个操作不可逆，所以在执行前应确保已备份重要数据或确实不需要该表格。

2023-01-01 19:53:47

代码侠

PostgreSQL

PostgreSQL中创建索引的详解：使用CREATE INDEX语句、列名选择与唯一性、多列索引实践

...L是一种开源的关系型数据库管理系统，支持SQL标准并提供了丰富的特性集，如事务处理、视图、触发器和复杂的查询语言等。在本文中，它被用来演示如何创建不同类型的索引以提升数据检索性能。索引（Index） , 在数据库系统中，索引是一种特殊的数据结构，通常用于加速对表中数据的检索速度。就像图书目录可以帮助读者更快地定位到具体页码一样，数据库索引能帮助查询引擎快速找到符合条件的数据行，从而显著提高查询效率。唯一性索引（Unique Index） , 在PostgreSQL等数据库系统中，唯一性索引是一种特殊的索引类型，用于确保指定列中的数据具有唯一性，不允许出现重复值。创建唯一性索引后，如果试图插入或更新与现有索引键相同的数据，数据库将抛出错误，以此来保证数据的一致性和完整性。例如，在用户表的email列上创建唯一性索引，可以避免同一电子邮件地址对应多个账户的情况发生。

2023-11-16 14:06:06

485

晚秋落叶_t

MySQL

MySQL数据库排序详析：ORDER BY用法及数据、多列、特殊字符与NULL值排序实践

在深入了解MySQL数据库的排序功能之后，我们进一步关注到数据库性能优化领域的新动态。近日，MySQL 8.0版本发布了一项关于排序性能的重大改进——引入了新的排序算法“Batched Key Access (BKA)”。据官方介绍，该算法能大幅提升大规模数据排序的效率，尤其针对索引访问模式较为复杂的情况。 BKA算法通过批处理的方式，智能地将排序操作与索引查找相结合，有效减少磁盘I/O次数，显著提升查询性能。这对于处理大数据量、高并发场景下的实时数据分析和业务系统设计具有重要价值。实际应用中，企业可以根据自身业务需求，考虑升级至MySQL 8.0，并适时调整SQL语句以充分利用这一新特性。此外，随着数据量的增长以及对数据处理速度要求的提高，除了掌握基础的排序语法之外，深入理解数据库内部机制、索引优化策略及硬件资源配置等因素对排序性能的影响同样至关重要。因此，在日常工作中，数据库管理员和开发者应当持续关注MySQL的最新进展和技术文档，以便更好地应对不断变化的数据处理挑战，实现更高效的数据管理和分析。

2023-05-16 20:21:51

岁月静好_t

MySQL

往mysql中添加数据

...一种广泛使用的关系型数据库管理系统，由Oracle公司开发并维护。在本文中，MySQL用于存储和管理结构化数据，通过SQL（Structured Query Language）语句进行数据的增删改查等操作。用户可以创建多个数据库并在其中定义不同的表结构，以满足不同应用场景的需求。关系型数据库 , 关系型数据库是基于关系模型理论设计的数据库，其数据以表格的形式存储，并通过预定义的数据关系进行组织和关联。在MySQL中，每张表都有特定的列（字段），用来描述记录（行）的属性；同时，表与表之间可以通过键（如主键和外键）建立联系，实现数据的一致性和完整性。 mysqli_connect函数 , 在PHP编程语言中，mysqli_connect是一个内置函数，用于连接到MySQL服务器并打开一个数据库连接。该函数接收四个参数，分别是MySQL服务器的地址、数据库用户名、密码以及要连接的数据库名。成功连接后返回一个连接标识符，后续的SQL查询和数据操作都将通过这个连接标识符进行，如在文章中提到的执行查询、插入数据等任务。 INSERT INTO语句 , INSERT INTO是SQL语言中的命令，用于向指定的数据库表中插入新的数据行。在文中，INSERT INTO customers (name, email, phone) VALUES ( John Doe , johndoe@example.com , 555-555-5555 ) 这条语句将一条包含姓名、电子邮箱和电话号码的新客户记录添加到了名为“customers”的表中。每个括号内的字段名对应值后面的变量，确保数据被正确地插入到相应字段内。 mysqli_query函数 , 在PHP的MySQLi扩展中，mysqli_query函数用于执行一个SQL查询或命令。它可以处理SELECT、INSERT、UPDATE、DELETE等多种类型的SQL语句，并根据查询类型返回结果集或影响行数。在本文上下文中，mysqli_query函数不仅用于从“customers”表中选择所有记录，还用于执行INSERT INTO语句以插入新数据，并在插入后再次查询渲染新添加的数据。

2024-02-04 16:16:22

键盘勇士

Apache Lucene

Lucene索引段合并策略详解：搜索效率、TieredMergePolicy与并发优化或 Lucene索引结构下的合并策略选择：提升搜索效率，控制内存占用与并发数量调整

...che Lucene索引段合并策略以及其对搜索性能优化的重要性，近期一篇由InfoQ发布的技术文章《实战Lucene：索引段合并策略与性能调优》提供了丰富的实践案例和详尽的分析。作者在文中结合最新版本Lucene的实际应用，进一步探讨了如何根据实际业务场景和硬件资源选择及调整合并策略，包括动态调整TieredMergePolicy的合并阈值以应对数据增长速度的变化，以及在分布式环境下利用ConcurrentMergeScheduler进行高效并发合并的策略。此外，针对大规模数据处理需求，一篇发表于ACM Transactions on Information Systems的研究论文《Large-scale Indexing and Query Processing in Distributed Search Engines: A Study on Apache Lucene》从理论层面深度剖析了Lucene索引架构的设计原理，并通过实验验证了不同索引段合并策略对系统响应时间和资源利用率的影响。研究者们提出了一种混合型合并策略的设想，旨在平衡查询性能与资源消耗，为未来Lucene及其他搜索引擎的优化设计提供了新的思路。同时，在开源社区中，Apache Solr作为基于Lucene构建的全文搜索平台，也不断引入并改进了索引段合并的相关特性。Solr 8.0版本中引入的“Pluggable Index Sort”功能，使得用户可以根据特定排序需求定制索引结构，从而影响段合并过程，间接优化搜索效率。这方面的实践与探索，无疑丰富了我们对Lucene索引段合并策略应用的理解，也为广大开发者提供了更多实用且高效的解决方案。

2023-03-19 15:34:42

396

岁月静好-t

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

history | grep keyword - 查找历史记录中包含关键词的命令。