...外，对于表结构设计及索引优化的理解至关重要。一篇来自DBA Stack Exchange社区的热门讨论帖（发布日期：2022年5月）深入剖析了如何根据业务场景合理设计表关系，以及何时应创建唯一索引、复合索引以提高查询性能。而一篇发表于InfoQ的技术文章《MySQL性能调优实战》则从实战角度出发，详细解读了如何通过EXPLAIN分析查询执行计划、利用慢查询日志定位瓶颈，并结合实例探讨了分区表、分库分表策略在高并发场景下的应用。综上所述，无论是紧跟MySQL最新技术动态，还是深化对数据库内部机制和性能优化的理解，都将为您的数据库管理工作带来显著提升。持续学习并实践这些进阶知识，能够帮助您更好地应对日益增长的数据管理和分析挑战。

2023-08-18 09:15:20

算法侠

Mongo

MongoDB中数据一致性检查的性能优化：索引策略提升查询速度与用户体验

...慢。即使使用了大量的索引优化策略，也无法显著提高检查的速度。这就导致了我们的应用程序在处理大量数据时，响应速度明显下降。三、解决方案探索面对这个问题，我首先想到的是可能是查询语句的问题。为了找到原因，我开始查看我们使用的查询语句，并进行了各种优化尝试。但结果并不理想，无论怎样调整查询语句，都不能显著提高检查速度。然后，我又考虑到了索引的问题。我想，如果能够合理地建立索引，也许可以加快查询速度。于是，我开始为数据字段创建索引，希望能够提升检查效率。四、代码示例以下是我对一些重要字段创建索引的代码示例： javascript // 对用户ID创建唯一索引 db.users.createIndex({ _id: 1 }, { unique: true }) // 对用户名创建普通索引 db.users.createIndex({ username: 1 }) 虽然我对这些字段都创建了索引，但是数据一致性检查的速度并没有显著提高。这让我感到很困惑，因为这些索引都是根据业务需求精心设计的。五、深入分析在进一步研究后，我发现原来我们在进行数据一致性检查时，需要同时考虑多个字段的组合，而不仅仅是单个字段。这意味着，我们需要使用复合索引来加速检查。六、优化策略为此，我决定采用MongoDB的复合索引来解决这个问题。以下是我创建复合索引的代码示例： javascript // 对用户ID和用户名创建复合索引 db.users.createIndex({ _id: 1, username: 1 }) 通过添加这个复合索引，我发现数据一致性检查的速度有了明显的提升。这是因为复合索引就像是一本超级详细的目录，它能帮我们火速找到想找的信息，这样一来，查询所需的时间就大大缩短啦！七、总结总的来说，通过这次经历，我深刻体会到了索引对于提高查询速度的重要性。特别是在应对海量数据的时候，如果巧妙地利用索引，那简直就是给应用程序插上翅膀，能让它的运行速度嗖嗖地提升一大截儿，效果显著得很呐！当然，这只是一个简单的例子，实际的应用场景可能会更复杂。但我相信，只要我们持续学习和探索，总会找到适合自己的解决方案。毕竟，作为开发者，我们的终极目标就是为了让用户爽翻天，让咱们的应用程序跑得更溜、更稳当，用户体验一级棒！

2023-02-20 23:29:59

137

诗和远方-t

PostgreSQL

PostgreSQL中创建与查看索引以提升查询性能：从CREATE INDEX到EXPLAIN分析执行计划

聚簇索引 , 聚簇索引是一种特殊的数据库索引类型，它不仅包含了用于查找数据的键值，而且实际的数据行就按照该索引的顺序进行物理存储。在PostgreSQL中，通过CLUSTER命令可以创建聚簇索引，使得表中的行根据指定字段的值重新排列，并按照新的顺序构建索引。查询时，如果条件符合聚簇索引的排序规则，那么数据库可以直接定位到相关数据块，从而显著提高检索速度。查询执行计划 , 查询执行计划是数据库管理系统对SQL查询语句的一种内部解析和优化过程的结果表现形式。它详细列出了数据库如何执行特定查询的步骤，包括将使用哪些索引、连接顺序以及操作的预计成本等信息。在PostgreSQL中，通过EXPLAIN或EXPLAIN ANALYZE命令可以获得查询执行计划，有助于我们了解查询性能瓶颈并优化索引策略。覆盖索引 , 覆盖索引是指一个索引包含了满足查询所需的所有列，即查询结果可以直接从索引中获取而无需访问底层的数据行。这能极大地减少I/O操作，提高查询性能。在PostgreSQL中，虽然没有明确的“覆盖索引”概念，但可以通过创建包含所有需要查询字段的复合索引来实现类似效果，从而避免额外的数据块读取操作。

2023-07-04 17:44:31

345

梦幻星空_t

PostgreSQL

PostgreSQL 中使用 CREATE INDEX 创建索引提升查询速度与数据库优化实践

...言在数据库领域中，索引是一种非常重要的概念，它可以极大地提高数据库查询的速度。在 PostgreSQL 数据库这个大家伙里，如果你想快速查找到你要的记录，就像在书堆里找书时用目录一样，我们可以使出一个“CREATE INDEX”的神奇招数来创建索引。这样一来，当你进行查询操作的时候，就再也不用大海捞针似的慢慢找了，嗖嗖地就能找到你需要的信息。嘿，各位，今天咱们要聊点实用的，一起来研究下如何在 PostgreSQL 这个数据库神器里头动手创建一个能够秀出具体数值的索引，让你的数据查询速度嗖嗖的！二、什么是索引？在数据库中，当我们执行 SELECT 查询时，数据库会从存储在磁盘上的所有行中查找匹配我们的查询条件的行。这个过程是非常耗时的，特别是当我们的表很大时。为了把这个过程搞得更溜些，我们可以搞个索引，就像图书目录一样，让数据库能像查书名那样瞬间找到我们需要的那些行。索引是一个包含表中特定列的数据结构，它可以帮助我们在查询时更快地找到所需的数据。在 PostgreSQL 中，我们可以使用 CREATE INDEX 命令来创建索引。三、如何创建索引？在 PostgreSQL 中，我们可以使用 CREATE INDEX 命令来创建索引。这个命令的基本语法如下： sql CREATE INDEX index_name ON table_name (column_name); 在这个命令中，index_name 是我们为索引指定的名称，table_name 是我们要在其上创建索引的表名，column_name 是我们要为其创建索引的列名。例如，如果我们有一个名为 articles 的表，它有两个字段 id 和 title，我们可以使用以下命令来为 title 列创建一个索引： css CREATE INDEX idx_title ON articles (title); 四、创建可显示值的索引有时候，我们可能想要创建一个索引，使得查询结果可以直接显示出来，而不仅仅是查询结果的数量。这就需要用到 PostgreSQL 的窗口函数。窗口函数允许我们在查询结果上进行计算，就像我们在 Excel 中所做的那样。窗口函数可以在一个行或一组行上应用一个函数，并返回结果。这使得我们可以很容易地创建出可以显示值的索引。例如，假设我们有一个名为 sales 的表，它有两个字段 date 和 amount。我们可以使用以下窗口函数来创建一个可以显示销售额总和的索引： vbnet SELECT date, SUM(amount) OVER (ORDER BY date) AS total_sales FROM sales; 在这个查询中，SUM(amount) OVER (ORDER BY date) 是一个窗口函数，它会对 sales 表中的 amount 列按照 date 列进行分组，并对每个日期求和。这个窗口函数的计算结果，我们打算把它放到 total_sales 这个栏目里展示出来，这样一来，咱们就能一目了然地瞧见每天销售额的具体总数啦！如果我们想为这个查询创建一个索引，我们可以使用以下命令： python CREATE INDEX idx_total_sales ON sales (date, total_sales); 在这个命令中，我们为 date 和 total_sales 列创建了一个复合索引，这将使查询速度大大加快。五、总结在 PostgreSQL 中，我们可以使用 CREATE INDEX 命令来创建索引，以提高数据库查询的速度。用窗口函数这个神器，咱们就能捣鼓出那种带显示数值的索引，这样一来，查询结果就变得贼直观、贼好理解了，跟看懂漫画似的。如果你正在使用 PostgreSQL，并且想要优化你的查询性能，那么创建索引和窗口函数是非常有用的工具。希望这篇文章能对你有所帮助！

2023-06-22 19:00:45

122

时光倒流_t

PostgreSQL

PostgreSQL中创建和使用B-Tree、复合索引提升查询速度实践

...一个可以显示值出来的索引呢？在进行大量数据操作时，索引是非常重要的工具之一。通过创建索引，我们可以提高查询速度，减少查询时间。然而，对于初学者来说，创建索引可能并不容易。今天，我要和大伙儿分享一些我在PostgreSQL创建索引时摸爬滚打总结出的实战经验和小窍门，让大家也能从中受益，让数据库操作更加顺手溜。创建索引的基本步骤创建索引的基本步骤是先确定你要创建的索引是什么类型的，然后编写SQL语句进行创建。下面我们来具体看看。选择索引类型 PostgreSQL提供了多种索引类型，例如B-Tree、Hash、GiST和GIN等。每种索引类型都有其适用的场景。比如，如果你想要进行查找某个范围内的信息，那么选用B-Tree索引就再合适不过啦，它绝对是个靠谱的小帮手。如果你想进行全文搜索，那么GiST或GIN索引会更加合适。编写创建索引的SQL语句根据你的需求，编写相应的SQL语句。以下是一些常用的创建索引的SQL语句示例： sql -- 创建一个普通B-Tree索引 CREATE INDEX idx_employee_name ON employees (name); -- 创建一个复合B-Tree索引 CREATE INDEX idx_employee_salary_age ON employees (salary, age); -- 创建一个唯一约束索引 ALTER TABLE employees ADD CONSTRAINT uq_employee_email UNIQUE (email); 创建复合索引在PostgreSQL中，你可以在一个索引上同时包含多个字段。这被称为复合索引。复合索引可以帮助你更有效地查询数据。以下是创建复合索引的一些示例： sql -- 创建一个包含两个字段的复合索引 CREATE INDEX idx_employee_name_age ON employees (name, age); -- 创建一个包含三个字段的复合索引 CREATE INDEX idx_employee_last_name_first_name ON employees (last_name, first_name); 使用特殊字符在PostgreSQL中，你可以使用特殊字符来创建索引。比如，如果你想引用文本列，你完全可以给它加上一对双引号；要是你想引用所有列，那就潇洒地甩出一个星号()就搞定了。以下是一些示例： sql -- 使用双引号创建索引 CREATE INDEX idx_employee_full_name ON employees ("full_name"); -- 使用星号创建索引 CREATE INDEX idx_employee_all_columns ON employees (); 创建索引的注意事项虽然创建索引有很多好处，但是你也需要注意一些事项。例如，你需要定期维护索引，以确保它们仍然有效。另外，你知道吗？老是过度依赖索引这玩意儿，可能会让系统的速度“滑铁卢”。每当你要插入一条新记录，或者更新、删除已有记录时，系统都得忙不迭地去同步更新那些索引，这样一来，性能自然就有可能掉链子啦。因此，在决定是否创建索引时，你应该考虑你的应用程序的具体需求。总结在本文中，我给大家分享了一些有关PostgreSQL创建索引的经验和技巧。希望这些内容能对你有所帮助！如果你有任何问题，请随时向我提问。

2023-01-05 19:35:54

189

月影清风_t

PostgreSQL

PostgreSQL中SQL优化工具的正确运用与查询性能提升：索引选择、执行计划与全表扫描考量

...QL语句的执行计划、索引使用情况以及潜在的资源消耗等，以便于我们对SQL进行优化改进。在实际操作中，如果咱们对这些工具的认识和运用不够熟练精通的话，那可能会出现“优化”不成，反而帮了倒忙的情况，让SQL的执行效率不升反降。例如，假设我们在一个包含数百万条记录的orders表中查找特定用户的订单： sql -- 不恰当的SQL示例 SELECT FROM orders WHERE user_id = 'some_user'; 虽然可能有针对user_id的索引，但如果直接运行此查询并依赖优化工具盲目添加或调整索引，而不考虑查询的具体内容（如全表扫描），可能会导致SQL执行效率下降。 2. 理解PostgreSQL的查询规划器与执行计划在PostgreSQL中，查询规划器负责生成最优的执行计划。要是我们没找准时机，灵活运用那些SQL优化神器，那么这个规划器小家伙，可能就会“迷路”，选了一条并非最优的执行路线。比如，对于上述例子，更好的方式是只选择需要的列而非全部： sql -- 更优的SQL示例 SELECT order_id, order_date FROM orders WHERE user_id = 'some_user'; 同时，结合EXPLAIN命令查看执行计划： sql EXPLAIN SELECT order_id, order_date FROM orders WHERE user_id = 'some_user'; 这样，我们可以清晰地了解查询是如何执行的，包括是否有效利用了索引。 3. 错误使用索引优化工具的案例分析有时候，我们可能过于依赖SQL优化工具推荐的索引创建策略。例如，工具可能会建议为每个经常出现在WHERE子句中的字段创建索引。但这样做并不总是有益的，尤其是当涉及多列查询或者数据分布不均匀时。 sql -- 错误的索引创建示例 CREATE INDEX idx_orders_user ON orders (user_id); 如果user_id字段值分布非常均匀，新创建的索引可能不会带来显著性能提升。相反，综合考虑查询模式创建复合索引可能会更有效： sql -- 更合适的复合索引创建示例 CREATE INDEX idx_orders_user_order_date ON orders (user_id, order_date); 4. 结论与反思面对SQL执行效率低下，我们需要深度理解SQL优化工具背后的原理，并结合具体业务场景进行细致分析。只有这样，才能避免因为工具使用不当而带来的负面影响。所以呢，与其稀里糊涂地全靠自动化工具，咱们还不如踏踏实实地去深入了解数据库内部是怎么运转的，既要明白表面现象，更要摸透背后的原理。这样一来，咱就能更接地气、更靠谱地制定出高效的SQL优化方案了。总之，在PostgreSQL的世界里，SQL优化并非一蹴而就的事情，它要求我们具备严谨的逻辑思维、深入的技术洞察以及灵活应变的能力。让我们在实践中不断学习、思考和探索，共同提升PostgreSQL的SQL执行效率吧！注：全表扫描在数据量巨大时往往意味着较低的查询效率，尤其当仅需少量数据时。

2023-09-28 21:06:07

263

冬日暖阳

PostgreSQL

PostgreSQL数据库中提升查询性能的索引策略：B-Tree、GiST与GIN的应用实践

...是我们的信息仓库，而索引则是加速查询速度的金钥匙。PostgreSQL，这款开源的关系型数据库管理系统，就像是开发者们手里的瑞士军刀，功能强大得不得了，灵活性更是让它圈粉无数，实实在在地赢得了广大开发者的青睐和心水。这篇东西，我将手把手带你潜入PostgreSQL索引的深处，教你如何妙用它们，让咱们的应用程序性能嗖嗖提升，飞得更高更稳！让我们一起踏上这场数据查询的优化之旅吧！二、索引基础与理解 1. 索引是什么？索引就像书的目录，帮助我们快速找到所需的信息。在数据库这个大仓库里，索引就像是一本超详细的目录，它能够帮助数据库系统瞬间找到你要的那一行数据，而不需要像翻箱倒柜一样把整张表从头到尾扫一遍。 2. PostgreSQL的索引类型 PostgreSQL支持多种索引类型，如B-Tree、GiST、GIN等。其实吧，B-Tree是最家常便饭的那个，基本上大多数情况下它都能派上用场；不过呢，遇到那些比较复杂的“角儿”，比如JSON或者数组这些数据类型，就得请出GiST和GIN两位大神了。 sql -- 创建一个B-Tree索引 CREATE INDEX idx_users_name ON users (name); 三、选择合适的索引策略 1. 索引选择原则选择索引时，要考虑查询频率、数据更新频率以及数据分布。频繁查询且更新少的列更适合建立索引。 2. 复合索引对于同时包含多个字段的查询，可以创建复合索引，但要注意索引的顺序，通常应将最常用于WHERE子句的列放在前面。 sql CREATE INDEX idx_users_first_last ON users (first_name, last_name); 四、优化查询语句 1. 避免在索引列上进行函数操作函数操作可能导致索引失效，尽量避免在索引列上使用EXTRACT、DATE_TRUNC等函数。 2. 使用覆盖索引覆盖索引是指查询结果可以直接从索引中获取，减少I/O操作，提高效率。 sql CREATE INDEX idx_users_email ON users (email) WHERE is_active = true; 五、维护和监控索引 1. 定期分析和重建索引使用ANALYZE命令更新统计信息，当索引不再准确时，使用REINDEX命令重建。 2. 使用pg_stat_user_indexes监控 pg_stat_user_indexes视图可以提供索引的使用情况，包括查询次数、命中率等，有助于了解并调整索引策略。六、结论通过合理的索引设计和优化，我们可以显著提升PostgreSQL的查询性能。然而，记住，索引并非万能的，过度使用或不适当的索引可能会带来反效果。在实际操作中，咱们得根据业务的具体需求和数据的特性来灵活调整，让索引真正变成提升数据库性能的独门秘籍。在这个快速变化的技术世界里，持续学习和实践是关键。愿你在探索PostgreSQL索引的道路上越走越远，收获满满！

2024-03-14 11:15:25

495

初心未变-t

Mongo

MongoDB查询语言详解：从基本查询操作到聚合框架的运用实例

...究也日益深入，他们从索引策略、查询计划优化等方面进行解读，并结合实际应用场景提供了一系列行之有效的最佳实践。例如，在高并发读写环境下，合理设计复合索引能够显著降低查询响应时间，提升系统整体性能。总之，随着MongoDB技术生态的不断发展和完善，深入掌握其查询语言不仅是提升开发效率的关键，也是应对大数据时代挑战的重要手段。建议读者关注MongoDB官方更新动态，积极参与社区交流，并通过实际项目中应用查询技巧来深化理解，从而更好地驾驭这一强大的数据处理工具。

2023-12-07 14:16:15

142

昨夜星辰昨夜风

PostgreSQL

PostgreSQL 中的索引创建与查询性能优化：理解复合、表达式和B树索引，实现并发创建实践

...可以“显示”值出来的索引？——索引背后的奥秘与实战应用 1. 引言索引的"可视化"概念理解在数据库的世界里，当我们谈论创建一个“可以显示值”的索引时，实际上是一种形象化的表达方式。我们可不是说索引它自己会变魔术般直接把数据展示给你看，而是想表达，索引这个小帮手能像寻宝图一样，在你查找数据时迅速找到正确路径，大大加快查询速度，让你省时又省力。就像一本老式的电话本，虽然它不会直接把每个朋友的所有信息都明晃晃地“晒”出来，但只要你报上姓名，就能麻溜地翻到那一页，找到你要的电话号码。本文将深入浅出地探讨PostgreSQL中如何创建和利用各种类型的索引，以加速查询性能。 2. 创建索引的基本过程（1）单字段索引创建假设我们有一个名为employees的表，其中包含一列employee_id，为了加快对员工ID的查询速度，我们可以创建一个B树索引： sql CREATE INDEX idx_employee_id ON employees (employee_id); 这个命令实质上是在employees表的employee_id列上构建了一个内部的数据结构，使得系统能够根据给定的employee_id快速检索相关行。（2）多字段复合索引如果我们经常需要按照first_name和surname进行联合查询，可以创建一个复合索引： sql CREATE INDEX idx_employee_names ON employees (first_name, surname); 这样的索引在搜索姓氏和名字组合时尤为高效。 3. 表达式索引的妙用有时候，我们可能基于某个计算结果进行查询，例如，我们希望根据员工年龄(age)筛选出所有大于30岁的员工，尽管数据库中存储的是出生日期(birth_date)，但可以通过创建表达式索引来实现： sql CREATE INDEX idx_employee_age ON employees ((CURRENT_DATE - birth_date)); 在这个示例中，索引并非直接针对birth_date，而是基于当前日期减去出生日期得出的虚拟年龄字段。 4. 理解索引类型及其应用场景 - B树索引（默认）：适合范围查询和平行排序，如上所述的employee_id或age查询。 - 哈希索引：对于等值查询且数据分布均匀的情况效果显著，但不适合范围查询和排序。 - GiST、SP-GiST、GIN索引：这些索引适用于特殊的数据类型（如地理空间数据、全文搜索等），提供了不同于传统B树索引的功能和优势。 5. 并发创建索引保持服务在线在生产环境中，我们可能不愿因创建索引而阻塞其他查询操作。幸运的是，PostgreSQL支持并发创建索引，这意味着在索引构建过程中，表上的读写操作仍可继续进行： sql BEGIN; CREATE INDEX CONCURRENTLY idx_employee_ids ON employees (employee_id); COMMIT; 6. 思考与探讨在实际使用中，索引虽好，但并非越多越好，也需权衡其带来的存储成本以及对写操作的影响。每次添加或删除记录时，相应的索引也需要更新，这可能导致写操作变慢。所以，在制定索引策略的时候，咱们得接地气儿点，充分考虑实际业务场景、查询习惯和数据分布的特性，然后做出个聪明的选择。总结来说，PostgreSQL中的索引更像是幕后英雄，它们并不直接“显示”数据，却通过精巧的数据结构布局，让我们的查询请求如同拥有超能力一般疾速响应。设计每一个索引，其实就像是在开启一段优化的冒险旅程。这不仅是一次实实在在的技术操作实战，更是我们对浩瀚数据世界深度解读和灵动运用的一次艺术创作展示。

2023-01-07 15:13:28

430

时光倒流_

Mongo

MongoDB处理大规模数据集时的内存管理：分批插入与分片策略实践，优化索引配置确保系统稳定性

...要一定的专业知识。索引配置 , 索引是在数据库中为了加速查询而创建的一种特殊数据结构，它可以显著提高特定查询条件下的数据检索速度。在MongoDB中，可以根据需求为集合中的字段创建索引，如唯一索引、复合索引、地理空间索引等。结合文章内容，优化索引配置意味着选择合适的字段创建索引，并考虑索引大小与查询效率之间的平衡，以减少不必要的内存占用，同时确保查询性能。例如，对于大部分数据齐全的情况，可能更适合创建部分键的索引而非全键索引，这样既可以满足查询需求，又能有效降低内存使用率。

2023-03-15 19:58:03

烟雨江南-t

转载文章

[转载]转发SQLSERVER数据库索引实现

...就数据表的规范化、表索引优化、容量设计、事务处理等诸多方面与程序员进行卓有成效的沟通和协作，那么日常的前台管理工作将会变得大为轻松,因为在某种意义上，数据库管理系统就相当于操作系统，在系统中占有同样重要的位置。这正是SQL SERVER等数据库管理系统和dBASEX、ACCESS等数据库文件系统的本质区别，所以，对数据库管理系统操作能力的强弱在某种程度上也折射出了网管的水平——个人认为，称得上优秀的Admin,至少应该是一个称职的DBA（数据库管理员）。下面以SQL SERVER（下称 SQLS）为例，将数据库管理中难于理解的“索引原理”问题给各位朋友作一个深入浅出的介绍。其他的数据库管理系统如Oracle、Sybase等，朋友们可以融会贯通，举一反三。一、数据表的基本结构建立数据库的目的是管理大量数据，而建立索引的目的就是提高数据检索效率，改善数据库工作性能，提高数据访问速度。对于索引，我们要知其然，更要知其所以然，关键在于认识索引的工作原理，才能更好的管理索引。为认识索引工作原理，首先有必要对数据表的基本结构作一次全面的复习。 SQLS当一个新表被创建之时，系统将在磁盘中分配一段以8K为单位的连续空间，当字段的值从内存写入磁盘时，就在这一既定空间随机保存，当一个8K用完的时候，SQLS指针会自动分配一个8K的空间。这里，每个8K空间被称为一个数据页（Page），又名页面或数据页面，并分配从0-7的页号,每个文件的第0页记录引导信息，叫文件头（File header）；每8个数据页（64Ｋ）的组合形成扩展区（Extent），称为扩展。全部数据页的组合形成堆（Heap）。 SQLS规定行不能跨越数据页，所以，每行记录的最大数据量只能为8K。这就是char和varchar这两种字符串类型容量要限制在8K以内的原因，存储超过8K的数据应使用text类型，实际上，text类型的字段值不能直接录入和保存，它只是存储一个指针，指向由若干8K的文本数据页所组成的扩展区，真正的数据正是放在这些数据页中。页面有空间页面和数据页面之分。当一个扩展区的8个数据页中既包含了空间页面又包括了数据或索引页面时，称为混合扩展（Mixed Extent）,每张表都以混合扩展开始；反之，称为一致扩展（Uniform Extent），专门保存数据及索引信息。表被创建之时，SQLS在混合扩展中为其分配至少一个数据页面，随着数据量的增长，SQLS可即时在混合扩展中分配出7个页面，当数据超过8个页面时，则从一致扩展中分配数据页面。空间页面专门负责数据空间的分配和管理，包括：PFS页面（Page free space）：记录一个页面是否已分配、位于混合扩展还是一致扩展以及页面上还有多少可用空间等信息；GAM页面（Global allocation map）和SGAM页面(Secodary global allocation map)：用来记录空闲的扩展或含有空闲页面的混合扩展的位置。SQLS综合利用这三种类型的页面文件在必要时为数据表创建新空间；数据页或索引页则专门保存数据及索引信息，SQLS使用4种类型的数据页面来管理表或索引：它们是IAM页、数据页、文本/图像页和索引页。在WINDOWS中，我们对文件执行的每一步操作，在磁盘上的物理位置只有系统（system）才知道；SQL SERVER沿袭了这种工作方式，在插入数据的过程中，不但每个字段值在数据页面中的保存位置是随机的，而且每个数据页面在“堆”中的排列位置也只有系统（system）才知道。这是为什么呢？众所周知，OS之所以能管理DISK，是因为在系统启动时首先加载了文件分配表：FAT（File Allocation Table），正是由它管理文件系统并记录对文件的一切操作，系统才得以正常运行；同理，作为管理系统级的SQL SERVER,也有这样一张类似FAT的表存在，它就是索引分布映像页：IAM（Index Allocation Map）。 IAM的存在，使SQLS对数据表的物理管理有了可能。 IAM页从混合扩展中分配，记录了8个初始页面的位置和该扩展区的位置，每个IAM页面能管理512,000个数据页面，如果数据量太大，SQLS也可以增加更多的IAM页，可以位于文件的任何位置。第一个IAM页被称为FirstIAM,其中记录了以后的IAM页的位置。数据页和文本/图像页互反，前者保存非文本/图像类型的数据，因为它们都不超过8K的容量，后者则只保存超过8K容量的文本或图像类型数据。而索引页顾名思义，保存的是与索引结构相关的数据信息。了解页面的问题有助我们下一步准确理解SQLS维护索引的方式，如页拆分、填充因子等。二、索引的基本概念索引是一种特殊类型的数据库对象，它与表有着密切的联系。索引是为检索而存在的。如一些书籍的末尾就专门附有索引，指明了某个关键字在正文中的出现的页码位置，方便我们查找，但大多数的书籍只有目录，目录不是索引，只是书中内容的排序，并不提供真正的检索功能。可见建立索引要单独占用空间；索引也并不是必须要建立的，它们只是为更好、更快的检索和定位关键字而存在。再进一步说，我们要在图书馆中查阅图书，该怎么办呢？图书馆的前台有很多叫做索引卡片柜的小柜子，里面分了若干的类别供我们检索图书，比如你可以用书名的笔画顺序或者拼音顺序作为查找的依据，你还可以从作者名的笔画顺序或拼音顺序去查询想要的图书，反正有许多检索方式，但有一点很明白，书库中的书并没有按照这些卡片柜中的顺序排列——虽然理论上可以这样做，事实上，所有图书的脊背上都人工的粘贴了一个特定的编号①，它们是以这个顺序在排列。索引卡片中并没有指明这本书摆放在书库中的第几个书架的第几本，仅仅指明了这个特定的编号。管理员则根据这一编号将请求的图书返回到读者手中。这是很形象的例子，以下的讲解将会反复用到它。 SQLS在安装完成之后，安装程序会自动创建master、model、tempdb等几个特殊的系统数据库，其中master是SQLS的主数据库，用于保存和管理其它系统数据库、用户数据库以及SQLS的系统信息，它在SQLS中的地位与WINDOWS下的注册表相当。 master中有一个名为sysindexes的系统表，专门管理索引。SQLS查询数据表的操作都必须用到它，毫无疑义，它是本文主角之一。查看一张表的索引属性，可以在查询分析器中使用以下命令：select from sysindexes where id=object_id(‘tablename’) ；而要查看表的索引所占空间的大小，可以使用系统存储过程命令：sp_spaceused tablename，其中参数tablename为被索引的表名。三、平衡树如果你通过书后的索引知道了一个关键字所在的页码，你有可能通过随机的翻寻，最终到达正确的页码。但更科学更快捷的方法是：首先把书翻到大概二分之一的位置，如果要找的页码比该页的页码小，就把书向前翻到四分之一处，否则，就把书向后翻到四分之三的地方，依此类推，把书页续分成更小的部分，直至正确的页码。这叫“两分法”，微软在官方教程MOC里另有一种说法：叫B树（B-Tree，Balance Tree），即平衡树。一个表索引由若干页面组成，这些页面构成了一个树形结构。B树由“根”（root）开始，称为根级节点，它通过指向另外两个页，把一个表的记录从逻辑上分成两个部分：“枝”—--非叶级节点（Non-Leaf Level）；而非叶级节点又分别指向更小的部分：“叶”——叶级节点（Leaf Level）。根节点、非叶级节点和叶级节点都位于索引页中，统称为索引节点，属于索引页的范筹。这些“枝”、“叶”最终指向了具体的数据页（Page）。在根级节点和叶级节点之间的叶又叫数据中间页。 “根”（root）对应了sysindexes表的Root字段，其中记载了非叶级节点的物理位置（即指针）；非叶级节点位于根节点和叶节点之间，记载了指向叶级节点的指针；而叶级节点则最终指向数据页。这就是“平衡树”。四、聚集索引和非聚集索引从形式上而言，索引分为聚集索引（Clustered Indexes）和非聚集索引（NonClustered Indexes）。聚集索引相当于书籍脊背上那个特定的编号。如果对一张表建立了聚集索引，其索引页中就包含着建立索引的列的值（下称索引键值），那么表中的记录将按照该索引键值进行排序。比如，我们如果在“姓名”这一字段上建立了聚集索引，则表中的记录将按照姓名进行排列；如果建立了聚集索引的列是数值类型的，那么记录将按照该键值的数值大小来进行排列。非聚集索引用于指定数据的逻辑顺序，也就是说，表中的数据并没有按照索引键值指定的顺序排列，而仍然按照插入记录时的顺序存放。其索引页中包含着索引键值和它所指向该行记录在数据页中的物理位置，叫做行定位符（RID：Row ID）。好似书后面的的索引表，索引表中的顺序与实际的页码顺序也是不一致的。而且一本书也许有多个索引。比如主题索引和作者索引。 SQL Server在默认的情况下建立的索引是非聚集索引，由于非聚集索引不对表中的数据进行重组，而只是存储索引键值并用一个指针指向数据所在的页面。一个表如果没有聚集索引时,理论上可以建立249个非聚集索引。每个非聚集索引提供访问数据的不同排序顺序。五、数据是怎样被访问的若能真正理解了以上索引的基础知识，那么再回头来看索引的工作原理就简单和轻松多了。（一）SQLS怎样访问没有建立任何索引数据表： Heap译成汉语叫做“堆”，其本义暗含杂乱无章、无序的意思，前面提到数据值被写进数据页时，由于每一行记录之间并没地有特定的排列顺序，所以行与行的顺序就是随机无序的，当然表中的数据页也就是无序的了，而表中所有数据页就形成了“堆”，可以说，一张没有索引的数据表，就像一个只有书柜而没有索引卡片柜的图书馆，书库里面塞满了一堆乱七八糟的图书。当读者对管理员提交查询请求后，管理员就一头钻进书库，对照查找内容从头开始一架一柜的逐本查找，运气好的话，在第一个书架的第一本书就找到了，运气不好的话，要到最后一个书架的最后一本书才找到。 SQLS在接到查询请求的时候，首先会分析sysindexes表中一个叫做索引标志符(INDID: Index ID)的字段的值，如果该值为0，表示这是一张数据表而不是索引表，SQLS就会使用sysindexes表的另一个字段——也就是在前面提到过的FirstIAM值中找到该表的IAM页链——也就是所有数据页集合。这就是对一个没有建立索引的数据表进行数据查找的方式，是不是很没效率？对于没有索引的表，对于一“堆”这样的记录，SQLS也只能这样做，而且更没劲的是，即使在第一行就找到了被查询的记录，SQLS仍然要从头到尾的将表扫描一次。这种查询称为“遍历”，又叫“表扫描”。可见没有建立索引的数据表照样可以运行，不过这种方法对于小规模的表来说没有什么太大的问题，但要查询海量的数据效率就太低了。（二）SQLS怎样访问建立了非聚集索引的数据表：如前所述，非聚集索引可以建多个,具有B树结构，其叶级节点不包含数据页，只包含索引行。假定一个表中只有非聚集索引，则每个索引行包含了非聚集索引键值以及行定位符（ROW ID,RID），他们指向具有该键值的数据行。每一个RID由文件ID、页编号和在页中行的编号组成。当INDID的值在2-250之间时，意味着表中存在非聚集索引页。此时，SQLS调用ROOT字段的值指向非聚集索引B树的ROOT，在其中查找与被查询最相近的值，根据这个值找到在非叶级节点中的页号，然后顺藤摸瓜，在叶级节点相应的页面中找到该值的RID，最后根据这个RID在Heap中定位所在的页和行并返回到查询端。例如：假定在Lastname上建立了非聚集索引，则执行Select From Member Where Lastname=’Ota’时，查询过程是：①SQLS查询INDID值为2；②立即从根出发，在非叶级节点中定位最接近Ota的值“Martin”，并查到其位于叶级页面的第61页；③仅在叶级页面的第61页的Martin下搜寻Ota的RID，其RID显示为N∶706∶4，表示Lastname字段中名为Ota的记录位于堆的第707页的第4行，N表示文件的ID值，与数据无关；④根据上述信息，SQLS立马在堆的第 707页第4行将该记录“揪”出来并显示于前台（客户端）。视表的数据量大小，整个查询过程费时从百分之几毫秒到数毫秒不等。在谈到索引基本概念的时候，我们就提到了这种方式：图书馆的前台有很多索引卡片柜，里面分了若干的类别，诸如按照书名笔画或拼音顺序、作者笔画或拼音顺序等等，但不同之处有二：① 索引卡片上记录了每本书摆放的具体位置——位于某柜某架的第几本——而不是“特殊编号”；② 书脊上并没有那个“特殊编号”。管理员在索引柜中查到所需图书的具体位置（RID）后，根据RID直接在书库中的具体位置将书提出来。显然，这种查询方式效率很高，但资源占用极大，因为书库中书的位置随时在发生变化，必然要求管理员花费额外的精力和时间随时做好索引更新。（三）SQLS怎样访问建立了聚集索引的数据表：在聚集索引中，数据所在的数据页是叶级，索引数据所在的索引页是非叶级。查询原理和上述对非聚集索引的查询相似，但由于记录是按照聚集索引中索引键值进行排序，换句话说，聚集索引的索引键值也就是具体的数据页。这就好比书库中的书就是按照书名的拼音在排序，而且也只按照这一种排序方式建立相应的索引卡片，于是查询起来要比上述只建立非聚集索引的方式要简单得多。仍以上面的查询为例：假定在Lastname字段上建立了聚集索引，则执行Select From Member Where Lastname=’Ota’时，查询过程是：①SQLS查询INDID值为1，这是在系统中只建立了聚集索引的标志；②立即从根出发，在非叶级节点中定位最接近Ota的值“Martin”，并查到其位于叶级页面的第120页；③在位于叶级页面第120页的Martin下搜寻到Ota条目，而这一条目已是数据记录本身；④将该记录返回客户端。这一次的效率比第二种方法更高，以致于看起来更美，然而它最大的优点也恰好是它最大的缺点——由于同一张表中同时只能按照一种顺序排列，所以在任何一种数据表中的聚集索引只能建立一个；并且建立聚集索引需要至少相当于源表120%的附加空间，以存放源表的副本和索引中间页！难道鱼和熊掌就不能兼顾了吗？办法是有的。（四）SQLS怎样访问既有聚集索引、又有非聚集索引的数据表：如果我们在建立非聚集索引之前先建立了聚集索引的话，那么非聚集索引就可以使用聚集索引的关键字进行检索，就像在图书馆中，前台卡片柜中的可以有不同类别的图书索引卡，然而每张卡片上都载明了那个特殊编号——并不是书籍存放的具体位置。这样在最大程度上既照顾了数据检索的快捷性，又使索引的日常维护变得更加可行，这是最为科学的检索方法。也就是说，在只建立了非聚集索引的情况下，每个叶级节点指明了记录的行定位符（RID）；而在既有聚集索引又有非聚集索引的情况下，每个叶级节点所指向的是该聚集索引的索引键值，即数据记录本身。假设聚集索引建立在Lastname上，而非聚集索引建立在Firstname上，当执行Select From Member Where Firstname=’Mike’时，查询过程是：①SQLS查询INDID值为2；②立即从根出发，在Firstname的非聚集索引的非叶级节点中定位最接近Mike的值“Jose”条目；③从Jose条目下的叶级页面中查到Mike逻辑位置——不是RID而是聚集索引的指针；④根据这一指针所指示位置，直接进入位于Lastname的聚集索引中的叶级页面中到达Mike数据记录本身；⑤将该记录返回客户端。这就完全和我们在“索引的基本概念”中讲到的现实场景完全一样了，当数据发生更新的时候，SQLS只负责对聚集索引的健值驾以维护，而不必考虑非聚集索引，只要我们在ID类的字段上建立聚集索引，而在其它经常需要查询的字段上建立非聚集索引，通过这种科学的、有针对性的在一张表上分别建立聚集索引和非聚集索引的方法，我们既享受了索引带来的灵活与快捷，又相对规避了维护索引所导致的大量的额外资源消耗。六、索引的优点和不足索引有一些先天不足：1：建立索引，系统要占用大约为表的1.2倍的硬盘和内存空间来保存索引。2：更新数据的时候，系统必须要有额外的时间来同时对索引进行更新，以维持数据和索引的一致性——这就如同图书馆要有专门的位置来摆放索引柜，并且每当库存图书发生变化时都需要有人将索引卡片重整以保持索引与库存的一致。当然建立索引的优点也是显而易见的：在海量数据的情况下，如果合理的建立了索引，则会大大加强SQLS执行查询、对结果进行排序、分组的操作效率。实践表明，不恰当的索引不但于事无补，反而会降低系统性能。因为大量的索引在进行插入、修改和删除操作时比没有索引花费更多的系统时间。比如在如下字段建立索引应该是不恰当的：1、很少或从不引用的字段；2、逻辑型的字段，如男或女(是或否)等。综上所述，提高查询效率是以消耗一定的系统资源为代价的，索引不能盲目的建立，必须要有统筹的规划，一定要在“加快查询速度”与“降低修改速度”之间做好平衡，有得必有失，此消则彼长。这是考验一个DBA是否优秀的很重要的指标。至此，我们一直在说SQLS在维护索引时要消耗系统资源，那么SQLS维护索引时究竟消耗了什么资源？会产生哪些问题？究竟应该才能优化字段的索引？在上篇中，我们就索引的基本概念和数据查询原理作了详细阐述，知道了建立索引时一定要在“加快查询速度”与“降低修改速度”之间做好平衡，有得必有失，此消则彼长。那么，SQLS维护索引时究竟怎样消耗资源？应该从哪些方面对索引进行管理与优化？以下就从七个方面来回答这些问题。一、页分裂微软MOC教导我们：当一个数据页达到了8K容量，如果此时发生插入或更新数据的操作，将导致页的分裂(又名页拆分)： 1、有聚集索引的情况下：聚集索引将被插入和更新的行指向特定的页，该页由聚集索引关键字决定； 2、只有堆的情况下：只要有空间就可以插入新的行，但是如果我们对行数据的更新需要更多的空间，以致大于了当前页的可用空间，行就被移到新的页中，并且在原位置留下一个转发指针，指向被移动的新行，如果具有转发指针的行又被移动了，那么原来的指针将重新指向新的位置； 3、如果堆中有非聚集索引，那么尽管插入和更新操作在堆中不会发生页分裂，但是在非聚集索引上仍然产生页分裂。无论有无索引，大约一半的数据将保留在老页面，而另一半将放入新页面，并且新页面可能被分配到任何可用的页。所以，频繁页分裂，后果很严重，将使物理表产生大量数据碎片，导致直接造成I/O效率的急剧下降，最后，停止SQLS的运行并重建索引将是我们的唯一选择! 二、填充因子然而在“混沌之初”，就可以在一定程度上避免不愉快出现：在创建索引时，可以为这个索引指定一个填充因子，以便在索引的每个叶级页面上保留一定百分比的空间，将来数据可以进行扩充和减少页分裂。填充因子是从0到100的百分比数值，设为100时表示将数据页填满。只有当不会对数据进行更改时(例如只读表中)才用此设置。值越小则数据页上的空闲空间越大，这样可以减少在索引增长过程中进行页分裂的需要，但这一操作需要占用更多的硬盘空间。填充因子只在创建索引时执行，索引创建以后，当表中进行数据的添加、删除或更新时，是不会保持填充因子的，如果想在数据页上保持额外的空间，则有悖于使用填充因子的本意，因为随着数据的输入，SQLS必须在每个页上进行页拆分，以保持填充因子指定的空闲空间。因此，只有在表中的数据进行了较大的变动，才可以填充数据页的空闲空间。这时，可以从容的重建索引，重新指定填充因子，重新分布数据。反之，填充因子指定不当，就会降低数据库的读取性能，其降低量与填充因子设置值成反比。例如，当填充因子的值为50时，数据库的读取性能会降低两倍！所以，只有在表中根据现有数据创建新索引，并且可以预见将来会对这些数据进行哪些更改时，设置填充因子才有意义。三、两道数学题假定数据库设计没有问题，那么是否象上篇中分析的那样，当你建立了众多的索引，在查询工作中SQLS就只能按照“最高指示”用索引处理每一个提交的查询呢？答案是否定的！上篇“数据是怎样被访问的”章节中提到的四种索引方案只是一种静态的、标准的和理论上的分析比较，实际上，将在外，军令有所不从，SQLS几乎完全是“自主”的决定是否使用索引或使用哪一个索引！这是怎么回事呢？让我们先来算一道题：如果某表的一条记录在磁盘上占用1000字节(1K)的话，我们对其中10字节的一个字段建立索引，那么该记录对应的索引大小只有10字节(0.01K)。上篇说过，SQLS的最小空间分配单元是“页（Page）”，一个页面在磁盘上占用8K空间，所以一页只能存储8条“记录”，但可以存储800条“索引”。现在我们要从一个有8000条记录的表中检索符合某个条件的记录(有Where子句)，如果没有索引的话，我们需要遍历8000条×1000字节/8K字节=1000个页面才能够找到结果。如果在检索字段上有上述索引的话，那么我们可以在8000条×10字节/8K字节=10个页面中就检索到满足条件的索引块，然后根据索引块上的指针逐一找到结果数据块，这样I/O访问量肯定要少得多。然而有时用索引还不如不用索引快！同上，如果要无条件检索全部记录(不用Where子句)，不用索引的话，需要访问8000条×1000字节/8K字节=1000个页面；而使用索引的话，首先检索索引，访问8000条×10字节/8K字节=10个页面得到索引检索结果，再根据索引检索结果去对应数据页面，由于是检索全部数据，所以需要再访问8000条×1000字节/8K字节=1000个页面将全部数据读取出来，一共访问了1010个页面，这显然不如不用索引快。 SQLS内部有一套完整的数据索引优化技术，在上述情况下，SQLS会自动使用表扫描的方式检索数据而不会使用任何索引。那么SQLS是怎么知道什么时候用索引，什么时候不用索引的呢？因为SQLS除了维护数据信息外，还维护着数据统计信息！四、统计信息打开企业管理器，单击“Database”节点，右击Northwind数据库→单击“属性”→选择“Options”选项卡，观察“Settings”下的各项复选项，你发现了什么？从Settings中我们可以看到，在数据库中，SQLS将默认的自动创建和更新统计信息，这些统计信息包括数据密度和分布信息，正是它们帮助SQLS确定最佳的查询策略：建立查询计划和是否使用索引以及使用什么样的索引。在创建索引时，SQLS会创建分布数据页来存放有关索引的两种统计信息：分布表和密度表。查询优化器使用这些统计信息估算使用该索引进行查询的成本(Cost)，并在此基础上判断该索引对某个特定查询是否有用。随着表中的数据发生变化，SQLS自动定期更新这些统计信息。采样是在各个数据页上随机进行。从磁盘读取一个数据页后，该数据页上的所有行都被用来更新统计信息。统计信息更新的频率取决于字段或索引中的数据量以及数据更改量。比如，对于有一万条记录的表，当1000个索引键值发生改变时，该表的统计信息便可能需要更新，因为1000 个值在该表中占了10%，这是一个很大的比例。而对于有1千万条记录的表来说，1000个索引值发生更改的意义则可以忽略不计，因此统计信息就不会自动更新。至于它们帮助SQLS建立查询计划的具体过程，限于篇幅，这里就省略了，请有兴趣的朋友们自己研究。顺便多说一句，SQLS除了能自动记录统计信息之外，还可以记录服务器中所发生的其它活动的详细信息，包括I/O 统计信息、CPU 统计信息、锁定请求、T-SQL 和 RPC 统计信息、索引和表扫描、警告和引发的错误、数据库对象的创建/除去、连接/断开、存储过程操作、游标操作等等。这些信息的读取、设置请朋友们在SQLS联机帮助文档(SQL Server Books Online)中搜索字符串“Profiler”查找。五、索引的人工维护上面讲到,某些不合适的索引将影响到SQLS的性能,随着应用系统的运行,数据不断地发生变化,当数据变化达到某一个程度时将会影响到索引的使用。这时需要用户自己来维护索引。随着数据行的插入、删除和数据页的分裂，有些索引页可能只包含几页数据，另外应用在执行大量I/O的时候，重建非聚聚集索引可以维护I/O的效率。重建索引实质上是重新组织B树。需要重建索引的情况有： 1) 数据和使用模式大幅度变化； 2)排序的顺序发生改变； 3)要进行大量插入操作或已经完成； 4)使用I/O查询的磁盘读次数比预料的要多； 5)由于大量数据修改，使得数据页和索引页没有充分使用而导致空间的使用超出估算； 6)dbcc检查出索引有问题。六、索引的使用原则接近尾声的时候，让我们再从另一个角度认识索引的两个重要属性----唯一性索引和复合性索引。在设计表的时候，可以对字段值进行某些限制，比如可以对字段进行主键约束或唯一性约束。主键约束是指定某个或多个字段不允许重复，用于防止表中出现两条完全相同的记录，这样的字段称为主键，每张表都可以建立并且只能建立一个主键，构成主键的字段不允许空值。例如职员表中“身份证号”字段或成绩表中“学号、课程编号”字段组合。而唯一性约束与主键约束类似，区别只在于构成唯一性约束的字段允许出现空值。建立在主键约束和唯一性约束上的索引，由于其字段值具有唯一性，于是我们将这种索引叫做“唯一性索引”，如果这个唯一性索引是由两个以上字段的组合建立的，那么它又叫“复合性索引”。注意，唯一索引不是聚集索引，如果对一个字段建立了唯一索引，你仅仅不能向这个字段输入重复的值。并不妨碍你可以对其它类型的字段也建立一个唯一性索引，它们可以是聚集的，也可以是非聚集的。唯一性索引保证在索引列中的全部数据是唯一的，不会包含冗余数据。如果表中已经有一个主键约束或者唯一性约束，那么当创建表或者修改表时，SQLS自动创建一个唯一性索引。但出于必须保证唯一性，那么应该创建主键约束或者唯一性键约束，而不是创建一个唯一性索引。当创建唯一性索引时，应该认真考虑这些规则：当在表中创建主键约束或者唯一性键约束时， SQLS钭自动创建一个唯一性索引；如果表中已经包含有数据，那么当创建索引时，SQLS检查表中已有数据的冗余性，如果发现冗余值，那么SQLS就取消该语句的执行，并且返回一个错误消息，确保表中的每一行数据都有一个唯一值。复合索引就是一个索引创建在两个列或者多个列上。在搜索时，当两个或者多个列作为一个关键值时，最好在这些列上创建复合索引。当创建复合索引时，应该考虑这些规则：最多可以把16个列合并成一个单独的复合索引，构成复合索引的列的总长度不能超过900字节，也就是说复合列的长度不能太长；在复合索引中，所有的列必须来自同一个表中，不能跨表建立复合列；在复合索引中，列的排列顺序是非常重要的，原则上，应该首先定义最唯一的列，例如在（COL1，COL2）上的索引与在（COL2，COL1）上的索引是不相同的，因为两个索引的列的顺序不同；为了使查询优化器使用复合索引，查询语句中的WHERE子句必须参考复合索引中第一个列；当表中有多个关键列时，复合索引是非常有用的；使用复合索引可以提高查询性能，减少在一个表中所创建的索引数量。综上所述，我们总结了如下索引使用原则： 1)逻辑主键使用唯一的成组索引，对系统键（作为存储过程）采用唯一的非成组索引，对任何外键列采用非成组索引。考虑数据库的空间有多大，表如何进行访问，还有这些访问是否主要用作读写。 2)不要索引memo/note 字段，不要索引大型字段（有很多字符），这样作会让索引占用太多的存储空间。 3)不要索引常用的小型表 4)一般不要为小型数据表设置过多的索引，假如它们经常有插入和删除操作就更别这样作了，SQLS对这些插入和删除操作提供的索引维护可能比扫描表空间消耗更多的时间。七、大结局查询是一个物理过程，表面上是SQLS在东跑西跑，其实真正大部分压马路的工作是由磁盘输入输出系统(I/O)完成，全表扫描需要从磁盘上读表的每一个数据页，如果有索引指向数据值，则I/O读几次磁盘就可以了。但是，在随时发生的增、删、改操作中，索引的存在会大大增加工作量，因此，合理的索引设计是建立在对各种查询的分析和预测上的，只有正确地使索引与程序结合起来,才能产生最佳的优化方案。一般来说建立索引的思路是： (1)主键时常作为where子句的条件，应在表的主键列上建立聚聚集索引，尤其当经常用它作为连接的时候。 (2)有大量重复值且经常有范围查询和排序、分组发生的列，或者非常频繁地被访问的列，可考虑建立聚聚集索引。　　 (3)经常同时存取多列，且每列都含有重复值可考虑建立复合索引来覆盖一个或一组查询，并把查询引用最频繁的列作为前导列，如果可能尽量使关键查询形成覆盖查询。 (4)如果知道索引键的所有值都是唯一的，那么确保把索引定义成唯一索引。 (5)在一个经常做插入操作的表上建索引时，使用fillfactor(填充因子)来减少页分裂，同时提高并发度降低死锁的发生。如果在只读表上建索引，则可以把fillfactor置为100。 (6)在选择索引字段时，尽量选择那些小数据类型的字段作为索引键，以使每个索引页能够容纳尽可能多的索引键和指针，通过这种方式，可使一个查询必须遍历的索引页面降到最小。此外，尽可能地使用整数为键值，因为它能够提供比任何数据类型都快的访问速度。 SQLS是一个很复杂的系统，让索引以及查询背后的东西真相大白，可以帮助我们更为深刻的了解我们的系统。一句话，索引就象盐，少则无味多则咸。本篇文章为转载内容。原文链接：https://blog.csdn.net/qq_28052907/article/details/75194926。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-04-30 23:10:07

转载

Oracle

Oracle数据库中检测与删除数据表重复记录并应用唯一约束确保Email字段唯一性

...务场景，合理设置唯一索引、复合主键等约束条件，从源头上杜绝重复数据的产生。结合运用数据库事务管理机制以及定期的数据审计与质量检查，形成一套全方位的数据完整性管理体系，这对于任何依赖于Oracle数据库的企业来说，无疑具有极高的实践价值和战略意义。

2023-02-04 13:46:08

百转千回

Kibana

Kibana中Elasticsearch默认搜索查询优化：精确匹配、range查询与bool复合查询在数据分析中的应用实例

...tch”查询，它会对索引中的所有字段进行全文本搜索。不过呢，这种模糊匹配的方法，在某些特定情况下可能不太灵光。比如说，当我们面对结构严谨的数据，或者需要找的东西必须严丝合缝地匹配时，搜出来的结果就可能不尽人意了。 3. 默认搜索查询的问题案例（以下代码示例假设我们有一个名为"logstash-"的索引，其中包含日志数据） json GET logstash-/_search { "query": { "match": { "message": "error" } } } 上述代码表示在"logstash-"的所有文档中查找含有"error"关键词的消息。但是，你知道吗，就算消息内容显示是“application has no error”，这个记录也会被挖出来，这明显不是我们想要的结果啊。 4. 优化搜索查询的方法（1）精准匹配查询为了精确匹配某个字段的内容，我们可以采用term查询而非match查询。 json GET logstash-/_search { "query": { "term": { "status.keyword": "error" } } } 在这个例子中，我们针对"status"字段进行精确匹配，".keyword"后缀确保了我们是在对已分析过的非文本字段进行查询。（2）范围查询和多条件查询如果你需要根据时间范围或者多个条件筛选数据，可以使用range和bool复合查询。 json GET logstash-/_search { "query": { "bool": { "must": [ { "term": { "status.keyword": "error" } }, { "range": { "@timestamp": { "gte": "now-1d", "lte": "now" } } } ] } } } 此处的例子展示了同时满足状态为"error"且在过去24小时内的日志记录。 5. 总结与思考 Kibana的默认搜索查询方式虽便捷，但其灵活性和准确性在面对复杂需求时可能会有所欠缺。熟悉并灵活运用Elasticsearch的各种查询“独门语言”（DSL，也就是领域特定语言），就像掌握了一套搜索大法，能够让你随心所欲地定制查询条件，这样一来，搜出来的结果不仅更贴切你想要的，而且信息更全面、准确度蹭蹭上涨，就像是给搜索功能插上了小翅膀一样。这就像是拥有一把精巧的钥匙，能够打开Elasticsearch这座数据宝库中每一扇隐藏的门。所以，下次当你在Kibana中发现搜索结果不尽如人意时，请不要急于怀疑数据的质量，而是尝试调整你的查询策略，让数据告诉你它的故事。记住了啊，每一次咱们对查询方法的改良和优化，其实就像是在数据的世界里不断挖掘宝藏，步步深入，逐渐揭开它的神秘面纱。这不仅是我们对数据理解越来越透彻的过程，更是咱们提升数据分析功力、练就火眼金睛的关键步骤！

2023-05-29 19:00:46

487

风轻云淡

Cassandra

时间序列数据在Cassandra中的表结构设计：分区键选择、排序列簇与宽行策略实践

...息拼接起来，弄成一个复合型的分区键。这样一来，同一时间段的数据就会乖乖地呆在同一个分区里，这样咱们就能轻松高效地一次性读取到这一整段时期的数据了，明白吧？ cql CREATE TABLE sensor_data ( sensor_id uuid, event_time timestamp, data text, PRIMARY KEY ((sensor_id, date_of(event_time)), event_time) ) WITH CLUSTERING ORDER BY (event_time DESC); 这里date_of(event_time)是对事件时间进行提取日期部分的操作，形成复合分区键，便于按天或更粗粒度进行分区。（2）排序列簇与查询路径使用CLUSTERING ORDER BY定义排序列簇，按照时间戳降序排列，确保最新数据能快速获取。（3）限制行大小与集合使用尽管Cassandra支持集合类型，但对于时间序列数据，应避免在一个集合内存放大量数据，以免读取性能受到影响。由于集合不会分页，如果需要存储连续的时序数据点，最好让每一行只包含单个数据点。（4）宽行与稀疏索引采用“宽行”策略，即每行代表一段时间窗口内的多个数据点属性，而不是每条数据一个行。这有助于减少跨分区查询，提高查询效率。同时呢，对于那些跟时间没关系的筛选条件，我们可以琢磨着用一下稀疏索引。不过得注意啦，这里有个“度”的把握，就是索引虽然能让查询速度嗖嗖提升，但同时也会让写入数据时的开销变大。所以嘞，咱们得在这两者之间找个最佳平衡点。 3. 示例设计物联网传感器数据存储假设我们有一个物联网项目，需要存储来自不同传感器的实时测量值： cql CREATE TABLE sensor_readings ( sensor_id uuid, reading_time timestamp, temperature float, humidity int, pressure double, PRIMARY KEY ((sensor_id, reading_time)) ) WITH CLUSTERING ORDER BY (reading_time DESC); 这个表结构中，sensor_id和reading_time共同组成复合分区键，每个传感器在某一时刻的温度、湿度和压力读数都存放在一行里。 4. 总结与思考设计Cassandra时间序列数据表的关键在于理解数据访问模式并结合Cassandra的特性和局限性。选对分区键这招儿，就像给海量数据找个宽敞的储藏室，让它们能分散开来存放和快速找到；而把列簇整得井井有条，那就相当于帮我们轻松摸到最新鲜的数据，一抓一个准儿。再配上精心设计的宽行结构，加上恰到好处的索引策略，甭管查询需求怎么变花样，都能妥妥地满足你。当然，具体实践时还需要根据业务的具体情况进行调整和优化，例如预测未来的数据增长规模、评估查询性能瓶颈以及是否需要进一步的数据压缩等措施。总的来说，用Cassandra搭建时间序列数据模型不是个一劳永逸的事儿，它更像是一个持久的观察、深度思考和反复调整优化的过程。只有这样，我们才能真正把Cassandra处理海量时序数据的洪荒之力给释放出来。

2023-12-04 23:59:13

769

百转千回

转载文章

[转载]详解Class类文件的结构（上）

...号数可以来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。表是由多个无符号数或者其他表作为数据项构成的复合数据类型，所有表都习惯性的以“_info”结尾。表用于描述有层次关系的复合结构的数据，整个Class文件本质上就是一张表，它的数据项构成如下图。 2.魔数（Magic Number）每一个Class文件的头4个字节成为魔数（Magic Number），它的唯一作用是确定这个文件是否是一个能被虚拟机接收的Class文件。很多文件存储标准中都是用魔数来进行身份识别，比如gif、png、jpeg等都有魔数。使用魔数主要是来识别文件的格式，相比于通过文件后缀名识别，这种方式准确性更高，因为文件后缀名可以随便更改，但更改二进制文件内容的却很少。Class类文件的魔数是Oxcafebabe，cafe babe？咖啡宝贝？至于为什么是这个，这个名字在java语言诞生之初就已经确定了，它象征着著名咖啡品牌Peet's Coffee中深受欢迎的Baristas咖啡，Java的商标logo也源于此。 3.文件版本（Version）在魔数后面的4个字节就是Class文件的版本号，第5和第6个字节是次版本号（Minor Version），第7和第8个字节是主版本号（Major Version）。Java的版本号是从45开始的，JDK1.1之后的每个JDK大版本发布主版本号向上加1（JDK1.0~1.1使用的版本号是45.0~45.3），比如我这里是十六进制的Ox0034，也就是十进制的52，所以说明该class文件可以被JDK1.8及以上的虚拟机执行，否则低版本虚拟机执行会报java.lang.UnsupportedClassVersionError错误。 4.常量池（Constant Pool）在主版本号紧接着的就是常量池的入口，它是Class文件结构中与其他项目关联最多的数据类型，也是占用空间最大的数据之一。常量池的容量由后2个字节指定，比如这里我的是Ox001d，即十进制的29，这就表示常量池中有29项常量，而常量池的索引是从1开始的，这一点需要特殊记忆，因为程序员习惯性的计数法是从0开始的，而这里不一样，所以我这里常量池的索引范围是1~29。设计者将第0项常量空出来是有目的的，这样可以满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义。通过javap -v命令反编译出class文件之后，我们可以看到常量池的内容常量池中主要存放两大类常量：字面量和符号引用。比如文本字符、声明为final的常量值就属于字面量，而符号引用则包含下面三类常量：类和接口的全限名字段的名称和描述符方法的名称和描述符在之前的文章（详谈类加载的全过程）中有详细讲到，在加载类过程的第二大阶段连接的第三个阶段解析的时候，会将常量池中的符号引用替换为直接引用。相信很多人在开始了解那里的时候也是一头雾水，作者我也是，当我了解到常量池的构成的时候才明白真正意思。Java代码在编译的时候，是在虚拟机加载Class文件的时候才会动态链接，也就是说Class文件中不会保存各个方法、字段的最终内存布局信息，因此这些字段、方法的符号引用不经过运行期转换的话无法获得真正的内存入口地址，也就无法直接被虚拟机使用。当虚拟机运行时，需要从常量池获得对应的符号引用，再在类创建时或运行时解析、翻译到具体的内存地址之中。常量池中每一项常量都是一张表，这里我只找到了JDK1.7之前的常量池项目类型表，见下图。常量池项目类型表：常量池常量项的结构总表：比如我这里测试的class文件第一项常量，它的标志位是Ox0a，即十进制10，即表示tag为10的常量项，查表发现是CONSTANT_Methodref_info类型，和上面反编译之后的到的第一个常量是一致的，Methodref表示类中方法的符号引用。查上面《常量池常量项的结构总表》可以看到Methodref中含有3个项目，第一个tag就是上述的Ox0a，那么第二个项目就是Ox0006，第三个项目就是Ox000f，分别指向的CONSTANT_Class_info索引项和CONSTANT_NameAndType_info索引项为6和15，那么反编译的结果该项常量指向的应该是6和15，查看上面反编译的图应证我们的推测是对的。后面的常量项就以此类推。这里需要特殊说明一下utf8常量项的内容，这里我以第29项常量项解释，也就是最后一项常量项。查《常量池常量项的结构总表》可以看到utf8项有三个内容：tag、length、bytes。tag表示常量项类型，这里是Ox01，表示是CONSTANT_Utf8_info类型，紧接着的是长度length，这里是Ox0015，即十进制21，那么再紧接着的21个字节都表示该项常量项的具体内容。特别注意length表示的最大值是65535，所以Java程序中仅能接收小于等于64KB英文字符的变量和变量名，否则将无法编译。 5.访问标志（Access Flags）在常量池结束后，紧接着的两个字节代表访问标志（Access Flags），该标志用于识别一些类或者接口层次的访问信息，其中包括：Class是类还是接口、是否定义为public、是否定义为abstract类型、类是否被声明为final等。访问标志表标志位一共有16个，但是并不是所有的都用到，上表只列举了其中8个，没有使用的标志位统统置为0，access_flags只有2个字节表示，但是有这么多标志位怎么计算而来的呢？它是由标志位为true的标志位值取或运算而来，比如这里我演示的class文件是一个类并且是public的，所以对应的ACC_PUBLIC和ACC_SIPER标志应该置为true，其余标志不满足则为false，那么access_flags的计算过程就是：Ox0001 | Ox0020 = Ox0021 篇幅原因，未完待续...... 参考文献：《深入理解Java虚拟机》 END 本篇文章为转载内容。原文链接：https://javar.blog.csdn.net/article/details/97532925。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2024-01-09 17:46:36

645

转载

转载文章

[转载]多线程与高并发笔记，非面向初学者二：java引用，高并发多线程容器，线程池

...页右边，向下滑有目录索引，可以根据标题跳转到你想看的内容如果右边没有就找找左边上一节：JUC锁，一些面试题和源码讲解 1、引用 java引用共4种，强软弱虚强引用：我们普通的new一个对象，就是强引用，只有它指向为空了，或者已经没用了，才会被回收软引用：JVM内存不够了，就回收软引用弱引用：只要碰见垃圾回收器(System.gc())，就被回收虚引用：对象当被回收时，会将其放在队列中 1、软引用 / 软引用软引用是用来描述一些还有用但并非必须的对象。对于软引用关联着的对象，在系统将要发生内存溢出异常之前，将会把这些对象列进回收范围进行第二次回收。如果这次回收还没有足够的内存，才会抛出内存溢出异常。 -Xmx20M/import java.lang.ref.SoftReference;public class T02_SoftReference {public static void main(String[] args) {SoftReference<byte[]> m = new SoftReference<>(new byte[1024102410]);//创建软引用，分配10M//m = null;System.out.println(m.get());//获取System.gc();//垃圾回收try {Thread.sleep(500);} catch (InterruptedException e) {e.printStackTrace();}System.out.println(m.get());//再分配一个数组，heap将装不下，这时候系统会垃圾回收，先回收一次，如果不够，会把软引用干掉byte[] b = new byte[1024102415];System.out.println(m.get());} }//软引用非常适合缓存使用 2、弱引用 public class M {@Overrideprotected void finalize() throws Throwable {System.out.println("finalize");} } 上图中，tl对象强引用指向ThreadLocal，map中key弱引用指向ThreadLocal，当tl=null时，强引用消失，此时弱引用也将自动被回收，但是此时key=null，value指向10M这个就永远访问不到，既内存泄露下图中，18行到20行为解决内存泄露问题的，那就是通过remove()将它消除了 / 弱引用遭到gc就会回收/import java.lang.ref.WeakReference;public class T03_WeakReference {public static void main(String[] args) {WeakReference<M> m = new WeakReference<>(new M());System.out.println(m.get());System.gc();System.out.println(m.get());ThreadLocal<M> tl = new ThreadLocal<>();tl.set(new M());tl.remove();} } 3、虚引用虚引用虚引用不是给开发人员用的，一般是给写JVM（java虚拟机，没有它java程序运行不了），Netty等技术大牛用的虚引用，对象当被回收时，会将其放在队列中，此时我们监听到队列中有新值了，就知道有虚引用被回收了此时我们要做相应的处理，虚引用指向的值，是无法直接get()获取的虚引用使用场景一般情况（其它情况暂时没什么用），虚引用指向堆外内存(直接被操作系统管理的内存)，JVM无法对其回收当虚引用对象被回收时，JVM的垃圾回收无法自动回收堆外内存，但是此时，虚引用对象被回收，会将其放在队列中操作人员，看到队列中有对象被回收，就进行相应操作，回收堆内存如何回收堆外内存 C和C++有函数可以用 java现在也提供了Unsafe类可以操作堆外内存，具体请参考上一篇博客，总之，JDK1.8只能通过反射来用，JDK1.9以上可以通过new Unsafe对象来用 Unsafe类的方法有： copyMemory():直接访问内存 allocateMemory():直接分配内存，这就必须手动回收内存了 freeMemory():回收内存下面是一个虚引用例子，自己看吧，懂得自然懂，现在看不懂的，先收藏或者保存上，以后回来看 / 一个对象是否有虚引用的存在，完全不会对其生存时间构成影响，也无法通过虚引用来获取一个对象的实例。为一个对象设置虚引用关联的唯一目的就是能在这个对象被收集器回收时收到一个系统通知。虚引用和弱引用对关联对象的回收都不会产生影响，如果只有虚引用活着弱引用关联着对象，那么这个对象就会被回收。它们的不同之处在于弱引用的get方法，虚引用的get方法始终返回null, 弱引用可以使用ReferenceQueue,虚引用必须配合ReferenceQueue使用。 jdk中直接内存的回收就用到虚引用，由于jvm自动内存管理的范围是堆内存，而直接内存是在堆内存之外（其实是内存映射文件，自行去理解虚拟内存空间的相关概念），所以直接内存的分配和回收都是有Unsafe类去操作，java在申请一块直接内存之后，会在堆内存分配一个对象保存这个堆外内存的引用，这个对象被垃圾收集器管理，一旦这个对象被回收，相应的用户线程会收到通知并对直接内存进行清理工作。事实上，虚引用有一个很重要的用途就是用来做堆外内存的释放， DirectByteBuffer就是通过虚引用来实现堆外内存的释放的。/import java.lang.ref.PhantomReference;import java.lang.ref.Reference;import java.lang.ref.ReferenceQueue;import java.util.LinkedList;import java.util.List;public class T04_PhantomReference {private static final List<Object> LIST = new LinkedList<>();private static final ReferenceQueue<M> QUEUE = new ReferenceQueue<>();public static void main(String[] args) {PhantomReference<M> phantomReference = new PhantomReference<>(new M(), QUEUE);new Thread(() -> {while (true) {LIST.add(new byte[1024 1024]);try {Thread.sleep(1000);} catch (InterruptedException e) {e.printStackTrace();Thread.currentThread().interrupt();}System.out.println(phantomReference.get());} }).start();new Thread(() -> {while (true) {Reference<? extends M> poll = QUEUE.poll();if (poll != null) {System.out.println("--- 虚引用对象被jvm回收了 ---- " + poll);} }}).start();try {Thread.sleep(500);} catch (InterruptedException e) {e.printStackTrace();} }} 2、容器 1、发展历史(一定要了解) map容器你需要了解的历史 JDK早期，java提供了Vector和Hashtable两个容器，这两个容器，很多操作都加了锁Synchronized，对于某些不需要用锁的情况下，就显得十分影响性能，所以现在基本没人用这两个容器，但是面试经常问这两个容器里面的数据结构等内容后来，出现了HashMap，此容器完全不加锁，是用的最多的容器但是完全不加锁未免不完善，所以java提供了如下方式，将HashMap变为加锁的 //通过Collections.synchronizedMap(HashMap)方法，将其变为加锁Map集合，其中泛型随意，UUID只是举例。static Map<UUID, UUID> m = Collections.synchronizedMap(new HashMap<UUID, UUID>()); 通过阅读源码发现，上面方法将HashMap变为加锁，也是使用Synchronized，只是锁的内容更细，但并不比HashTable效率高多少所以衍生除了新的容器ConcurrentHashMap ConcurrentHashMap 此容器，插入效率不如上面的，因为它做了各种判断和CAS，但是差距不是特别大读取效率很高，100个线程同时访问，每个线程读取一百万次实测 Hashtable 39s ，SynchronizedHashMap 38s ，ConcurrentHashMap 1.7s 前两个将近40秒，ConcurrentHashMap只需要不到2s，由此可见此容器读取效率极高 2、为什么推荐使用Queue来做高并发为什么推荐Queue（队列） Queue接口提供了很多针对多线程非常友好的API（offer ，peek和poll，其中BlockingQueue还添加了put和take可以阻塞），可以说专门为多线程高并发而创造的接口，所以一般我们使用Queue而不用List 以下代码分别使用链表LinkList和ConcurrentQueue，对比一下速度 LinkList用了5s多，ConcurrentQueue几乎瞬间完成 Concurrent接口就是专为多线程设计，多线程设计要多考虑Queue(高并发用)的使用，少使用List / 有N张火车票，每张票都有一个编号同时有10个窗口对外售票请写一个模拟程序分析下面的程序可能会产生哪些问题？重复销售？超量销售？使用Vector或者Collections.synchronizedXXX 分析一下，这样能解决问题吗？就算操作A和B都是同步的，但A和B组成的复合操作也未必是同步的，仍然需要自己进行同步就像这个程序，判断size和进行remove必须是一整个的原子操作 @author 马士兵/import java.util.LinkedList;import java.util.List;import java.util.concurrent.TimeUnit;public class TicketSeller3 {static List<String> tickets = new LinkedList<>();static {for(int i=0; i<1000; i++) tickets.add("票编号：" + i);}public static void main(String[] args) {for(int i=0; i<10; i++) {new Thread(()->{while(true) {synchronized(tickets) {if(tickets.size() <= 0) break;try {TimeUnit.MILLISECONDS.sleep(10);} catch (InterruptedException e) {e.printStackTrace();}System.out.println("销售了--" + tickets.remove(0));} }}).start();} }} 队列 import java.util.Queue;import java.util.concurrent.ConcurrentLinkedQueue;public class TicketSeller4 {static Queue<String> tickets = new ConcurrentLinkedQueue<>();static {for(int i=0; i<1000; i++) tickets.add("票编号：" + i);}public static void main(String[] args) {for(int i=0; i<10; i++) {new Thread(()->{while(true) {String s = tickets.poll();if(s == null) break;else System.out.println("销售了--" + s);} }).start();} }} 3、多线程常用容器 1、ConcurrentHashMap(无序)和ConcurrentSkipListMap(有序，链表，使用跳表数据结构，让查询更快) 跳表：http://blog.csdn.net/sunxianghuang/article/details/52221913 import java.util.;import java.util.concurrent.ConcurrentHashMap;import java.util.concurrent.ConcurrentSkipListMap;import java.util.concurrent.CountDownLatch;public class T01_ConcurrentMap {public static void main(String[] args) {Map<String, String> map = new ConcurrentHashMap<>();//Map<String, String> map = new ConcurrentSkipListMap<>(); //高并发并且排序//Map<String, String> map = new Hashtable<>();//Map<String, String> map = new HashMap<>(); //Collections.synchronizedXXX//TreeMapRandom r = new Random();Thread[] ths = new Thread[100];CountDownLatch latch = new CountDownLatch(ths.length);long start = System.currentTimeMillis();for(int i=0; i<ths.length; i++) {ths[i] = new Thread(()->{for(int j=0; j<10000; j++) map.put("a" + r.nextInt(100000), "a" + r.nextInt(100000));latch.countDown();});}Arrays.asList(ths).forEach(t->t.start());try {latch.await();} catch (InterruptedException e) {e.printStackTrace();}long end = System.currentTimeMillis();System.out.println(end - start);System.out.println(map.size());} } 2、CopyOnWriteList（写时复制）和CopyOnWriteSet 适用于，高并发是，读的多，写的少的情况当我们写的时候，将容器复制，让写线程去复制的线程写（写的时候加锁）而读线程依旧去读旧的(读的时候不加锁) 当写完，将对象指向复制后的已经写完的容器，原来容器销毁大大提高读的效率 / 写时复制容器 copy on write 多线程环境下，写时效率低，读时效率高适合写少读多的环境 @author 马士兵/import java.util.ArrayList;import java.util.Arrays;import java.util.List;import java.util.Random;import java.util.Vector;import java.util.concurrent.CopyOnWriteArrayList;public class T02_CopyOnWriteList {public static void main(String[] args) {List<String> lists = //new ArrayList<>(); //这个会出并发问题！//new Vector();new CopyOnWriteArrayList<>();Random r = new Random();Thread[] ths = new Thread[100];for(int i=0; i<ths.length; i++) {Runnable task = new Runnable() {@Overridepublic void run() {for(int i=0; i<1000; i++) lists.add("a" + r.nextInt(10000));} };ths[i] = new Thread(task);}runAndComputeTime(ths);System.out.println(lists.size());}static void runAndComputeTime(Thread[] ths) {long s1 = System.currentTimeMillis();Arrays.asList(ths).forEach(t->t.start());Arrays.asList(ths).forEach(t->{try {t.join();} catch (InterruptedException e) {e.printStackTrace();} });long s2 = System.currentTimeMillis();System.out.println(s2 - s1);} } 3、synchronizedList和ConcurrentLinkedQueue package com.mashibing.juc.c_025;import java.util.ArrayList;import java.util.Collections;import java.util.List;import java.util.Queue;import java.util.concurrent.ConcurrentLinkedQueue;public class T04_ConcurrentQueue {public static void main(String[] args) {List<String> strsList = new ArrayList<>();List<String> strsSync = Collections.synchronizedList(strsList);//加锁ListQueue<String> strs = new ConcurrentLinkedQueue<>();//Concurrent链表队列，就是读快for(int i=0; i<10; i++) {strs.offer("a" + i); //add添加，但是不同点是，此方法会返回一个布尔值}System.out.println(strs);System.out.println(strs.size());System.out.println(strs.poll());//取出，取完后将元素去除System.out.println(strs.size());System.out.println(strs.peek());//取出，但是不会将元素从队列删除System.out.println(strs.size());//双端队列Deque} } 4、LinkedBlockingQueue 链表阻塞队列（无界链表，可以一直装东西，直到内存满（其实，也不是无限，其长度Integer.MaxValue就是上限，毕竟最大就这么大））主要体现在put和take方法，put添加的时候，如果队列满了，就阻塞当前线程，直到队列有空位，继续插入。take方法取的时候，如果没有值，就阻塞，等有值了，立马去取 import java.util.Random;import java.util.concurrent.BlockingQueue;import java.util.concurrent.LinkedBlockingQueue;import java.util.concurrent.TimeUnit;public class T05_LinkedBlockingQueue {static BlockingQueue<String> strs = new LinkedBlockingQueue<>();static Random r = new Random();public static void main(String[] args) {new Thread(() -> {for (int i = 0; i < 100; i++) {try {strs.put("a" + i); //如果满了，当前线程就会等待（实现阻塞），等多会有空位，将值插入TimeUnit.MILLISECONDS.sleep(r.nextInt(1000));} catch (InterruptedException e) {e.printStackTrace();} }}, "p1").start();for (int i = 0; i < 5; i++) {new Thread(() -> {for (;;) {try {System.out.println(Thread.currentThread().getName() + " take -" + strs.take()); //取内容，如果空了，当前线程就会等待（实现阻塞）} catch (InterruptedException e) {e.printStackTrace();} }}, "c" + i).start();} }} 5、ArrayBlockingQueue 有界阻塞队列（因为Array需要指定长度） import java.util.Random;import java.util.concurrent.ArrayBlockingQueue;import java.util.concurrent.BlockingQueue;import java.util.concurrent.TimeUnit;public class T06_ArrayBlockingQueue {static BlockingQueue<String> strs = new ArrayBlockingQueue<>(10);static Random r = new Random();public static void main(String[] args) throws InterruptedException {for (int i = 0; i < 10; i++) {strs.put("a" + i);}//strs.put("aaa"); //满了就会等待，程序阻塞//strs.add("aaa");//strs.offer("aaa");strs.offer("aaa", 1, TimeUnit.SECONDS);System.out.println(strs);} } 6、特殊的阻塞队列1：DelayQueue 延时队列（按时间进行调度，就是隔多长时间运行，谁隔的少，谁先）以下例子中，我们添加线程到队列顺序为t12345，正常情况下，会按照顺序运行，但是这里有了延时时间，也就是时间越短，越先执行步骤很简单，拿到延时队列指定构造方法继承 implements Delayed 重写 compareTo和getDelay import java.util.Calendar;import java.util.Random;import java.util.concurrent.BlockingQueue;import java.util.concurrent.DelayQueue;import java.util.concurrent.Delayed;import java.util.concurrent.TimeUnit;public class T07_DelayQueue {static BlockingQueue<MyTask> tasks = new DelayQueue<>();static Random r = new Random();static class MyTask implements Delayed {String name;long runningTime;MyTask(String name, long rt) {this.name = name;this.runningTime = rt;}@Overridepublic int compareTo(Delayed o) {if(this.getDelay(TimeUnit.MILLISECONDS) < o.getDelay(TimeUnit.MILLISECONDS))return -1;else if(this.getDelay(TimeUnit.MILLISECONDS) > o.getDelay(TimeUnit.MILLISECONDS)) return 1;else return 0;}@Overridepublic long getDelay(TimeUnit unit) {return unit.convert(runningTime - System.currentTimeMillis(), TimeUnit.MILLISECONDS);}@Overridepublic String toString() {return name + " " + runningTime;} }public static void main(String[] args) throws InterruptedException {long now = System.currentTimeMillis();MyTask t1 = new MyTask("t1", now + 1000);MyTask t2 = new MyTask("t2", now + 2000);MyTask t3 = new MyTask("t3", now + 1500);MyTask t4 = new MyTask("t4", now + 2500);MyTask t5 = new MyTask("t5", now + 500);tasks.put(t1);tasks.put(t2);tasks.put(t3);tasks.put(t4);tasks.put(t5);System.out.println(tasks);for(int i=0; i<5; i++) {System.out.println(tasks.take());//获取的是toString方法返回值} }} 7、特殊的阻塞队列2：PriorityQueque 优先队列（二叉树算法，就是排序） import java.util.PriorityQueue;public class T07_01_PriorityQueque {public static void main(String[] args) {PriorityQueue<String> q = new PriorityQueue<>();q.add("c");q.add("e");q.add("a");q.add("d");q.add("z");for (int i = 0; i < 5; i++) {System.out.println(q.poll());} }} 8、特殊的阻塞队列3：SynchronusQueue 同步队列(线程池用处非常大) 此队列容量为0，当插入元素时，必须同时有个线程往外取就是说，当你往这个队列里面插入一个元素，它就拿着这个元素站着(阻塞)，直到有个取元素的线程来，它就把元素交给它就是用来同步数据的，也就是线程间交互数据用的一个特殊队列 package com.mashibing.juc.c_025;import java.util.concurrent.BlockingQueue;import java.util.concurrent.SynchronousQueue;public class T08_SynchronusQueue { //容量为0public static void main(String[] args) throws InterruptedException {BlockingQueue<String> strs = new SynchronousQueue<>();new Thread(()->{//这个线程就是消费者，来取值try {System.out.println(strs.take());//和同步队列要值} catch (InterruptedException e) {e.printStackTrace();} }).start();strs.put("aaa"); //阻塞等待消费者消费，就拿着aaa站着，等线程来取//strs.put("bbb");//strs.add("aaa");System.out.println(strs.size());} } 9、特殊的阻塞队列4：TransferQueue 传递队列此队列加入了一个方法transfer()用来向队列添加元素但是和put()方法不同的是，put添加完元素就走了而这个方法，添加完自己就阻塞了，直到有人将这个元素取走，它才继续工作(省去我们手动阻塞) import java.util.concurrent.LinkedTransferQueue;public class T09_TransferQueue {public static void main(String[] args) throws InterruptedException {LinkedTransferQueue<String> strs = new LinkedTransferQueue<>();new Thread(() -> {try {System.out.println(strs.take());} catch (InterruptedException e) {e.printStackTrace();} }).start();strs.transfer("aaa");//放东西到队列，同时阻塞等待消费者线程，取走元素//strs.put("aaa");//如果用put就和普通队列一样，放完东西就走了/new Thread(() -> {try {System.out.println(strs.take());} catch (InterruptedException e) {e.printStackTrace();} }).start();/} } 3、线程池线程池由于单独创建线程，十分影响效率，而且无法对线程集中管理，一旦疏落，可能线程无限执行，浪费资源线程池就是一个存储线程的游泳池，而每个线程就是池子里面的赛道池子里的线程不执行任何任务，只是提供一个资源而谁提交了任务，比如我想来游泳，那么池子就给你一个赛道，让你游泳比如它想练憋气，那么给它一个赛道练憋气当他们用完，走了，那么后面其它人再过来继续用这就是线程池，始终只有这几个线程，不做实现，而是借用这几个线程的用户，自己掌控用这些线程资源做什么（提交任务给线程,线程空闲就帮他们完成任务）线程池的两种类型（两类，不是两个） ThreadPoolExecutor（简称TPE） ForkJoinPool（分解汇总任务(将任务细化，最后汇总结果)，少量线程执行多个任务（子任务，TPE做不到先执行子任务），CPU密集型） Executors（注意这后面有s）它可以说是线程池工厂类，我们一般通过它创建线程池，并且它为我们封装了线程 1、常用类 Executor ExecutorService 扩展了execute方法，具有一个返回值规定了异步执行机制，提供了一些执行器方法，比如shutdown()关闭等但是它不知道执行器中的线程何时执行完 Callable 对Runnable进行了扩展,实现Callable的调用，可以有返回值，表示线程的状态但是无法返回线程执行结果 Future 获得未来线程执行结果由此，我们可以得知线程池基本的一个使用步骤其中service.submit（）:为异步提交，也就是说，主线程该干嘛干嘛，我是异步执行的，和同步不一样（当前线程执行完，主线程才能继续执行，叫同步） futuer.get():获取结果集结果，此时因为异步，主线程执行到这里，结果集可能还没封装好，所以此时如果没有值，就阻塞，直到结果集出来 public static void main(String[] args) throws ExecutionException, InterruptedException {Callable<String> c = new Callable() {@Overridepublic String call() throws Exception {return "Hello Callable";} };ExecutorService service = Executors.newCachedThreadPool();Future<String> future = service.submit(c); //异步System.out.println(future.get());//阻塞service.shutdown();} 2、FutureTask 可充当任务的结果集上面我们介绍Future是用来得到任务的执行结果的而FutureTask，可以当做一个任务用，并且返回任务的结果，也就是可以跑线程，然后还可以得到线程结果 public static void main(String[] args) throws InterruptedException, ExecutionException {FutureTask<Integer> task = new FutureTask<>(()->{TimeUnit.MILLISECONDS.sleep(500);return 1000;}); //new Callable () { Integer call();}new Thread(task).start();System.out.println(task.get()); //阻塞} 3、CompletableFuture 非常灵活的任务结果集一个非常灵活的结果集他可以将很多执行不同任务的线程的结果进行汇总比如一个网站，它可以启动多个线程去各大电商网站，比如淘宝，京东，收集某些或某一个商品的价格最后，将获取的数据进行整合封装最终，客户就可以通过此网站，获取某类商品在各网站的价格信息 / 假设你能够提供一个服务这个服务查询各大电商网站同一类产品的价格并汇总展示 @author 马士兵 http://mashibing.com/import java.io.IOException;import java.util.Random;import java.util.concurrent.CompletableFuture;import java.util.concurrent.ExecutionException;import java.util.concurrent.TimeUnit;public class T06_01_CompletableFuture {public static void main(String[] args) throws ExecutionException, InterruptedException {long start, end;/start = System.currentTimeMillis();priceOfTM();priceOfTB();priceOfJD();end = System.currentTimeMillis();System.out.println("use serial method call! " + (end - start));/start = System.currentTimeMillis();CompletableFuture<Double> futureTM = CompletableFuture.supplyAsync(()->priceOfTM());CompletableFuture<Double> futureTB = CompletableFuture.supplyAsync(()->priceOfTB());CompletableFuture<Double> futureJD = CompletableFuture.supplyAsync(()->priceOfJD());CompletableFuture.allOf(futureTM, futureTB, futureJD).join();//当所有结果集都获取到，才汇总阻塞CompletableFuture.supplyAsync(()->priceOfTM()).thenApply(String::valueOf).thenApply(str-> "price " + str).thenAccept(System.out::println);end = System.currentTimeMillis();System.out.println("use completable future! " + (end - start));try {System.in.read();} catch (IOException e) {e.printStackTrace();} }private static double priceOfTM() {delay();return 1.00;}private static double priceOfTB() {delay();return 2.00;}private static double priceOfJD() {delay();return 3.00;}/private static double priceOfAmazon() {delay();throw new RuntimeException("product not exist!");}/private static void delay() {int time = new Random().nextInt(500);try {TimeUnit.MILLISECONDS.sleep(time);} catch (InterruptedException e) {e.printStackTrace();}System.out.printf("After %s sleep!\n", time);} } 4、TPE型线程池1：ThreadPoolExecutor 原理及其参数线程池由两个集合组成，一个集合存储线程，一个集合存储任务存储线程：可以规定大小，最多可以有多少个，以及指定核心线程数量（不会被回收）任务队列：存储任务细节：初始线程池没有线程，当有一个任务来，线程池起一个线程，又有一个任务来，再起一个线程，直到达到核心线程数量核心线程数量达到时，新来的任务将存储到任务队列中等待核心线程处理完成，直到任务队列也满了当任务队列满了，此时再次启动一个线程（非核心线程，一旦空闲，达到指定时间将会消失），直到达到线程最大数量当线程容器和任务容器都满了，又来了线程，将会执行拒绝策略上面的细节涉及的所有步骤内容，均由创建线程池的参数执行下面是ThreadPoolExecutor构造方法参数的源码注释 / 用给定的初始值，创建一个新的线程池 @param corePoolSize 核心线程数量 @param maximumPoolSize 最大线程数量 @param keepAliveTime 当线程数大于核心线程数量时，空闲的线程可生存的时间 @param unit 时间单位 @param workQueue 任务队列，只能包含由execute提交的Runnable任务 @param threadFactory 工厂，用于创建线程给线程池调度的工厂，可以自定义 @param handler 拒绝策略(可以自定义，JDK默认提供4种)，当线程边界和队列容量已经满了，新来线程被阻塞时使用的处理程序/public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler) JDK提供的4种拒绝策略，不常用，一般都是自己定义拒绝策略 Abort：抛异常 Discard：扔掉，不抛异常 DiscardOldest：扔掉排队时间最久的（将队列中排队时间最久的扔掉，然后让新来的进来） CallerRuns：调用者处理任务（谁通过execute方法提交任务，谁处理） ThreadPoolExecutor继承关系继承关系：ThreadPoolExecutor->AbstractExectorService类->ExectorService接口->Exector接口 Executors（注意这后面有s）它可以说是线程池工厂类，我们一般通过它创建线程池，并且它为我们封装了线程看看下面创建线程池，哪里用到了它使用实例 import java.io.IOException;import java.util.concurrent.;public class T05_00_HelloThreadPool {static class Task implements Runnable {private int i;public Task(int i) {this.i = i;}@Overridepublic void run() {System.out.println(Thread.currentThread().getName() + " Task " + i);try {System.in.read();} catch (IOException e) {e.printStackTrace();} }@Overridepublic String toString() {return "Task{" +"i=" + i +'}';} }public static void main(String[] args) {ThreadPoolExecutor tpe = new ThreadPoolExecutor(2, 4,60, TimeUnit.SECONDS,new ArrayBlockingQueue<Runnable>(4),Executors.defaultThreadFactory(),new ThreadPoolExecutor.CallerRunsPolicy());//创建线程池，核心2个，最大4个，空闲线程存活时间60s，任务队列容量4，使用默认线程工程，创建线程。拒绝策略是JDK提供的for (int i = 0; i < 8; i++) {tpe.execute(new Task(i));//供提交8次任务}System.out.println(tpe.getQueue());//查看任务队列tpe.execute(new Task(100));//提交新的任务System.out.println(tpe.getQueue());tpe.shutdown();//关闭线程池} } 5、TPE型线程池2：SingleThreadPool 单例线程池(只有一个线程) 为什么有单例线程池有任务队列，有线程池管理机制 Executors（注意这后面有s）它可以说是线程池工厂类，我们一般通过它创建线程池，并且它为我们封装了线程看看下面哪里用到了它 /创建单例线程池，扔5个任务进去，查看输出结果，看看有几个线程执行任务/import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class T07_SingleThreadPool {public static void main(String[] args) {ExecutorService service = Executors.newSingleThreadExecutor();for(int i=0; i<5; i++) {final int j = i;service.execute(()->{System.out.println(j + " " + Thread.currentThread().getName());});} }} 6、TPE型线程池3：CachedPool 缓存，存储线程池此线程池没有核心线程，来一个任务启动一个线程（最多Integer.MaxValue，不会放在任务队列，因为任务队列容量为0），每个线程空闲后，只能活60s 实例 import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;public class T07_SingleThreadPool {public static void main(String[] args) {ExecutorService service = Executors.newSingleThreadExecutor();//通过Executors获取池子for(int i=0; i<5; i++) {final int j = i;service.execute(()->{//提交任务System.out.println(j + " " + Thread.currentThread().getName());});}service.shutdown();} } 7、TPE型线程池4：FixedThreadPool 固定线程池此线次池，用于创建一个固定线程数量的线程池，不会回收实例 import java.util.ArrayList;import java.util.List;import java.util.concurrent.Callable;import java.util.concurrent.ExecutionException;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.Future;public class T09_FixedThreadPool {public static void main(String[] args) throws InterruptedException, ExecutionException {//并发执行long start = System.currentTimeMillis();getPrime(1, 200000); long end = System.currentTimeMillis();System.out.println(end - start);//输出并发执行耗费时间final int cpuCoreNum = 4;//并行执行ExecutorService service = Executors.newFixedThreadPool(cpuCoreNum);MyTask t1 = new MyTask(1, 80000); //1-5 5-10 10-15 15-20MyTask t2 = new MyTask(80001, 130000);MyTask t3 = new MyTask(130001, 170000);MyTask t4 = new MyTask(170001, 200000);Future<List<Integer>> f1 = service.submit(t1);Future<List<Integer>> f2 = service.submit(t2);Future<List<Integer>> f3 = service.submit(t3);Future<List<Integer>> f4 = service.submit(t4);start = System.currentTimeMillis();f1.get();f2.get();f3.get();f4.get();end = System.currentTimeMillis();System.out.println(end - start);//输出并行耗费时间}static class MyTask implements Callable<List<Integer>> {int startPos, endPos;MyTask(int s, int e) {this.startPos = s;this.endPos = e;}@Overridepublic List<Integer> call() throws Exception {List<Integer> r = getPrime(startPos, endPos);return r;} }static boolean isPrime(int num) {for(int i=2; i<=num/2; i++) {if(num % i == 0) return false;}return true;}static List<Integer> getPrime(int start, int end) {List<Integer> results = new ArrayList<>();for(int i=start; i<=end; i++) {if(isPrime(i)) results.add(i);}return results;} } 8、TPE型线程池5：ScheduledPool 预定，延时线程池根据延时时间（隔多长时间后运行），排序，哪个线程先执行,用户只需要指定核心线程数量此线程池返回的池对象，和提交任务方法都不一样，比较涉及到时间 import java.util.Random;import java.util.concurrent.Executors;import java.util.concurrent.ScheduledExecutorService;import java.util.concurrent.TimeUnit;public class T10_ScheduledPool {public static void main(String[] args) {ScheduledExecutorService service = Executors.newScheduledThreadPool(4);service.scheduleAtFixedRate(()->{//提交延时任务try {TimeUnit.MILLISECONDS.sleep(new Random().nextInt(1000));} catch (InterruptedException e) {e.printStackTrace();}System.out.println(Thread.currentThread().getName());}, 0, 500, TimeUnit.MILLISECONDS);//指定延时时间和单位，第一个任务延时0毫秒，之后的任务，延时500毫秒} } 9、手写拒绝策略小例子 import java.util.concurrent.;public class T14_MyRejectedHandler {public static void main(String[] args) {ExecutorService service = new ThreadPoolExecutor(4, 4,0, TimeUnit.SECONDS, new ArrayBlockingQueue<>(6),Executors.defaultThreadFactory(),new MyHandler());//将手写拒绝策略传入}static class MyHandler implements RejectedExecutionHandler {//1、继承RejectedExecutionHandler@Overridepublic void rejectedExecution(Runnable r, ThreadPoolExecutor executor) {//2、重写方法//log("r rejected")//伪代码，表示通过log4j.log()报一下日志，拒绝的时间，线程名//save r kafka mysql redis//可以尝试保存队列//try 3 times //可以尝试几次，比如3次，重新去抢队列，3次还不行就丢弃if(executor.getQueue().size() < 10000) {//尝试条件，如果size>10000了,就执行拒绝策略//try put again();//如果小于10000，尝试将其放到队列中} }} } 10、ForkJoinPool线程池1：ForkJoinPool 前面我们讲过线程分为两大类，TPE和FJP ForkJoinPool（分解汇总任务(将任务细化，最后汇总结果)，少量线程执行多个任务（子任务，TPE做不到先执行子任务），CPU密集型）适合将大任务切分成多个小任务运行两个方法，fork()：分子任务，将子任务分配到线程池中 join()：当前任务的计算结果，如果有子任务，等子任务结果返回后再汇总下面实例实现，一百万个随机数求和，由两种方法实现，一种ForkJoinPool分任务并行，一种使用单线程做 import java.io.IOException;import java.util.Arrays;import java.util.Random;import java.util.concurrent.ForkJoinPool;import java.util.concurrent.RecursiveAction;import java.util.concurrent.RecursiveTask;public class T12_ForkJoinPool {//1000000个随机数求和static int[] nums = new int[1000000];//一堆数static final int MAX_NUM = 50000;//分任务时，每个任务的操作量不能多于50000个，否则就继续细分static Random r = new Random();//使用随机数将数组初始化static {for(int i=0; i<nums.length; i++) {nums[i] = r.nextInt(100);}System.out.println("---" + Arrays.stream(nums).sum()); //stream api 单线程就这么做，一个一个加}//分任务，需要继承，可以继承RecursiveAction(不需要返回值，一般用在不需要返回值的场景)或//RecursiveTask(需要返回值，我们用这个，因为我们需要最后获取求和结果)两个更好实现的类，//他俩继承与ForkJoinTaskstatic class AddTaskRet extends RecursiveTask<Long> {private static final long serialVersionUID = 1L;int start, end;AddTaskRet(int s, int e) {start = s;end = e;}@Overrideprotected Long compute() {if(end-start <= MAX_NUM) {//如果任务操作数小于规定的最大操作数，就进行运算，long sum = 0L;for(int i=start; i<end; i++) sum += nums[i];return sum;//返回结果} //如果分配的操作数大于规定，就继续细分（简单的重中点分，两半）int middle = start + (end-start)/2;//获取中间值AddTaskRet subTask1 = new AddTaskRet(start, middle);//传入起始值和中间值，表示一个子任务AddTaskRet subTask2 = new AddTaskRet(middle, end);//中间值和结尾值，表示一个子任务subTask1.fork();//分任务subTask2.fork();//分任务return subTask1.join() + subTask2.join();//最后返回结果汇总} }public static void main(String[] args) throws IOException {/ForkJoinPool fjp = new ForkJoinPool();AddTask task = new AddTask(0, nums.length);fjp.execute(task);/ForkJoinPool fjp = new ForkJoinPool();//创建线程池AddTaskRet task = new AddTaskRet(0, nums.length);//创建任务fjp.execute(task);//传入任务long result = task.join();//返回汇总结果System.out.println(result);//System.in.read();} } 11、ForkJoinPool线程池2：WorkStealingPool 任务偷取线程池原来的线程池，都是有一个任务队列，而这个不同，它给每个线程都分配了一个任务队列当某一个线程的任务队列没有任务，并且自己空闲，它就去其它线程的任务队列中偷任务，所以叫任务偷取线程池细节：当线程自己从自己的任务队列拿任务时，不需要加锁，但是偷任务时，因为有两个线程，可能发生同步问题，需要加锁此线程继承FJP 实例 import java.io.IOException;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.TimeUnit;public class T11_WorkStealingPool {public static void main(String[] args) throws IOException {ExecutorService service = Executors.newWorkStealingPool();System.out.println(Runtime.getRuntime().availableProcessors());service.execute(new R(1000));service.execute(new R(2000));service.execute(new R(2000));service.execute(new R(2000)); //daemonservice.execute(new R(2000));//由于产生的是精灵线程（守护线程、后台线程），主线程不阻塞的话，看不到输出System.in.read(); }static class R implements Runnable {int time;R(int t) {this.time = t;}@Overridepublic void run() {try {TimeUnit.MILLISECONDS.sleep(time);} catch (InterruptedException e) {e.printStackTrace();}System.out.println(time + " " + Thread.currentThread().getName());} }} 12、流式API：ParallelStreamAPI 不懂的请参考：https://blog.csdn.net/grd_java/article/details/110265219 实例 import java.util.ArrayList;import java.util.List;import java.util.Random;public class T13_ParallelStreamAPI {public static void main(String[] args) {List<Integer> nums = new ArrayList<>();Random r = new Random();for(int i=0; i<10000; i++) nums.add(1000000 + r.nextInt(1000000));//System.out.println(nums);long start = System.currentTimeMillis();nums.forEach(v->isPrime(v));long end = System.currentTimeMillis();System.out.println(end - start);//使用parallel stream apistart = System.currentTimeMillis();nums.parallelStream().forEach(T13_ParallelStreamAPI::isPrime);//并行流，将任务切分成子任务执行end = System.currentTimeMillis();System.out.println(end - start);}static boolean isPrime(int num) {for(int i=2; i<=num/2; i++) {if(num % i == 0) return false;}return true;} } 13、总结总结 Callable相当于一Runnable但是它有返回值 Future：存储执行完产生的结果 FutureTask 相当于Future+Runnable，既可以执行任务，又能获取任务执行的Future结果 CompletableFuture 可以多任务异步，并对多任务控制，整合任务结果，细化完美，比如可以一个任务完成就可以整合结果，也可以所有任务完成才整合结果 4、ThreadPoolExecutor源码解析依然只讲重点，实际还需要大家按照上篇博客中看源码的方式来看 1、常用变量的解释 // 1. ctl，可以看做一个int类型的数字，高3位表示线程池状态，低29位表示worker数量private final AtomicInteger ctl = new AtomicInteger(ctlOf(RUNNING, 0));// 2. COUNT_BITS，Integer.SIZE为32，所以COUNT_BITS为29private static final int COUNT_BITS = Integer.SIZE - 3;// 3. CAPACITY，线程池允许的最大线程数。1左移29位，然后减1，即为 2^29 - 1private static final int CAPACITY = (1 << COUNT_BITS) - 1;// runState is stored in the high-order bits// 4. 线程池有5种状态，按大小排序如下：RUNNING < SHUTDOWN < STOP < TIDYING < TERMINATEDprivate static final int RUNNING = -1 << COUNT_BITS;private static final int SHUTDOWN = 0 << COUNT_BITS;private static final int STOP = 1 << COUNT_BITS;private static final int TIDYING = 2 << COUNT_BITS;private static final int TERMINATED = 3 << COUNT_BITS;// Packing and unpacking ctl// 5. runStateOf()，获取线程池状态，通过按位与操作，低29位将全部变成0private static int runStateOf(int c) { return c & ~CAPACITY; }// 6. workerCountOf()，获取线程池worker数量，通过按位与操作，高3位将全部变成0private static int workerCountOf(int c) { return c & CAPACITY; }// 7. ctlOf()，根据线程池状态和线程池worker数量，生成ctl值private static int ctlOf(int rs, int wc) { return rs | wc; }/ Bit field accessors that don't require unpacking ctl. These depend on the bit layout and on workerCount being never negative./// 8. runStateLessThan()，线程池状态小于xxprivate static boolean runStateLessThan(int c, int s) {return c < s;}// 9. runStateAtLeast()，线程池状态大于等于xxprivate static boolean runStateAtLeast(int c, int s) {return c >= s;} 2、构造方法 public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler) {// 基本类型参数校验if (corePoolSize < 0 ||maximumPoolSize <= 0 ||maximumPoolSize < corePoolSize ||keepAliveTime < 0)throw new IllegalArgumentException();// 空指针校验if (workQueue == null || threadFactory == null || handler == null)throw new NullPointerException();this.corePoolSize = corePoolSize;this.maximumPoolSize = maximumPoolSize;this.workQueue = workQueue;// 根据传入参数unit和keepAliveTime，将存活时间转换为纳秒存到变量keepAliveTime 中this.keepAliveTime = unit.toNanos(keepAliveTime);this.threadFactory = threadFactory;this.handler = handler;} 3、提交执行task的过程 public void execute(Runnable command) {if (command == null)throw new NullPointerException();/ Proceed in 3 steps: 1. If fewer than corePoolSize threads are running, try to start a new thread with the given command as its first task. The call to addWorker atomically checks runState and workerCount, and so prevents false alarms that would add threads when it shouldn't, by returning false. 2. If a task can be successfully queued, then we still need to double-check whether we should have added a thread (because existing ones died since last checking) or that the pool shut down since entry into this method. So we recheck state and if necessary roll back the enqueuing if stopped, or start a new thread if there are none. 3. If we cannot queue task, then we try to add a new thread. If it fails, we know we are shut down or saturated and so reject the task./int c = ctl.get();// worker数量比核心线程数小，直接创建worker执行任务if (workerCountOf(c) < corePoolSize) {if (addWorker(command, true))return;c = ctl.get();}// worker数量超过核心线程数，任务直接进入队列if (isRunning(c) && workQueue.offer(command)) {int recheck = ctl.get();// 线程池状态不是RUNNING状态，说明执行过shutdown命令，需要对新加入的任务执行reject()操作。// 这儿为什么需要recheck，是因为任务入队列前后，线程池的状态可能会发生变化。if (! isRunning(recheck) && remove(command))reject(command);// 这儿为什么需要判断0值，主要是在线程池构造方法中，核心线程数允许为0else if (workerCountOf(recheck) == 0)addWorker(null, false);}// 如果线程池不是运行状态，或者任务进入队列失败，则尝试创建worker执行任务。// 这儿有3点需要注意：// 1. 线程池不是运行状态时，addWorker内部会判断线程池状态// 2. addWorker第2个参数表示是否创建核心线程// 3. addWorker返回false，则说明任务执行失败，需要执行reject操作else if (!addWorker(command, false))reject(command);} 4、addworker源码解析 private boolean addWorker(Runnable firstTask, boolean core) {retry:// 外层自旋for (;;) {int c = ctl.get();int rs = runStateOf(c);// 这个条件写得比较难懂，我对其进行了调整，和下面的条件等价// (rs > SHUTDOWN) || // (rs == SHUTDOWN && firstTask != null) || // (rs == SHUTDOWN && workQueue.isEmpty())// 1. 线程池状态大于SHUTDOWN时，直接返回false// 2. 线程池状态等于SHUTDOWN，且firstTask不为null，直接返回false// 3. 线程池状态等于SHUTDOWN，且队列为空，直接返回false// Check if queue empty only if necessary.if (rs >= SHUTDOWN &&! (rs == SHUTDOWN &&firstTask == null &&! workQueue.isEmpty()))return false;// 内层自旋for (;;) {int wc = workerCountOf(c);// worker数量超过容量，直接返回falseif (wc >= CAPACITY ||wc >= (core ? corePoolSize : maximumPoolSize))return false;// 使用CAS的方式增加worker数量。// 若增加成功，则直接跳出外层循环进入到第二部分if (compareAndIncrementWorkerCount(c))break retry;c = ctl.get(); // Re-read ctl// 线程池状态发生变化，对外层循环进行自旋if (runStateOf(c) != rs)continue retry;// 其他情况，直接内层循环进行自旋即可// else CAS failed due to workerCount change; retry inner loop} }boolean workerStarted = false;boolean workerAdded = false;Worker w = null;try {w = new Worker(firstTask);final Thread t = w.thread;if (t != null) {final ReentrantLock mainLock = this.mainLock;// worker的添加必须是串行的，因此需要加锁mainLock.lock();try {// Recheck while holding lock.// Back out on ThreadFactory failure or if// shut down before lock acquired.// 这儿需要重新检查线程池状态int rs = runStateOf(ctl.get());if (rs < SHUTDOWN ||(rs == SHUTDOWN && firstTask == null)) {// worker已经调用过了start()方法，则不再创建workerif (t.isAlive()) // precheck that t is startablethrow new IllegalThreadStateException();// worker创建并添加到workers成功workers.add(w);// 更新largestPoolSize变量int s = workers.size();if (s > largestPoolSize)largestPoolSize = s;workerAdded = true;} } finally {mainLock.unlock();}// 启动worker线程if (workerAdded) {t.start();workerStarted = true;} }} finally {// worker线程启动失败，说明线程池状态发生了变化（关闭操作被执行），需要进行shutdown相关操作if (! workerStarted)addWorkerFailed(w);}return workerStarted;} 5、线程池worker任务单元 private final class Workerextends AbstractQueuedSynchronizerimplements Runnable{/ This class will never be serialized, but we provide a serialVersionUID to suppress a javac warning./private static final long serialVersionUID = 6138294804551838833L;/ Thread this worker is running in. Null if factory fails. /final Thread thread;/ Initial task to run. Possibly null. /Runnable firstTask;/ Per-thread task counter /volatile long completedTasks;/ Creates with given first task and thread from ThreadFactory. @param firstTask the first task (null if none)/Worker(Runnable firstTask) {setState(-1); // inhibit interrupts until runWorkerthis.firstTask = firstTask;// 这儿是Worker的关键所在，使用了线程工厂创建了一个线程。传入的参数为当前workerthis.thread = getThreadFactory().newThread(this);}/ Delegates main run loop to outer runWorker /public void run() {runWorker(this);}// 省略代码...} 6、核心线程执行逻辑-runworker final void runWorker(Worker w) {Thread wt = Thread.currentThread();Runnable task = w.firstTask;w.firstTask = null;// 调用unlock()是为了让外部可以中断w.unlock(); // allow interrupts// 这个变量用于判断是否进入过自旋（while循环）boolean completedAbruptly = true;try {// 这儿是自旋// 1. 如果firstTask不为null，则执行firstTask；// 2. 如果firstTask为null，则调用getTask()从队列获取任务。// 3. 阻塞队列的特性就是：当队列为空时，当前线程会被阻塞等待while (task != null || (task = getTask()) != null) {// 这儿对worker进行加锁，是为了达到下面的目的// 1. 降低锁范围，提升性能// 2. 保证每个worker执行的任务是串行的w.lock();// If pool is stopping, ensure thread is interrupted;// if not, ensure thread is not interrupted. This// requires a recheck in second case to deal with// shutdownNow race while clearing interrupt// 如果线程池正在停止，则对当前线程进行中断操作if ((runStateAtLeast(ctl.get(), STOP) ||(Thread.interrupted() &&runStateAtLeast(ctl.get(), STOP))) &&!wt.isInterrupted())wt.interrupt();// 执行任务，且在执行前后通过beforeExecute()和afterExecute()来扩展其功能。// 这两个方法在当前类里面为空实现。try {beforeExecute(wt, task);Throwable thrown = null;try {task.run();} catch (RuntimeException x) {thrown = x; throw x;} catch (Error x) {thrown = x; throw x;} catch (Throwable x) {thrown = x; throw new Error(x);} finally {afterExecute(task, thrown);} } finally {// 帮助gctask = null;// 已完成任务数加一 w.completedTasks++;w.unlock();} }completedAbruptly = false;} finally {// 自旋操作被退出，说明线程池正在结束processWorkerExit(w, completedAbruptly);} } 本篇文章为转载内容。原文链接：https://blog.csdn.net/grd_java/article/details/113116244。该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

2023-07-21 16:19:45

327

转载

建站模板下载

黄色汽车配件类企业自适应前端模板下载

...O优化特性，有利于搜索引擎收录和提升网站排名。只需简单替换图片与产品内容，即可快速搭建专业且高颜值的汽车配件类网站，满足各类汽车配件企业的线上展示及营销需求。点我下载文件大小：12.29 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-01-04 08:49:30

252

本站

建站模板下载

响应式SEO搜索引擎优化服务公司网站html模板

... 该“响应式SEO搜索引擎优化服务公司网站html模板”是一款基于HTML5技术打造的自适应企业模板，专注于网站建设与推广。此模板具备优秀的搜索引擎友好性，能有效提升网站在各大引擎中的索引与排名表现。它融合了互联网科技的前沿理念，实现了一站式适应不同设备浏览的需求，是专为SEO服务公司量身定制的高品质、专业级网页设计解决方案。点我下载文件大小：4.37 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2024-01-24 12:10:44

282

本站

建站模板下载

宽屏的SEO营销公司模板下载

...，有利于提升网站在搜索引擎中的排名与曝光度，适合各类企业进行官方网站建设。用户可以便捷下载并快速搭建，具有高度定制性，满足不同企业的个性化需求。同时，它整合了多种实用功能模块，是打造专业且富有营销力的企业网站的理想选择。点我下载文件大小：719.53 KB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-12-26 19:24:04

本站

建站模板下载

自适应在线教育培训类网站前端企业模板下载

...顾SEO优化，利于搜索引擎收录，提升网站排名。模板通用性强，覆盖企业介绍、在线课程展示、培训资讯发布等多元化需求，是打造专业且易用的在线教育平台的理想选择。点我下载文件大小：13.72 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-02-12 10:08:28

127

本站

建站模板下载

渐变紫色SEO软件营销官网HTML5网站模板

...求，是搭建专业且高搜索引擎友好的软件官网的理想选择。点我下载文件大小：2.07 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-04-08 14:37:16

本站

建站模板下载

中文博客符合SEO响应式多页面HTML5模板

...SEO属性，有利于搜索引擎收录与排名提升，是打造专业、高流量中文博客的理想选择。点我下载文件大小：1.10 MB 您将下载一个资源包，该资源包内部文件的目录结构如下：本网站提供模板下载功能，旨在帮助广大用户在工作学习中提升效率、节约时间。本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容，请立即告知我们，我们将迅速响应并删除相关内容。免责声明：站内所有资源仅供个人学习研究及参考之用，严禁将这些资源应用于商业场景。若擅自商用导致的一切后果，由使用者承担责任。

2023-07-18 08:37:00

124

本站

知识学习

实践的时候请根据实际情况谨慎操作。

随机学习一条linux命令：

tail -n 10 file.txt - 显示文件结尾的10行内容。