前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[集合]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
Cassandra
... (3)限制行大小与集合使用 尽管Cassandra支持集合类型,但对于时间序列数据,应避免在一个集合内存放大量数据,以免读取性能受到影响。由于集合不会分页,如果需要存储连续的时序数据点,最好让每一行只包含单个数据点。 (4)宽行与稀疏索引 采用“宽行”策略,即每行代表一段时间窗口内的多个数据点属性,而不是每条数据一个行。这有助于减少跨分区查询,提高查询效率。同时呢,对于那些跟时间没关系的筛选条件,我们可以琢磨着用一下稀疏索引。不过得注意啦,这里有个“度”的把握,就是索引虽然能让查询速度嗖嗖提升,但同时也会让写入数据时的开销变大。所以嘞,咱们得在这两者之间找个最佳平衡点。 3. 示例设计 物联网传感器数据存储 假设我们有一个物联网项目,需要存储来自不同传感器的实时测量值: cql CREATE TABLE sensor_readings ( sensor_id uuid, reading_time timestamp, temperature float, humidity int, pressure double, PRIMARY KEY ((sensor_id, reading_time)) ) WITH CLUSTERING ORDER BY (reading_time DESC); 这个表结构中,sensor_id和reading_time共同组成复合分区键,每个传感器在某一时刻的温度、湿度和压力读数都存放在一行里。 4. 总结与思考 设计Cassandra时间序列数据表的关键在于理解数据访问模式并结合Cassandra的特性和局限性。选对分区键这招儿,就像给海量数据找个宽敞的储藏室,让它们能分散开来存放和快速找到;而把列簇整得井井有条,那就相当于帮我们轻松摸到最新鲜的数据,一抓一个准儿。再配上精心设计的宽行结构,加上恰到好处的索引策略,甭管查询需求怎么变花样,都能妥妥地满足你。 当然,具体实践时还需要根据业务的具体情况进行调整和优化,例如预测未来的数据增长规模、评估查询性能瓶颈以及是否需要进一步的数据压缩等措施。总的来说,用Cassandra搭建时间序列数据模型不是个一劳永逸的事儿,它更像是一个持久的观察、深度思考和反复调整优化的过程。只有这样,我们才能真正把Cassandra处理海量时序数据的洪荒之力给释放出来。
2023-12-04 23:59:13
769
百转千回
Linux
...B实例的bson文件集合,便于迁移、归档或者恢复数据。 MongoDB Atlas , MongoDB Atlas 是MongoDB官方提供的完全托管型云数据库服务,用户无需关注底层基础设施管理,即可享受到自动化的集群部署、监控、备份与恢复等高级功能。在文中提到,MongoDB Atlas内置了自动备份功能,允许用户自定义备份策略,系统会按照设定的时间周期自动完成数据库的备份任务,极大地简化了数据库管理和维护工作。
2023-06-14 17:58:12
452
寂静森林_
SpringBoot
...入了Temporal集合(时间序列数据)和Server-side Field Level Encryption(服务器端字段级加密)等功能,这些新特性使得MongoDB在处理实时数据流、保障敏感信息安全性等方面表现出更强的竞争力。对于正在使用SpringBoot集成MongoDB的开发者来说,关注并适时应用这些新特性,可以有效提升系统的性能与安全性。 同时,社区中关于SpringBoot+MongoDB的实战教程和经验分享层出不穷,比如有专家结合微服务架构模式,探讨如何利用Spring Cloud Data Flow构建基于MongoDB的数据管道,实现数据的实时处理与分析。因此,持续跟踪行业动态、参与社区讨论,结合实际业务需求探索SpringBoot与MongoDB的深度整合方案,是每一个追求技术创新的开发者应当关注的方向。
2023-04-09 13:34:32
76
岁月如歌-t
MemCache
...构(如字符串、列表、集合、哈希表等),并且内置了RDB(快照)和AOF(日志追加)两种持久化机制,能够在一定程度上保证数据在服务器重启后的完整性,从而有效应对类似Memcached数据丢失的问题。 一致性哈希 , 一致性哈希是一种特殊的哈希算法,在分布式缓存系统中广泛应用于解决节点添加、删除时的数据迁移问题,以实现更均匀的数据分布和最小的数据重定位。在文章提到的架构优化部分,使用一致性哈希可以确保当向Memcached集群中添加或移除节点时,各个节点负责缓存的数据范围能保持相对稳定,从而达到负载均衡的目的,同时也能为数据提供一定的冗余备份,降低单点故障造成的数据丢失风险。
2023-05-22 18:41:39
83
月影清风
Redis
...符串、哈希表、列表、集合、有序集合等),并提供了丰富的命令来实现数据的读写操作。因其所有操作都是在内存中完成,Redis具有非常高的性能和低延迟特性,广泛应用于缓存、会话存储、实时分析等多个场景,并通过持久化机制确保了即使在服务器重启后也能恢复数据。 分布式锁 , 分布式锁是一种在分布式系统环境下用于同步多节点间并发访问共享资源的技术手段。它通过在多个独立运行的服务器或服务实例之间协调,确保在同一时间仅有一个节点能够获得对特定资源的独占访问权,从而避免了因并发访问导致的数据不一致问题。 RedLock算法 , RedLock算法是由Redis作者Salvatore Sanfilippo提出的一种增强型分布式锁实现方案。该算法要求在至少半数以上的独立Redis实例上同时获取锁,并且每个实例上的锁都有一个较短的有效期,以此提高分布式锁的安全性和容错性。即便某个Redis实例出现故障,只要多数实例正常工作,仍然可以保证分布式锁的安全有效,从而降低了死锁和锁失效的风险。 SETNX命令 , SETNX是Redis的一个原语命令(set if not exists),在Redis中执行原子操作。当键不存在时,SETNX命令将设置键值对,并返回1表示设置成功;若键已存在,则不会修改键的值并返回0。在实现分布式锁时,SETNX命令常被用来尝试获取锁,只有首次请求的客户端才能成功设置键值对,从而实现互斥锁的功能。
2023-10-15 17:22:05
315
百转千回_t
转载文章
...),并在回溯时用并查集合并\(x\)和\(y\). 遍历与当前结点有查询关系的结点\(z\),如果\(z\)已被访问,则它们的LCA就为\(find(z)\). 需要同志们注意的是,存查询关系的时候是要双向存储的. 该算法的时间复杂度为\(O(n+m)\) Tarjan版的LCA很少用到,但为了方便理解,这里引用了参考文献2里的代码,望原博主不要介意. 代码: include<bits/stdc++.h>using namespace std;int n,k,q,v[100000];map<pair<int,int>,int> ans;//存答案int t[100000][10],top[100000];//存储查询关系struct node{int l,r;};node s[100000];/并查集/int fa[100000];void reset(){for (int i=1;i<=n;i++){fa[i]=i;} }int getfa(int x){return fa[x]==x?x:getfa(fa[x]);}void marge(int x,int y){fa[getfa(y)]=getfa(x);}/------/void tarjan(int x){v[x]=1;//标记已访问node p=s[x];//获取当前结点结构体if (p.l!=-1){tarjan(p.l);marge(x,p.l);}if (p.r!=-1){tarjan(p.r);marge(x,p.r);}//分别对l和r结点进行操作for (int i=1;i<=top[x];i++){if (v[t[x][i]]){cout<<getfa(t[x][i])<<endl;}//输出} }int main(){cin>>n>>q;for (int i=1;i<=n;i++){cin>>s[i].l>>s[i].r;}for (int i=1;i<=q;i++){int a,b;cin>>a>>b;t[a][++top[a]]=b;//存储查询关系t[b][++top[b]]=a;}reset();//初始化并查集tarjan(1);//tarjan 求 LCA} 参考文献 参考文献1 参考文献2 参考文献3 转载于:https://www.cnblogs.com/Lemir3/p/11112663.html 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_30736301/article/details/96105162。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-02-09 23:03:55
154
转载
ActiveMQ
...发送接收等操作的线程集合,通过监控和分析其活跃线程数、阻塞任务数等状态,有助于发现和解决由线程调度问题导致的性能瓶颈。
2023-03-30 22:36:37
601
春暖花开
转载文章
...Tuple与List集合类似,但是不同的是,List集合只能存储一种数据类型,而Tuple可存储多种数据类型。 可能你会说,Object类型的List实际也是可以存储多种类型的啊?但是在创建List的时候,需要指定元素数据类型,也就是只能指定为Object类型,获取的元素类型就是Object,如有需要则要进行强转。而Tuple在创建的时候,则可以直接指定多个元素数据类型。 Tuple具体是怎么的数据结构呢? 元组(tuple)是关系数据库中的基本概念,关系是一张表,表中的每行(即数据库中的每条记录)就是一个元组,每列就是一个属性。 在二维表里,元组也称为行。 以上是百度百科中的"元组"概念,我们将一个元组理解为数据表中的一行,而一行中每个字段的类型是可以不同的。这样我们就可以简单理解Java中的Tuple数据结构了。 2. 使用 2.1 依赖Jar包 Maven坐标如下: <dependency><groupId>org.javatuples</groupId><artifactId>javatuples</artifactId><version>1.2</version></dependency> 引入相关依赖后,可以看出jar包中的结构很简单,其中的类主要是tuple基础类、扩展的一元组、二元组…十元组,以及键值对元组;接口的作用是提供【获取创建各元组时传入参数值】的方法。 2.2 基本使用 2.2.1 直接调用 以下以三元组为例,部分源码如下: package org.javatuples;import java.util.Collection;import java.util.Iterator;import org.javatuples.valueintf.IValue0;import org.javatuples.valueintf.IValue1;import org.javatuples.valueintf.IValue2;/ <p> A tuple of three elements. </p> @since 1.0 @author Daniel Fernández/public final class Triplet<A,B,C> extends Tupleimplements IValue0<A>,IValue1<B>,IValue2<C> {private static final long serialVersionUID = -1877265551599483740L;private static final int SIZE = 3;private final A val0;private final B val1;private final C val2;public static <A,B,C> Triplet<A,B,C> with(final A value0, final B value1, final C value2) {return new Triplet<A,B,C>(value0,value1,value2);} 我们一般调用静态方法with,传入元组数据,创建一个元组。当然了,也可以通过有参构造、数组Array、集合Collection、迭代器Iterator来创建一个元组,直接调用相应方法即可。 但是,我们可能记不住各元组对象的名称(Unit、Pair、Triplet、Quartet、Quintet、Sextet、Septet、Octet、Ennead、Decade),还要背下单词…因此,我们可以自定义一个工具类,提供公共方法,根据传入的参数个数,返回不同的元组对象。 2.2.2 自定义工具类 package com.superchen.demo.utils;import org.javatuples.Decade;import org.javatuples.Ennead;import org.javatuples.Octet;import org.javatuples.Pair;import org.javatuples.Quartet;import org.javatuples.Quintet;import org.javatuples.Septet;import org.javatuples.Sextet;import org.javatuples.Triplet;import org.javatuples.Unit;/ ClassName: TupleUtils Function: <p> Tuple helper to create numerous items of tuple. the maximum is 10. if you want to create tuple which elements count more than 10, a new class would be a better choice. if you don't want to new a class, just extends the class {@link org.javatuples.Tuple} and do your own implemention. </p> date: 2019/9/2 16:16 @version 1.0.0 @author Chavaer @since JDK 1.8/public class TupleUtils{/ <p>Create a tuple of one element.</p> @param value0 @param <A> @return a tuple of one element/public static <A> Unit<A> with(final A value0) {return Unit.with(value0);}/ <p>Create a tuple of two elements.</p> @param value0 @param value1 @param <A> @param <B> @return a tuple of two elements/public static <A, B> Pair<A, B> with(final A value0, final B value1) {return Pair.with(value0, value1);}/ <p>Create a tuple of three elements.</p> @param value0 @param value1 @param value2 @param <A> @param <B> @param <C> @return a tuple of three elements/public static <A, B, C> Triplet<A, B, C> with(final A value0, final B value1, final C value2) {return Triplet.with(value0, value1, value2);} } 以上的TupleUtils中提供了with的重载方法,调用时根据传入的参数值个数,返回对应的元组对象。 2.2.3 示例代码 若有需求: 现有pojo类Student、Teacher、Programmer,需要存储pojo类的字节码文件、对应数据库表的主键名称、对应数据库表的毕业院校字段名称,传到后层用于组装sql。 可以再定义一个对象类,但是如果还要再添加条件字段的话,又得重新定义…所以我们这里直接使用元组Tuple实现。 public class TupleTest {public static void main(String[] args) {List<Triplet<Class, String, String>> roleList = new ArrayList<Triplet<Class, String, String>>();/三元组,存储数据:对应实体类字节码文件、数据表主键名称、数据表毕业院校字段名称/Triplet<Class, String, String> studentTriplet = TupleUtils.with(Student.class, "sid", "graduate");Triplet<Class, String, String> teacherTriplet = TupleUtils.with(Teacher.class, "tid", "graduate");Triplet<Class, String, String> programmerTriplet = TupleUtils.with(Programmer.class, "id", "graduate");roleList.add(studentTriplet);roleList.add(teacherTriplet);roleList.add(programmerTriplet);for (Triplet<Class, String, String> triplet : roleList) {System.out.println(triplet);} }} 存储数据结构如下: 本篇文章为转载内容。原文链接:https://blog.csdn.net/qq_35006663/article/details/100301416。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-09-17 17:43:51
257
转载
DorisDB
...断一个元素是否在一个集合中存在。在DorisDB中,构建Bloom Filter索引能够快速过滤掉主键查询过程中大部分不匹配的数据,从而加速查询过程,尤其适用于高选择性列的查询优化,即使其有一定的误判率,但在实际应用中仍能有效提高查询性能。 数据分区 , 在数据库管理中,数据分区是指将一张大表物理分割为多个较小、逻辑相关的部分,每个部分称为一个分区。DorisDB支持对表进行分区,比如按照时间范围分区,这样可以根据查询条件直接定位到相应分区,避免全表扫描,降低查询复杂度,提高查询效率。
2023-05-07 10:47:25
500
繁华落尽
Mongo
... users 的集合中建立一个新的用户文档类型,打开MongoDB Studio,点击 "Collections" -> "Create Collection",输入新集合名称 new_users。接着,在右侧的Document Schema区域,可以通过拖拽字段图标并填写字段名、数据类型(如String, Number, Date等),定义新的用户文档结构: { "_id": ObjectId(), "username": String, "email": {type: String, required: true}, "password": {type: String, required: true, min: 6}, "createdAt": Date, "updatedAt": Date } 2. 查询构建与执行 - 当我们需要从 new_users 集合中查找特定条件的记录时,MongoDB Studio的Query Builder功能大显身手。在 "Query Builder" 区域,选择 "Find" 操作,键入查询条件,例如找到邮箱地址包含 "@example.com" 的用户: db.new_users.find({"email": {$regex: /@example\.com$/} }) 3. 数据操作与管理 - 对于数据的增删改查操作,MongoDB Studio同样提供了便捷的操作界面。例如,在 "Data Editor" 中选择需要更新的文档,点击 "Update" 按钮,并设置新的属性值,如将用户名 "Alice" 更新为 "Alicia": db.new_users.updateOne( {"username": "Alice"}, {"$set": {"username": "Alicia"} } ) 4. 性能监控与调试 - 而对于数据库的整体性能指标,MongoDB Studio还集成了实时监控模块,包括CPU、内存、磁盘I/O、网络流量等各项指标,便于管理员快速发现潜在瓶颈,并针对性地进行优化调整。 四、结论与展望 MongoDB Studio作为一个集数据建模、查询构建、数据操作于一体的全面管理工具,极大地提升了用户在MongoDB环境下的工作效率。而且你知道吗,MongoDB这个大家庭正在日益壮大和成熟,那些聚合管道、索引优化、事务处理等高大上的功能,都将一步步被融入到MongoDB Studio里头去。这样一来,咱们管理数据库就能变得更聪明、更自动化,就像有个小助手在背后默默打理一切,轻松又省力!嘿,伙计们,咱们一起热血沸腾地站在技术革命的浪尖上,满怀期待地瞅瞅MongoDB Studio能给我们带来什么惊艳的新玩意儿吧!这货绝对会让广大的开发者小伙伴们更溜地驾驭MongoDB,让企业的数据战略发展如虎添翼,一路飙升!
2024-02-25 11:28:38
70
幽谷听泉-t
转载文章
...中使用的二进制标志位集合,用来表示用户对某个对象(如文件、注册表键值等)的访问权限类型和级别。在本文的上下文中,AccessMask值为0x10000代表了“DELETE”权限,即用户试图或成功执行了删除操作。通过检查日志中的AccessMask字段,管理员可以快速识别哪些用户进行了文件删除行为,这对于安全审计和追踪异常活动至关重要。
2023-11-12 11:51:46
151
转载
Hibernate
...捉、管理和处理的数据集合。在文章语境中,大数据时代的缓存策略面临的是数据量的急剧膨胀,因此需要更高效的缓存技术来应对大规模数据的实时处理需求。 分布式缓存 , 一种将数据分散存储在多台服务器上的缓存系统,通过负载均衡、数据分区等策略,提升数据访问速度和系统扩展性。在大数据场景下,分布式缓存系统能够跨越多台服务器进行数据存储与分发,有效解决大规模数据的实时处理问题。 NoSQL数据库 , 一种非关系型数据库管理系统,相较于传统的关系型数据库,NoSQL数据库在高并发、海量数据存储方面具有优势。在文章中提到,与缓存整合,NoSQL数据库能够提供强大数据存储与处理能力,适应大数据环境的需求。
2024-10-11 16:14:14
102
桃李春风一杯酒
转载文章
...表现力突出的战斗场景集合。在本文提到的《海贼王》全集中,作者记录了各主题篇章中的精彩打斗情节,并通过思维导图的形式帮助观众快速找到这些具有高观赏性和故事推进关键作用的剧集。 考研专业课思维导图整理 , 这是一种针对考研(全国硕士研究生统一招生考试)的专业课程知识点整理方式,将某一专业领域的核心概念、理论框架、重要公式、经典案例等内容,用思维导图的形式进行系统化的呈现。文章作者将这一方法应用到了计算机学科相关的考研复习资料上,如Python、C++、计算机网络等课程,旨在帮助考生更高效地理解和记忆专业知识点,提高复习效率和应试能力。
2024-01-12 18:13:21
740
转载
Spark
...、可分区的分布式数据集合。在Spark处理过程中,RDD可以记录其生成和转换操作的历史记录,即血统(Lineage)信息。当数据部分丢失或传输中断时,Spark能根据这些历史操作自动重新计算受影响的数据,而非从源头重新获取全部数据,从而提供了一种高效且容错性强的数据处理机制。 CheckPointing机制 , 在Spark中,CheckPointing是一种持久化存储策略,用于提高数据容错性和减少故障恢复时间。通过调用RDD的checkpoint()方法,Spark将RDD的数据以确定性方式保存到可靠的存储系统(如HDFS)上。这样,在发生节点故障或者数据丢失时,Spark可以从检查点直接读取数据进行任务恢复,避免了依赖整个血统链条进行重算,大大提升了系统的稳定性和效率。 宽窄依赖 , 在Spark的任务调度与执行模型中,宽窄依赖是用来描述不同任务之间的数据依赖关系的概念。窄依赖指的是父RDD的一个分区最多被子RDD的一个分区所依赖,这种依赖关系支持在单个节点上进行快速、局部的错误恢复;而宽依赖则指父RDD的一个分区可能被多个子RDD分区所依赖,通常会导致stage间的划分,并需要进行shuffle操作。对于数据传输中断问题,Spark会根据任务间的宽窄依赖关系采取不同的应对策略,比如对窄依赖任务进行局部重试,对宽依赖任务则依据血统信息划分stage并并行重试内部任务,确保数据处理流程能够有效地抵御网络波动等异常情况的影响。
2024-03-15 10:42:00
576
星河万里
Scala
...使用一个复杂的类或者集合作为参数类型,我们可以为它定义一个类型alias,这样在后续的代码中就可以使用这个更简洁的名字来表示,使得代码更加清晰易懂。 三、创建类型alias的步骤 创建类型alias非常简单,只需要使用type关键字,后跟别名的名称和冒号,然后是原始类型的引用即可。让我们通过一个具体的例子来展示如何创建类型alias: scala // 定义一个类型alias,表示一个整数列表 type IntegerList = List[Int] // 使用类型alias val myList: IntegerList = List(1, 2, 3) 在这个例子中,我们定义了一个名为IntegerList的类型alias,它表示的是List[Int]。之后,我们就可以使用IntegerList这个更易于理解的名字来表示一个整数列表了。 四、使用类型alias提升代码质量 类型alias不仅能够简化代码,还能帮助我们更好地管理代码结构,提高代码的可读性和可维护性。例如,在处理数据结构时,我们可能会遇到以下场景: scala // 原始方式 def processData(data: List[(String, Int)]) { // 处理逻辑... } // 使用类型alias后的代码 type DataPoint = (String, Int) def processData(data: List[DataPoint]) { // 处理逻辑... } 通过使用类型alias,我们为List[(String, Int)]定义了一个更具描述性的名字DataPoint,使得代码更加易于理解。嘿,你知道吗?这种命名方式超级棒,因为它能让我们在别的地方轻松复用这个类型别名。这样一来,我们的代码不仅看起来整齐划一,还特别好懂,就像是给编程世界里的小伙伴留了个小提示,告诉他们这里有个好东西可以拿来用!这样子,我们写的代码就像是一本大家都能看懂的书,多好啊! 五、总结 类型alias的魔力 通过本文的探索,我们了解到Scala中的类型alias是一种强大且实用的功能。哎呀,这家伙可真是个编程界的魔术师啊!它就像是一位聪明的整理专家,能把乱糟糟的代码变得井井有条,看起来就像是从故事书里走出来的一样,清晰又易懂。而且,它还能帮咱们把那些老掉牙的代码给升级换代,让程序焕然一新,就像是给旧衣服缝上了时髦的新领口,既实用又好看。这玩意儿,简直就是程序员的得力助手,让写代码的日子不再枯燥无味,反而充满了乐趣和成就感呢!嘿,兄弟!在咱们实际码代码的时候,巧妙运用类型别名这招儿,能大大提升咱的编码速度,让代码看起来也清爽不少。就像是给一堆杂乱无章的工具找到了专属的收纳盒,既方便又高效。这样一来,不仅咱自己看着舒服,别人看了也觉得赏心悦目,不是嘛?记住,选择合适的别名名称至关重要,它应该能够准确反映原始类型的用途和特性,从而帮助团队成员快速理解代码意图。 在Scala的世界里,类型alias是众多工具之一,它们共同构成了Scala丰富而强大的语言特性。嘿,兄弟!只要你持续动手操练和琢磨,你会发现解锁编程特性的新招式简直多得数不清。这不,你的编程技术就嗖嗖地往上窜,那可是实打实的进步!别停下脚步,继续加油,编程世界的大门正等着你去探索呢!所以,不要害怕尝试和实验,让Scala的魔力引领你在编程之路上不断前行吧!
2024-09-03 15:49:39
85
山涧溪流
转载文章
...的,它是一系列插件的集合,以@babel/preset-env为例,假设项目中安装的npm包版本是2020年1月发布的,那么这个预设里包含了2020年1月以前所有进入到stage4阶段的语法转换插件。 可能有小伙伴会问,假如我设置了一个语法插件,指定某个预设里又包含了插件,此时会发生什么?这就涉及到插件和预设的执行顺序了,具体的规则如下: 插件比预设先执行 插件执行顺序是插件数组从前向后执行 预设执行顺序是预设数组从后向前执行 三、插件和预设的参数 不配置参数的情况下,每个插件或预设都是数组中的一个字符串成员,例:preset:["@babel/preset-env","@babel/preset-react"],如果某个插件或预设需要配置参数,成员项就需要由字符串换成一个数组,数组的第一项是插件或预设的名称字符串,第二项为对象,该对象用来设置插件或预设的参数,格式如下: {"presets": [["@babel/preset-env",{"useBuiltIns": "entry"}]]} 四、插件和预设的简写 插件或可以在配置文件里用简写名称,如果插件的npm包名称的前缀为 babel-plugin-,可以省略前缀。例如"plugins": ["babel-plugin-transform-decorators-legacy"]可以简写为"plugins": ["transform-decorators-legacy"]。 如果npm包名称的前缀带有作用域@,例如@scope/babel-plugin-xxx,短名称可以写成@scope/xxx。 到babel7版本时,官方的插件大多采用@babel/plugin-xxx格式的,没有明确说明是否可以省略@babel/plugin-,遇到这中npm包时,最好还是采用全称写法比较稳妥。 预设的短名称规则跟插件差不多,前缀为babel-preset-或带有作用域的包@scope/babel-preset-xxx的可以省略掉babel-preset-。 babel7里@babel/preset-前缀开头的包,例如@babel/preset-env的短名称是@babel/env,官方并没有给出明确说明以@babel/preset-xxx卡头的包是否都可以采用简写,因此最好还是采用全称。 五、混乱的babel6预设 如果直接接触babel7的前端同事都知道es预设直接用@babel/preset-env就行了,但是如果要维护和迭代基于babel6的项目呢?各个项目中使用的可能都不一样,babel-preset-es20xx、babel-preset-stage-x、babel-preset-latest这些预设是啥意思? babel-preset-es20xx: TC39每年发布的、进入标准的ES语法转换器预设,最后一个预设是babel-preset-es2017,不再更新。 babel-preset-stage-x: TC39每年草案阶段的ES语法转换器预设。x的值是0到3,babel7时已废弃,不再更新。 babel-preset-latest: TC39每年发布的、进入标准的ES语法转换器预设。在babel6时等于babel-preset-es2015、babel-preset-es2016、babel-preset-es2017。该包从 v2 开始,需要@babel/core@^7.0.0,也就是需要babel7才能使用,既然要升级到babel7,不如使用更加强大的@babel/preset-env。 本篇文章为转载内容。原文链接:https://blog.csdn.net/douyinbuwen/article/details/123729828。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2024-01-16 22:15:54
121
转载
Apache Lucene
... 假设我们有一个文档集合,这里只创建一个简单的文档 Document doc = new Document(); doc.add(new TextField("content", "Lucene is awesome", Field.Store.YES)); IndexWriterConfig config = new IndexWriterConfig(analyzer); IndexWriter writer = new IndexWriter(indexDir, config); writer.addDocument(doc); writer.close(); String queryTerm = "Lucenes"; // 用户输入的模糊查询词 float fuzziness = 1f; // 设置模糊度,例如1代表允许一个字符的差异 QueryParser parser = new QueryParser("content", analyzer); FuzzyQuery fuzzyQuery = new FuzzyQuery(parser.parse(queryTerm), fuzziness); IndexReader reader = DirectoryReader.open(indexDir); TopDocs topDocs = searcher.search(fuzzyQuery, 10); // 返回最多10个匹配结果 for (ScoreDoc scoreDoc : topDocs.scoreDocs) { Document hitDoc = searcher.doc(scoreDoc.doc); System.out.println("Score: " + scoreDoc.score + ", Hit: " + hitDoc.get("content")); } reader.close(); } } 这段代码首先创建了一个简单的索引,然后构造了一个FuzzyQuery实例,指定要搜索的关键词和允许的最大编辑距离。搜索时,我们能看到即使用户输入的不是完全匹配的"Lucene",而是"Lucenes",FuzzyQuery也能返回相关的结果。 四、FuzzyQuery优化策略 3. 性能与优化 当处理大量数据时,FuzzyQuery可能会变得较慢,因为它的计算复杂度与搜索词的长度和索引的大小有关。为了提高效率,可以考虑以下策略: - 前缀匹配:使用PrefixQuery结合FuzzyQuery,仅搜索具有相同前缀的文档,这可以减少搜索范围。 - 阈值调整:根据应用需求调整模糊度阈值,更严格的阈值可以提高精确度,但搜索速度会下降。 - 分批处理:如果搜索结果过多,可以分批处理,先缩小范围,再逐步细化。 五、结论 4. 未来展望与总结 FuzzyQuery在提高搜索灵活性的同时,也对性能提出了挑战。要想在项目里游刃有余,得深入理解那些神奇的机制和巧妙的策略,这样才能精准又高效,就像个武林高手一样,既能一击即中,又能快如闪电。Lucene那强大的模糊搜索绝不仅仅是纠错能手,它还能在你打字时瞬间给出超贴心的拼写建议,让找东西变得超级简单,简直提升了搜寻乐趣好几倍!随着科技日新月异,Lucene这家伙也越变越聪明,咱们可真盼着瞧见那些超酷的新搜索招数,让找东西这事变得更聪明又快捷,就像点穴一样精准! 在构建现代应用程序时,了解并善用这些高级查询工具,无疑会让我们的搜索引擎更具竞争力。希望这个简单示例能帮助你开始在项目中运用FuzzyQuery,提升搜索的精准度和易用性。
2024-06-11 10:54:39
497
时光倒流
Apache Solr
...的配置文件,确认核心集合是否正确配置; - 其次,检查集群状态,确认所有节点是否都已经正常启动; - 最后,查看日志文件,查看是否有其他异常信息。 在实践中,我们可以尝试如下代码实现: java // 启动集群 CoreContainer cc = CoreContainer.create(CoreContainer.DEFAULT_CONFIG); cc.load(new File("/path/to/solr/home/solr.xml")); cc.start(); // 查询集群状态 Collections cores = cc.getCores(); for (SolrCore core : cores) { System.out.println(core.getName() + " status : " + core.getStatus()); } 如果以上步骤无法解决问题,建议查阅相关文档或寻求专业人士的帮助。 三、Solr代码执行漏洞排查及解决方法 近年来,随着Apache Solr的广泛应用,安全问题日益突出。嘿,你知道吗?在2019年11月19日曝出的一条消息,Apache Solr这个家伙在默认设置下有个不小的安全隐患。如果它以cloud模式启动,并且对外开放的话,那么远程的黑客就有机会利用这个漏洞,在目标系统上随心所欲地执行任何代码呢!就像是拿到了系统的遥控器一样,想想都有点让人捏把汗呐! 对于这个问题,我们可以从以下几个方面进行排查: - 首先,检查solr的安全配置,确保只允许受信任的IP地址访问; - 其次,关闭不必要的服务端功能,如远程管理、JMX等; - 最后,定期更新solr到最新版本,以获取最新的安全补丁。 在实践中,我们可以尝试如下代码实现: java // 关闭JMX服务 String configPath = "/path/to/solr/home/solr.xml"; File configFile = new File(configPath); DocumentBuilder db = DocumentBuilderFactory.newInstance().newDocumentBuilder(); Document doc = db.parse(configFile); Element root = doc.getDocumentElement(); if (!root.getElementsByTagName("jmx").isEmpty()) { Node jmxNode = root.getElementsByTagName("jmx").item(0); jmxNode.getParentNode().removeChild(jmxNode); } TransformerFactory tf = TransformerFactory.newInstance(); Transformer transformer = tf.newTransformer(); transformer.setOutputProperty(OutputKeys.INDENT, "yes"); transformer.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", "2"); DOMSource source = new DOMSource(doc); StreamResult result = new StreamResult(new File(configPath)); transformer.transform(source, result); 如果以上步骤无法解决问题,建议查阅相关文档或寻求专业人士的帮助。 四、总结 总的来说,Apache Solr虽然强大,但在使用过程中也会遇到各种各样的问题。了解并搞定这些常见问题后,咱们就能把Solr的潜能发挥得更淋漓尽致,这样一来,工作效率蹭蹭上涨,用户体验也噌噌提升,妥妥的双赢局面!希望本文能对你有所帮助!
2023-05-31 15:50:32
496
山涧溪流-t
JQuery
...函数,它可以用来遍历集合中的每一个元素,并执行回调函数。对于数组来说,each()的表现也非常棒! 假设我们有一个数组numbers,里面存放了一些数字。我们想通过jQuery将这些数字显示在一个无序列表( )中。代码可以这样写: html 这里的关键在于$.each()函数的第一个参数是我们要遍历的数组,第二个参数是一个回调函数,其中index表示当前元素的索引,value则是该元素的值。通过这种方式,我们可以轻松地将数组中的每一项添加到页面上。 不过呢,有时候你会发现直接用each()并不能完全满足需求。比如说,你得看看数组里满足不满足某个条件,要是满足了,那就接着往下走;要是不满足,可能就得另想办法,或者干脆就别执行后面那堆事了。这时候就需要稍微动点脑筋了。 --- 3.2 使用for循环结合jQuery 当然啦,如果你觉得each()太过于“黑箱”,不喜欢隐藏内部细节的话,也可以选择传统的for循环。其实呢,jQuery就是JavaScript的一个小帮手啦,说白了,它再厉害,最后还是得靠原生JavaScript去干活儿。 html 这段代码跟前面的例子类似,只不过我们手动控制了循环变量i,并且直接通过colors[i]访问数组中的元素。这样做的好处就是,你可以更随心所欲地摆弄数组里的数据,比如说直接跳过那些你不想管的项目,特别方便! --- 3.3 高级玩法:链式调用 如果你是个追求极致简洁的人,那么jQuery的链式调用绝对会让你爱不释手。简单来说,链式调用就是让你在一整行代码里接连调用好几个方法,这样就能少写好多重复的东西,看着清爽,用起来也方便! 比如,如果你想一次性创建整个无序列表,可以用下面这种方式: html 这段代码看起来是不是特别酷?我们先创建了一个新的 元素,然后利用map()方法生成所有的 标签,最后再将它们拼接成完整的HTML字符串,再插入到指定的容器中。这种写法不仅高效,还非常优雅! --- 4. 小结与感悟 好了,到这里咱们已经讨论了很多关于jQuery数组循环赋值的内容。说实话,最开始接触这些玩意儿的时候,我也是头都大了,心里直犯嘀咕:这是啥呀?这也太复杂了吧?感觉整个人都不好了,差点怀疑自己是不是选错了路子。其实吧,我后来才明白,这东西也没那么难。你只要把最基本的那些道理搞清楚了,再有点儿耐心,多试着练练,慢慢就啥问题都没啦! 在这里,我想分享一个小技巧:多看官方文档!jQuery的官方文档写得非常好,里面不仅有详细的API说明,还有很多生动的例子。每次遇到问题的时候,我都习惯先去看看文档,很多时候都能找到答案。 最后,希望大家都能从这篇文章中学到一些有用的东西。记住,编程不是一蹴而就的事情,它需要不断的尝试和总结。如果你还有其他关于jQuery的问题,欢迎随时交流哦!加油!💪 --- 好了,这就是我关于“jQuery数组怎样循环赋值”的全部内容啦。希望你能喜欢这篇文章,并且从中受益匪浅!如果觉得有用的话,不妨点赞支持一下吧~😊
2025-05-08 16:16:22
59
蝶舞花间
转载文章
...numerable 集合 进行迭代: 1)、通过 IEnumerator 的 Current 方法,可以获取集合中位于枚举数当前位置的元素。 2)、通过 IEnumerator 的 MoveNext 方法,可以将枚举数推进到集合的下一个元素。如果 MoveNext 越过集合的末尾, 则枚举器将定位在集合中最后一个元素之后, 同时 MoveNext 返回 false。 当枚举器位于此位置时, 对 MoveNext 的后续调用也将返回 false 。如果最后一次调用 MoveNext 时返回 false,则 Current 未定义(结果为null)。 3)、通过 IEnumerator 的 Reset 方法,可以将“迭代游标” 设置为其初始位置,该位置位于集合中第一个元素之前。 2、C 的 yield 关键字。 C编译器在生成IL代码时,会将一个返回值类型为 IEnumerator 的方法(其中包含一系列的 yield return 语句),构建为一个实现了 IEnumerator 接口的对象。 注意,yield 是C的关键字,而非Unity定义!IEnumerator 对象 也可以直接用于迭代,并非只能被Unity的 StartCoroutine 使用! using System.Collections;using UnityEngine;public class Test : MonoBehaviour{void Start(){IEnumerator e = Func();while (e.MoveNext()){Debug.Log(e.Current);} }IEnumerator Func(){yield return 1;yield return "Hi NRatel!";yield return 3;} } 对上边C代码生成的Dll进行反编译,查看IL代码: 3、Unity 的协程。 Unity 协程是在逐帧迭代的,这点可以从 Unity 脚本生命周期 中看出。 可以大胆猜测一下,实现出自己的协程(功能相似,能够说明逐帧迭代的原理,不是Unity源码): using System;using System.Collections;using System.Collections.Generic;using UnityEngine;public class Test : MonoBehaviour{private Dictionary<IEnumerator, IEnumerator> recoverDict; //key:当前迭代器 value:子迭代器完成后需要恢复的父迭代器private IEnumerator enumerator;private void Start(){//Unity自身的协程//StartCoroutine(Func1());//自己实现的协程StarMyCoroutine(Func1());}private void StarMyCoroutine(IEnumerator e){recoverDict = new Dictionary<IEnumerator, IEnumerator>();enumerator = e;recoverDict.Add(enumerator, null); //完成后不需要恢复任何迭代器}private void LateUpdate(){if (enumerator != null){DoEnumerate(enumerator);} }private void DoEnumerate(IEnumerator e){object current;if (e.MoveNext()){current = e.Current;}else{//迭代结束IEnumerator recoverE = recoverDict[e];if (recoverE != null){recoverDict.Remove(e);}//恢复至父迭代器, 若没有则会至为nullenumerator = recoverE;return;}//null,什么也不做,下一帧继续if (current == null) { return; }Type type = current.GetType();//基础类型,什么也不做,下一帧继续if (current is System.Int32) { return; }if (current is System.Boolean) { return; }if (current is System.String) { return; }//IEnumerator 类型, 等待内部嵌套的IEnumerator迭代完成再继续if (current is IEnumerator){//切换至子迭代器enumerator = current as IEnumerator;recoverDict.Add(enumerator, e);return;}//YieldInstruction 类型, 猜测也是类似IEnumerator的实现if (current is YieldInstruction){//省略实现return;} }IEnumerator Func1(){Debug.Log("Time.frameCount: " + Time.frameCount);yield return null;Debug.Log("Time.frameCount: " + Time.frameCount);yield return "Hi NRatel!";Debug.Log("Time.frameCount: " + Time.frameCount);yield return 3;Debug.Log("Time.frameCount: " + Time.frameCount);yield return new WaitUntil(() =>{return Time.frameCount == 20;});Debug.Log("Time.frameCount: " + Time.frameCount);yield return Func2();Debug.Log("Time.frameCount: " + Time.frameCount);}IEnumerator Func2(){Debug.Log("XXXXXXXXX");yield return null;Debug.Log("YYYYYYYYY");yield return Func3(); //嵌套 IEnumerator}IEnumerator Func3(){Debug.Log("AAAAAAAA");yield return null;Debug.Log("BBBBBBBB");yield return null;} } 对比结果,基本可以达成协程作用,包括 IEnumerator 嵌套。 但是 Time.frameCount 的结果不同,想来实现细节必然是有差别的。 四、部分Unity源码分析 1、CustomYieldInstruction 类 可以继承该类,并实现自己的、需要异步等待的类。 原理: 当协程中 yield return “一个CustomYieldInstruction的子类”; 其实就相当于在原来的 迭代器A 中,插入了一个 新的迭代器B。 当迭代程序进入 B ,如果 keepWaiting 为 true,MoveNext() 就总是返回 true。 上面已经说过,迭代器在迭代时,MoveNext() 返回false 才标志着迭代完成! 那么,B 就总是完不成,直到 keepWaiting 变为 false。 这样 A 运行至 B处就 处于了 等待B完成的状态,相当于A挂起了。 猜测 YieldInstruction 也是类似的实现。 // Unity C reference source// Copyright (c) Unity Technologies. For terms of use, see// https://unity3d.com/legal/licenses/Unity_Reference_Only_Licenseusing System.Collections;namespace UnityEngine{public abstract class CustomYieldInstruction : IEnumerator{public abstract bool keepWaiting{get;}public object Current{get{return null;} }public bool MoveNext() { return keepWaiting; } public void Reset() {} }} 2、WaitUntil 类 语义为 “等待...直到满足...” 继承自 CustomYieldInstruction,需要等待时让 m_Predicate 返回 false (keepWating为true)。 // Unity C reference source// Copyright (c) Unity Technologies. For terms of use, see// https://unity3d.com/legal/licenses/Unity_Reference_Only_Licenseusing System;namespace UnityEngine{public sealed class WaitUntil : CustomYieldInstruction{Func<bool> m_Predicate;public override bool keepWaiting { get { return !m_Predicate(); } }public WaitUntil(Func<bool> predicate) { m_Predicate = predicate; } }} 3、WaitWhile 类 语义为 “等待...如果满足...” 继承自 CustomYieldInstruction,需要等待时让 m_Predicate 返回 true (keepWating为true)。 与 WaitUntil 的实现恰好相反。 // Unity C reference source// Copyright (c) Unity Technologies. For terms of use, see// https://unity3d.com/legal/licenses/Unity_Reference_Only_Licenseusing System;namespace UnityEngine{public sealed class WaitWhile : CustomYieldInstruction{Func<bool> m_Predicate;public override bool keepWaiting { get { return m_Predicate(); } }public WaitWhile(Func<bool> predicate) { m_Predicate = predicate; } }} 本篇文章为转载内容。原文链接:https://blog.csdn.net/NRatel/article/details/102870744。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-11-24 16:50:42
389
转载
Mongo
...ngoDB里想把两个集合(就是表嘛)联查一下,结果发现有些字段直接不见了!我当时那个无语啊,心想这玩意儿不是挺牛的吗?怎么连个简单的联查都整不明白呢?真是把我整懵了。 事情是这样的:我的项目需要从两个不同的集合中提取数据,并且要将它们合并在一起展示给用户。哎呀,乍一听这事儿挺 straightforward 的对不对?结果我一上手写查询语句,咦?怎么关键的几个字段就凭空消失了呢?真是让人摸不着头脑啊!这可把我急坏了,因为我必须把这些字段完整地呈现出来。 于是乎,我开始了一段探索之旅,试图找到问题的答案。接下来的内容就是我在这段旅程中的所见所闻啦! --- 2. 初步分析 为什么会出现这种情况? 首先,让我们来理清一下思路。MongoDB可是一款不走寻常路的数据库,跟那些死守SQL规则的传统关系型数据库不一样,它要随意得多,属于非主流中的“潮牌”选手!因此,在进行多集合查询时,我们需要特别注意一些细节。 2.1 数据模型设计的重要性 在我的案例中,这两个集合分别是users和orders。users集合存储了用户的个人信息,而orders则记录了用户下的订单信息。嘿嘿,为了让查起来更方便,我专门给这两个集合加了个索引,还把它们用userId绑在一块儿了,这样找起来就跟串门似的,一下子就能找到啦! 然而,当我执行以下查询时: javascript db.users.aggregate([ { $lookup: { from: "orders", localField: "userId", foreignField: "userId", as: "orderDetails" } } ]) 我发现返回的结果中缺少了一些关键字段,比如orders集合中的status字段。这是怎么回事呢? 经过一番查阅资料后,我发现这是因为$lookup操作符虽然可以将两个集合的数据合并到一起,但它并不会自动包含所有字段。只有那些明确出现在查询条件或者投影阶段的字段才会被保留下来。 --- 3. 解决方案 一步一步搞定问题 既然找到了问题所在,那么接下来就是解决它的时候了!不过在此之前,我想提醒大家一句:解决问题的过程往往不是一蹴而就的,而是需要不断尝试与调整。所以请保持耐心,跟着我的脚步一步步走。 3.1 使用$project重新定义输出结构 针对上述情况,我们可以利用$project阶段来手动指定需要保留的字段。比如,如果我希望在最终结果中同时看到users集合的所有字段以及orders集合中的status字段,就可以这样写: javascript db.users.aggregate([ { $lookup: { from: "orders", localField: "userId", foreignField: "userId", as: "orderDetails" } }, { $project: { _id: 1, name: 1, email: 1, orderStatus: "$orderDetails.status" } } ]) 这里需要注意的是,$project阶段允许我们对输出的字段进行重命名或者过滤。例如,我把orders集合中的status字段改名为orderStatus,以便于区分。 3.2 深入探究嵌套数组 细心的朋友可能已经注意到,当我们使用$lookup时,返回的结果实际上是将orders集合中的匹配项打包成了一个数组(即orderDetails)。这就相当于说,如果我们要直接找到数组里的某个特定元素,还得费点功夫去搞定它呢! 假设我现在想要获取第一个订单的状态,可以通过添加额外的管道步骤来实现: javascript db.users.aggregate([ { $lookup: { from: "orders", localField: "userId", foreignField: "userId", as: "orderDetails" } }, { $project: { _id: 1, name: 1, email: 1, firstOrderStatus: { $arrayElemAt: ["$orderDetails.status", 0] } } } ]) 这段代码使用了$arrayElemAt函数来提取orderDetails数组的第一个元素对应的status值。 --- 4. 总结与反思 这次经历教会了我什么? 经过这次折腾,我对MongoDB的聚合框架有了更深的理解。其实呢,它虽然挺灵活的,但这也意味着我们得更小心翼翼地把握查询逻辑,不然很容易就出问题啦!特别是处理那些涉及多个集合的操作时,你得弄明白每一步到底干了啥,不然就容易出岔子。 最后,我想说的是,无论是在编程还是生活中,遇到困难并不可怕,可怕的是放弃思考。只要愿意花时间去研究和实践,总会找到解决问题的办法。希望大家都能从中受益匪浅! 好了,今天的分享就到这里啦!如果你也有类似的经历或者疑问,欢迎随时留言交流哦~
2025-04-28 15:38:33
17
柳暗花明又一村_
转载文章
...;每个节点包含的样本集合根据属性测试的结果被划分到子结点中。 决策树学习基本算法 显然,决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会导致递归返回: (1)当前结点包含的样本全属于同一类别,无需划分; (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分; (3)当前结点包含的样本集合为空,不能划分。 2、划分选择 决策树算法的关键是如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity)越来越高。 (1)信息增益 信息熵 "信息熵" (information entropy)是度量样本集合纯度最常用的一种指标,定义为信息的期望。假定当前样本集合 D 中第 k 类样本所占的比例为 ,则 D 的信息熵定义为: H(D)的值越小,则D的纯度越高。信息增益 一般而言,信息增益越大,则意味着使周属性 来进行划分所获得的"纯度提升"越大。因此,我们可用信息增益来进行决策树的划分属性选择,信息增益越大,属性划分越好。 以西瓜书中表 4.1 中的西瓜数据集 2.0 为例,该数据集包含17个训练样例,用以学习一棵能预测设剖开的是不是好瓜的决策树.显然,。 在决策树学习开始时,根结点包含 D 中的所有样例,其中正例占 ,反例占 信息熵计算为: 我们要计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部,触感}中每个属性的信息增益。以属性"色泽"为例,它有 3 个可能的取值: {青绿,乌黑,浅自}。若使用该属性对 D 进行划分,则可得到 3 个子集,分别记为:D1 (色泽=青绿), D2 (色泽2=乌黑), D3 (色泽=浅白)。 子集 D1 包含编号为 {1,4,6,10,13,17} 的 6 个样例,其中正例占 p1=3/6 ,反例占p2=3/6; D2 包含编号为 {2,3,7,8, 9,15} 的 6 个样例,其中正例占 p1=4/6 ,反例占p2=2/6; D3 包含编号为 {5,11,12,14,16} 的 5 个样例,其中正例占 p1=1/5 ,反例占p2=4/5; 根据信息熵公式可以计算出用“色泽”划分之后所获得的3个分支点的信息熵为: 根据信息增益公式计算出属性“色泽”的信息增益为(Ent表示信息熵): 类似的,可以计算出其他属性的信息增益: 显然,属性"纹理"的信息增益最大,于是它被选为划分属性。图 4.3 给出了基于"纹理"对根结点进行划分的结果,各分支结点所包含的样例子集显示在结点中。 然后,决策树学习算法将对每个分支结点做进一步划分。以图 4.3 中第一个分支结点( "纹理=清晰" )为例,该结点包含的样例集合 D 1 中有编号为 {1, 2, 3, 4, 5, 6, 8, 10, 15} 的 9 个样例,可用属性集合为{色泽,根蒂,敲声,脐部 ,触感}。基于 D1计算出各属性的信息增益: "根蒂"、 "脐部"、 "触感" 3 个属性均取得了最大的信息增益,可任选其中之一作为划分属性.类似的,对每个分支结点进行上述操作,最终得到的决策树如圈 4.4 所示。 3、剪枝处理 剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝" (prepruning)和"后剪枝 "(post" pruning) [Quinlan, 1993]。 预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划 分并将当前结点标记为叶结点; 后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。 往期回顾 ● 带你详细了解机器视觉竞赛—ILSVRC竞赛 ● 到底什么是“机器学习”?机器学习有哪些基本概念?(简单易懂) ● 带你自学Python系列(一):变量和简单数据类型(附思维导图) ● 带你自学Python系列(二):Python列表总结-思维导图 ● 2018年度最强的30个机器学习项目! ● 斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能(附195页PDF) ● 一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移 本篇文章为转载内容。原文链接:https://blog.csdn.net/Sophia_11/article/details/113355312。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-08-27 21:53:08
284
转载
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
whoami
- 显示当前登录用户的用户名。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"