前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[二进制序列化]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
JSON
...Msgpack是一种二进制序列化格式,它在保持类似JSON语法简洁性的同时,显著提高了数据传输效率。另外,JSONB(Binary JSON)是PostgreSQL数据库为存储和检索JSON数据而提供的高效二进制格式。 不仅如此,针对JSON的安全性问题,开发者需关注如何有效验证和过滤JSON数据,防止注入攻击等安全风险。为此,一些库如ajv、 Joi等提供了严谨的数据模式验证功能,确保接收到的JSON数据符合预期结构和类型。 综上所述,深入理解和掌握JSON相关的最新技术和最佳实践,对于提升应用程序的数据处理能力、保障数据交互安全以及优化系统性能等方面具有重要价值。建议读者持续关注JSON及相关领域的发展趋势,并结合具体项目需求灵活运用各种解决方案。
2023-05-11 17:44:41
267
代码侠
HessianRPC
...和降低网络延迟,各种二进制RPC协议应运而生。你知道吗,Hessian RPC协议这个家伙可厉害了!它那轻巧灵活的身段、飞一般的速度表现,还有那跨平台无缝切换的能力,在咱们行业中可是火得不得了,被大家伙广泛应用着呢! 然而,对于Hessian来说,其默认使用的文本格式在数据传输时可能存在性能瓶颈。这个时候,我们可以选择开启Hessian RPC协议这个小功能,让它用二进制的方式帮我们交换数据。这样一来,Hessian的性能就能蹭蹭地往上提升不少! 二、Hessian RPC协议的基本原理 Hessian是一种Java语言编写的高性能二进制序列化协议,主要用于对象的远程调用和数据交换。它就像个神奇的小帮手,能将Java对象瞬间变成二进制的小溪流,然后嗖地一下穿越网络,让数据交换变得更迅捷、更高效。 Hessian RPC协议是在Hessian协议的基础上扩展出来的,它提供了完整的RPC框架,包括请求/响应模型、错误处理机制、缓存管理等功能。跟普通的Hessian相比,Hessian RPC协议就像个升级版的小能手,它的可扩展性和易用性简直不要太赞,让你在捣鼓分布式系统设计和开发时,感觉轻松愉快、如虎添翼。 三、启用Hessian RPC协议 在Hessian中,我们可以通过设置hessian.config.useBinaryProtocol属性为true,来启用Hessian RPC协议的二进制模式。具体代码如下: java // 设置Hessian配置 HessianConfig config = new HessianConfig(); config.setUseBinaryProtocol(true); // 创建Hessian服务端对象 HessianService service = new HessianService(config); service.export(new EchoServiceImpl()); 上述代码首先创建了一个Hessian配置对象,并将其useBinaryProtocol属性设置为true,表示启用二进制模式。接着,我们捣鼓出一个Hessian服务端的小家伙,把它帅气地挂到网上,这样一来客户端的伙伴们就能随时来调用它了。 四、使用Hessian RPC协议进行数据交换 在启用Hessian RPC协议后,我们就可以使用二进制格式进行数据交换了。下面是一个简单的示例: java // 创建Hessian客户端对象 HessianClient client = new HessianClient("http://localhost:8080/hessian"); // 调用服务端方法并获取结果 EchoResponse response = (EchoResponse) client.invoke("echo", "Hello, Hessian!"); System.out.println(response.getMessage()); // 输出:Hello, Hessian! 上述代码首先创建了一个Hessian客户端对象,并连接到了运行在本地主机上的Hessian服务端。然后,我们调用了服务端的echo方法,并传入了一个字符串参数。最后,我们将服务端返回的结果打印出来。 五、结论 总的来说,通过启用Hessian RPC协议,我们可以将Hessian的默认文本格式转换为高效的二进制格式,从而显著提高Hessian的性能。另外,Hessian RPC协议还带了一整套超给力的功能,这对我们更顺溜地设计和搭建分布式系统可是大有裨益! 在未来的工作中,我们将继续探索Hessian和Hessian RPC协议的更多特性,以及它们在实际应用中的最佳实践。不久的将来,我可以肯定地跟你说,会有越来越多的企业开始拥抱Hessian和Hessian RPC协议,为啥呢?因为它们能让网络应用跑得更快、更稳、更靠谱。这样一来,构建出的网络服务就更加顶呱呱了!
2023-01-11 23:44:57
444
雪落无痕-t
HessianRPC
...n是一种高效、紧凑的二进制RPC协议,由Caucho公司开发,特别适合于互联网传输。这个东西超级实用,它能够让Java和其他一些好兄弟语言(比如.NET、Python这些)毫无障碍地远程互相调用对方的方法,就跟在本地调用一样方便。你只需要稍微捣鼓一下配置,写点简单的代码,就能轻松实现服务端和客户端的顺畅交流啦! 2. 方法签名的重要性 在HessianRPC中,每个远程方法都有其独特的“方法签名”,它包括方法名以及参数类型列表。当客户端调用服务器端的方法时,Hessian会根据这个签名来匹配和校验参数。如果客户端传过来的参数“不按套路出牌”,跟服务器端方法要求的参数类型或数量对不上号,那可就得闹脾气了,会直接抛出一个“IllegalArgumentException”异常。 java // 服务器端接口示例 public interface MyService { String process(String input, int num); } // 客户端错误调用示例 MyService service = (MyService) hessianProxyFactory.create(MyService.class, serverUrl); String result = service.process("Hello", "World"); // 这里第二个参数应该是int类型,而非String类型,会导致IllegalArgumentException 3. “IllegalArgumentException:传入参数不合法”问题解析 上述代码中的客户端尝试以一个字符串参数代替整型参数去调用process方法,这就导致了"IllegalArgumentException"。在进行序列化和反序列化的时候,Hessian这家伙发现传过来的参数类型跟预先给定的方法签名对不上号儿,于是它就毫不客气地抛出了一个异常。 4. 解决方案及预防措施 面对这种问题,我们需要从以下几个方面着手: 4.1 检查并确保参数类型正确 在编写客户端调用代码时,应仔细核对每个参数是否符合服务端方法签名的要求。比如上例中,我们需要将第二个参数修改为整型数值: java String result = service.process("Hello", 123); // 正确的调用方式 4.2 强化代码审查与测试 在项目开发过程中,建议采用自动化测试工具和单元测试,覆盖所有RPC方法调用,确保参数类型的准确无误。同时,代码审查也是防止此类问题的有效手段。 4.3 提供清晰的API文档 对于对外提供的服务接口,应该编写详尽且易于理解的API文档,明确指出每个方法的签名,包括方法名、参数类型和返回值类型,以便开发者在调用时有据可依。 4.4 利用IDE的智能提示 现代集成开发环境(IDE)如IntelliJ IDEA或Eclipse都具有强大的智能提示功能,能自动识别和匹配方法签名,利用好这些特性也能有效避免参数类型不匹配的问题。 总结起来,遭遇HessianRPC的“IllegalArgumentException:传入参数不合法”异常,本质上是对方法签名的理解和使用不到位的结果。在编程实战中,只要我们足够细心、步步为营,像侦探破案那样运用各种工具和策略,完全可以把这些潜在问题扼杀在摇篮里,让系统的运行稳如磐石。记住了啊,解决任何技术难题都得像咱们看侦探小说那样,得瞪大眼睛仔仔细细地观察,用脑子冷静地分析推理,动手实践去验证猜想,最后才能拨开层层迷雾,看到那片晴朗的蓝天。
2024-01-16 09:18:32
542
风轻云淡
HessianRPC
...an协议的大招,玩转序列化和反序列化的游戏,让Java和其他各种编程语言能够无缝对接、高效沟通,就像一个随叫随到、传递消息的小信使一样。然而,在实际操作时,我们可能时不时会遇到个头疼的问题——“HessianURLException:在捣鼓或者构建URL时出了岔子。”嘿,老铁们,这次咱要聊的这个主题可有点意思了。这篇东西呢,就是专门针对这种“诡异现象”,打算手把手地带大家伙儿通过一些实实在在的代码实例,抽丝剥茧地探寻这异常背后的秘密原因,并且一起琢磨琢磨怎么才能把它给妥妥地解决掉。 2. HessianRPC基础与工作原理 HessianRPC的核心在于对HTTP协议的运用以及Hessian二进制序列化机制。开发者只需要这么干,先定义一个接口,然后在这接口上,客户端和服务端两边各自整上实现,这样一来,远程方法调用就轻松搞定了。就像是你在家画好一张购物清单,然后分别让家人和超市那边按照清单准备东西,最后就能完成“远程”的物资调配啦。例如: java // 定义服务接口 public interface HelloService { String sayHello(String name); } // 服务端实现 @Service("helloService") public class HelloServiceImpl implements HelloService { @Override public String sayHello(String name) { return "Hello, " + name; } } // 客户端调用示例 HessianProxyFactory factory = new HessianProxyFactory(); HelloService service = (HelloService) factory.create(HelloService.class, "http://localhost:8080/hello"); String greeting = service.sayHello("World"); 3. HessianURLException详解 当我们在使用HessianRPC进行远程调用时,如果出现"HessianURLException: 创建或处理URL时发生错误。"异常,这通常意味着在创建或解析目标服务的URL地址时出现了问题。比如URL格式不正确、网络不可达或者其他相关的I/O异常。 java try { // 错误的URL格式导致HessianURLException HelloService wrongService = (HelloService) factory.create(HelloService.class, "localhost:8080/hello"); } catch (MalformedURLException e) { System.out.println("HessianURLException: 创建或处理URL时发生错误。"); // 抛出异常 } 在这个例子中,由于我们没有提供完整的URL(缺少协议部分"http://"),所以HessianRPC无法正确解析并创建到服务端的连接,从而抛出了HessianURLException。 4. 解决方案与预防措施 面对HessianURLException,我们需要从以下几个方面着手解决问题: 4.1 检查URL格式 确保提供的URL是完整且有效的,包括协议(如"http://"或"https://")、主机名、端口号及资源路径等必要组成部分。 java // 正确的URL格式 HelloService correctService = (HelloService) factory.create(HelloService.class, "http://localhost:8080/hello"); 4.2 确保网络可达性 检查客户端和服务端之间的网络连接是否畅通无阻。如果服务端未启动或者防火墙阻止了连接请求,也可能引发此异常。 4.3 异常捕获与处理 在代码中合理地处理此类异常,给用户提供明确的错误信息提示。 java try { HelloService service = (HelloService) factory.create(HelloService.class, "http://localhost:8080/hello"); } catch (HessianConnectionException | MalformedURLException e) { System.err.println("无法连接到远程服务,请检查URL和网络状况:" + e.getMessage()); } 5. 总结 在我们的编程旅程中,理解并妥善处理像"HessianURLException: 创建或处理URL时发生错误"这样的异常,有助于提升系统的稳定性和健壮性。对于HessianRPC来说,每一个细节都可能影响到远程调用的成功与否。所以呢,真要解决这类问题,归根结底就俩大法宝:一个是牢牢掌握的基础知识,那叫一个扎实;另一个就是严谨到家的编码习惯了,这两样可真是缺一不可的关键所在啊!伙计们,让我们一起瞪大眼睛,鼓起勇气,把HessianRPC变成我们手里的神兵利器,让它在开发分布式应用时,帮我们飞速提升效率,让开发过程更轻松、更给力!
2023-10-16 10:44:02
531
柳暗花明又一村
HessianRPC
...Hessian使用了二进制编码,并且支持跨平台和跨语言。 二、HessianRPC的应用场景 HessianRPC主要用于需要在不同的系统之间传输数据的场景,例如分布式系统的消息传递、服务调用等。你知道吗,HessianRPC这家伙可厉害了,它采用的是二进制编码这种方式进行传输,这就意味着它的速度嗖嗖的,超级快!就像是数据界的“闪电侠”一样,咻一下就完成任务了。 三、HessianRPC的序列化与反序列化 在使用HessianRPC时,我们需要对对象进行序列化和反序列化操作。序列化,说白了就是把Java对象这个大块头,变成一条可以轻松传输和存储的二进制流。想象一下,就像把一个复杂的乐高模型拆解打包成一个个小零件,方便搬运。而反序列化呢,恰恰相反,就是把这些“二进制流小零件”重新组装还原回原来的Java对象,就像你又用这些零件恢复成了那个完整的乐高模型一样。 四、序列化过程中可能出现的ClassNotFoundException 在使用HessianRPC进行序列化操作时,可能会出现ClassNotFoundException。这是因为我们在序列化对象时,没有包含该对象的所有类信息。当我们尝试从序列化后的二进制流中创建这些对象时,就会抛出ClassNotFoundException。 五、如何处理序列化过程中出现的ClassNotFoundException? 对于这个问题,我们可以采取以下几种策略: 1. 使用完整包路径 在序列化对象时,我们应该使用完整的包路径。这样可以确保所有的类信息都被包含在内,从而避免ClassNotFoundException。 2. 将相关类添加到应用服务器的类加载器中 如果不能修改被序列化的对象的源码,那么我们可以考虑将相关的类添加到应用服务器的类加载器中。这样也可以确保所有的类信息都被包含在内。 3. 在客户端和服务器端都提供相同的类定义 在客户端和服务器端都提供相同的类定义,也是防止ClassNotFoundException的一种方法。 六、代码示例 下面是一些使用HessianRPC的例子,包括一个使用完整包路径的例子,一个将相关类添加到应用服务器的类加载器中的例子,以及一个在客户端和服务器端都提供相同类定义的例子。 七、总结 总的来说,HessianRPC是一种非常实用的远程通信工具。在使用这东西的时候,咱们得留心一个叫ClassNotFoundException的小插曲,它可能会在序列化的过程中冒出来。咱得提前想好对策,妥善处理这个问题。只有这样,我们才能更好地利用HessianRPC,提高我们的开发效率。
2023-04-06 14:52:47
479
半夏微凉-t
HessianRPC
...xception”在序列化和反序列化过程中的挑战 1. 引言 当我们谈论HessianRPC时,我们正探索一种高效的、基于二进制的远程过程调用(Remote Procedure Call, RPC)协议。它由Caucho公司开发,因其小巧轻便且性能优异而受到广泛使用。然而,在我们实际动手开发的时候,常常会遇到一个让人挠头的常见问题——“NullPointerException”,特别是在进行序列化或反序列化操作时,一不小心碰到空引用的情况,那家伙,可就尴尬了。本文将围绕这一主题,通过实例代码探讨其产生的原因以及解决策略。 2. HessianRPC的工作原理与序列化/反序列化 2.1 工作原理简述 在HessianRPC中,服务端将对象的状态转化为二进制流发送给客户端,客户端再将接收到的二进制流还原为对象状态,这个过程就涉及到了序列化和反序列化。 java // 服务器端示例 public class Server { public MyObject serve() { return new MyObject("Some Value"); } } // 客户端通过HessianProxyFactory创建代理对象进行远程调用 HessianProxyFactory factory = new HessianProxyFactory(); MyService service = (MyService) factory.create(MyService.class, "http://localhost:8080/myService"); MyObject obj = service.serve(); 2.2 序列化与反序列化过程中的空引用问题 当对象中包含null值属性时,Hessian可以正常处理并将其序列化为二进制数据。在反序列化这个环节,假如服务器那边传回来的对象里,某个属性值是空的(null),然后客户端这边呢,拿到这个属性后,不管三七二十一就直接进行非空判断或者动手操作了,这时候,“啪”一下,NullPointerException就会冒出来啦。 java // 假设服务端返回的对象包含可能为null的字段 public class MyObject { private String value; // 构造函数省略... public String getValue() { return value; } } // 客户端直接访问可能为null的字段 String receivedValue = service.serve().getValue(); // 可能抛出NullPointerException 3. 深入剖析NullPointerException的原因 出现上述异常的根本原因在于,我们在设计和使用对象时,没有对可为空的成员变量做充分的防御性编程。拿到反序列化出来的对象,你要是不检查一下引用是否为空就直接动手操作,这就跟走钢丝还不看脚下似的。万一不小心一脚踩空了,那程序可就得立马“扑街”了。 4. 针对HessianRPC中NullPointerException的防范措施 4.1 空值检查 在客户端使用反序列化后的对象时,务必对每个可能为null的引用进行检查: java MyObject obj = service.serve(); if (obj != null && obj.getValue() != null) { // 安全操作 } 4.2 使用Optional类包装可能为null的值 Java 8引入了Optional类,它可以优雅地表达和处理可能存在的空值: java Optional optionalValue = Optional.ofNullable(service.serve().getValue()); optionalValue.ifPresent(value -> System.out.println(value)); 4.3 设计合理的业务逻辑与数据模型 从源头上避免产生空引用,例如在服务端确保返回的对象其关键字段不为null,或者提供默认值。 5. 结论 尽管HessianRPC以其高效便捷著称,但在使用过程中,我们仍需关注并妥善处理可能出现的NullPointerException问题。只有深入理解序列化和反序列化的机制,并结合良好的编程习惯,才能在享受技术便利的同时,确保系统的健壮性和稳定性。记住了啊,每一次我们认真对付那些空引用的时候,其实就是在给系统的质量添砖加瓦呢,同时这也是咱作为开发者不断琢磨、持续优化的过程,可重要了!
2023-08-11 10:48:19
481
素颜如水
HessianRPC
...利用HTTP协议进行二进制数据传输,使得服务间的远程通信更为高效和快速。在分布式系统架构中,HessianRPC常被用于微服务之间的通信与交互,通过序列化和反序列化技术实现Java对象在不同服务节点之间的透明传递。 QPS(Queries Per Second) , QPS是每秒查询数的缩写,在本文上下文中特指针对某个服务的每秒请求数量。作为衡量系统性能和负载的重要指标,QPS对于评估服务处理能力、设计限流策略以及保证服务稳定性具有重要意义。当系统的QPS过高时,可能会导致服务过载并影响响应速度,因此需要采取措施限制QPS以确保系统健康运行。 RateLimiter , RateLimiter是Google Guava库提供的一种流量控制工具类,它可以精确地控制任务执行速率或资源获取速率。在本文示例中,RateLimiter用于限制对HessianRPC服务的调用频率,即控制每秒内允许的最大请求次数。开发者可以设定一个阈值,当请求速率超过这个阈值时,RateLimiter会阻止多余的请求,从而起到保护服务不被高并发请求压垮的作用,保障了服务的稳定性和可用性。
2023-12-08 21:23:59
522
追梦人
Spark
...分布式缓存的关键。 序列化 , 序列化是将对象转换为字节流的过程,以便在网络上传输或存储到磁盘中。在Spark中,序列化用于将数据对象转换为紧凑的二进制格式,以减少内存占用并加快数据传输速度。文章提到两种常见的序列化方式。 缓存时机 , 缓存时机是指决定何时将数据加载到内存中的策略。文章指出,缓存时机的选择直接影响内存利用率和任务执行效率。如果在任务启动初期盲目缓存数据,可能导致内存资源浪费或后期真正需要缓存的数据无法获得足够空间。合理的缓存时机应该根据任务需求动态调整,例如在某阶段即将开始前再调用.cache()方法,确保数据能及时加载到内存中。正确把握缓存时机能够最大化分布式缓存的优势,同时避免不必要的性能损失。
2025-05-02 15:46:14
81
素颜如水
转载文章
...典序是指字符串或符号序列按照某种排序规则进行排列的顺序,通常采用字母表顺序(对于字母而言)。在本文的语境中,字典序用于描述Jam数字之间的大小关系,即按字母顺序从小到大排列Jam数字。 C++编程 , C++编程是一种面向对象的高级程序设计语言,它扩展了C语言的功能,并提供了类、模板等特性以支持面向对象编程。在文章中,作者通过C++代码实现了一个算法来解决如何找到给定Jam数字之后的下一个符合规则的Jam数字问题,展示了如何利用循环结构和逻辑判断在实际编程中处理这种特殊计数系统的逻辑。 位数 , 在数字系统中,位数指的是一个数的构成单元(如二进制中的比特、十进制中的数位)的数量。在本文讨论的Jam数字体系里,位数特指组成Jam数字的字母个数是固定的,并且所有合法的Jam数字都必须具有相同的位数,确保它们能够比较和排序。
2024-02-12 12:42:53
562
转载
Mahout
...Mahout主要支持序列文件格式。这就意味着,我们需要把原始数据变个身,把它变成SequenceFile这种格式。你可能不知道,这可是Hadoop大家族里的“通用语言”,特别擅长对付那种海量级的数据存储和处理任务,贼溜! java // 创建一个SequenceFile.Writer实例,用于写入数据 SequenceFile.Writer writer = SequenceFile.createWriter(conf, SequenceFile.Writer.file(new Path("output/path")), SequenceFile.Writer.keyClass(Text.class), SequenceFile.Writer.valueClass(IntWritable.class)); // 假设我们有一个键值对数据,这里以文本键和整数值为例 Text key = new Text("key1"); IntWritable value = new IntWritable(1); // 将数据写入SequenceFile writer.append(key, value); // ... 其他数据写入操作 writer.close(); 3. 迁移数据到Mahout 迁移数据到Mahout的核心步骤包括数据读取、模型训练以及模型应用。以下是一个简单的示例,展示如何将SequenceFile数据加载到Mahout中进行协同过滤推荐系统的构建: java // 加载SequenceFile数据 Path path = new Path("input/path"); SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf); Text key = new Text(); DataModel model; try { // 创建DataModel实例,这里使用了GenericUserBasedRecommender model = new GenericDataModel(reader); } finally { reader.close(); } // 使用数据模型进行协同过滤推荐系统训练 UserSimilarity similarity = new PearsonCorrelationSimilarity(model); UserNeighborhood neighborhood = new NearestNUserNeighborhood(20, similarity, model); Recommender recommender = new GenericUserBasedRecommender(model, neighborhood, similarity); // 进行推荐操作... 4. 深度探讨与思考 数据迁移的过程并不止于简单的格式转换和加载,更重要的是在此过程中对数据的理解和洞察。在处理实际业务问题时,你得像个挑西瓜的老手那样,找准最合适的Mahout算法。比如说,假如你现在正在摆弄用户行为数据这块“瓜地”,那么协同过滤或者矩阵分解这两把“好刀”也许就是你的菜。再比如,要是你正面临分类或回归这两大“关卡”,那就该果断拿起决策树、随机森林这些“秘密武器”,甚至线性回归这位“老朋友”,它们都会是助你闯关的得力帮手。 此外,在实际操作中,我们还需关注数据的质量和完整性,确保迁移后的数据能够准确反映现实世界的问题,以便后续的机器学习模型能得出有价值的预测结果。 总之,将数据集迁移到Mahout是一个涉及数据理解、预处理、模型选择及应用的复杂过程。在这个过程中,不仅要掌握Mahout的基本操作,还要灵活运用机器学习的知识去解决实际问题。每一次数据迁移都是对数据背后故事的一次探索,愿你在Mahout的世界里,发现更多关于数据的秘密!
2023-01-22 17:10:27
67
凌波微步
转载文章
...领导人) 倍增是一种二进制拆分的思想,其已广泛应用于ST表,求解LCA等算法,为我国生产力的发展,推进共产主义的早日实现做出了巨大贡献. 实现方式 类比ST表的实现方式,同志们可以设\(path[i][j]\)为结点i向上跳\(2^j\)后到达的结点.显然,\(path[i][0]\)就是\(i\)结点的父亲. 那么如何进行二进制拆分呢?显然,\(path[i][j-1]\)向上再跳\(2^{j-1}\)次后到达的结点就是\(path[i][j]\). 于是同志们可以这样预处理: path[i][j]=path[f[i][j-1]][j-1]; 意为:\(i\)号结点向上跳\(2^j\)个长度到达的结点,等于\(i\)号结点向上跳\(2^{j-1}\)个结点到达的结点再向上跳\(2^{j-1}\)个结点. 然后将两个结点提至同一深度,不断地向上跳即可求出它们的LCA. 建设 求出LCA的具体步骤 进行预处理. 把结点x和y调整至同一高度. 将结点x和y同时向上调整,保持深度一致且二点不相会.具体地说,就是将\(x\)和\(y\)以此向上走\(k\)=\(2^{logn}\),...,\(2^1\),\(2^0\)步,如果\(path[x][k]\)!=\(path[y][k]\)(即两点还未相会),就令\(x\)=\(path[x][k]\),\(y\)=\(path[y][k]\). 这时\(x\)与\(y\)只差一步就相会了,返回\(path[x][0]\),即\(x\)的父亲,即为\(x\)和\(y\)的LCA. 该算法的时间复杂度为\(O(log2(Depth))\) 模板题 代码: include<cstdio>include<cstring>include<algorithm>include<iomanip>include<vector>using namespace std;struct edge{int next,to;}e[1000010];int n,m,s,size;int head[500010],depth[500010],path[500010][51];void EdgeAdd(int,int);int LCA(int,int);void DFS(int,int);int main(){memset(head,-1,sizeof(head));scanf("%d%d%d",&n,&m,&s);for(int _=1;_<=n-1;_++){int father,son;scanf("%d%d",&father,&son);EdgeAdd(father,son);EdgeAdd(son,father);}DFS(s,0);for(int _=1;_<=m;_++){int a,b;scanf("%d%d",&a,&b);printf("%d\n",LCA(a,b));}return 0;}void EdgeAdd(int from,int to){e[++size].to=to;e[size].next=head[from];head[from]=size;}void DFS(int from,int father){depth[from]=depth[father]+1;path[from][0]=father;for(int _=1;(1<<_)<=depth[from];_++){path[from][_]=path[path[from][_-1]][_-1];}for(int _=head[from];_!=-1;_=e[_].next){int to=e[_].to;if(to!=father){DFS(to,from);} }}int LCA(int a,int b){if(depth[a]>depth[b]){swap(a,b);}for(int _=20;_>=0;_--){if(depth[a]<=depth[b]-(1<<_)){b=path[b][_];} }if(a==b){return a;}for(int _=20;_>=0;_--){if(path[a][_]==path[b][_]){continue;}else{a=path[a][_];b=path[b][_];} }return path[a][0];} Tarjan版LCA Tarjan版的LCA是离线的,而上文介绍的倍增版LCA是在线的,所以说如果不是直接输出LCA的话,需要一个数组来记录它. 主体思想 从根结点遍历这棵树,遍历到每个结点并使用并查集记录父子关系. 实现方式 用并查集记录父子关系,将遍历过的点合并为一颗树. 若两个结点\(x\),\(y\)分别位于结点\(a\)的左右子树中,那么结点\(a\)就为\(x\)与\(y\)的LCA. 考虑到该结点本身就是自己的LCA的情况,做出如下修改: 若\(a\)是\(x\)和\(y\)的祖先之一,且\(x\)和\(y\)分别在\(a\)的左右子树中,那么\(a\)便是\(x\)和\(y\)的LCA. 这个定理便是Tarjan版LCA的实现基础. 具体步骤 当遍历到一个结点\(x\)时,有以下步骤: 把这个结点标记为已访问. 遍历这个结点的子结点\(y\),并在回溯时用并查集合并\(x\)和\(y\). 遍历与当前结点有查询关系的结点\(z\),如果\(z\)已被访问,则它们的LCA就为\(find(z)\). 需要同志们注意的是,存查询关系的时候是要双向存储的. 该算法的时间复杂度为\(O(n+m)\) Tarjan版的LCA很少用到,但为了方便理解,这里引用了参考文献2里的代码,望原博主不要介意. 代码: include<bits/stdc++.h>using namespace std;int n,k,q,v[100000];map<pair<int,int>,int> ans;//存答案int t[100000][10],top[100000];//存储查询关系struct node{int l,r;};node s[100000];/并查集/int fa[100000];void reset(){for (int i=1;i<=n;i++){fa[i]=i;} }int getfa(int x){return fa[x]==x?x:getfa(fa[x]);}void marge(int x,int y){fa[getfa(y)]=getfa(x);}/------/void tarjan(int x){v[x]=1;//标记已访问node p=s[x];//获取当前结点结构体if (p.l!=-1){tarjan(p.l);marge(x,p.l);}if (p.r!=-1){tarjan(p.r);marge(x,p.r);}//分别对l和r结点进行操作for (int i=1;i<=top[x];i++){if (v[t[x][i]]){cout<<getfa(t[x][i])<<endl;}//输出} }int main(){cin>>n>>q;for (int i=1;i<=n;i++){cin>>s[i].l>>s[i].r;}for (int i=1;i<=q;i++){int a,b;cin>>a>>b;t[a][++top[a]]=b;//存储查询关系t[b][++top[b]]=a;}reset();//初始化并查集tarjan(1);//tarjan 求 LCA} 参考文献 参考文献1 参考文献2 参考文献3 转载于:https://www.cnblogs.com/Lemir3/p/11112663.html 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_30736301/article/details/96105162。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-02-09 23:03:55
154
转载
转载文章
...删除属性 数值类型:二进制操作符 C.__add__(self, obj) 加;+操作符 C.__sub__(self, obj) 减;-操作符 C.__mul__(self, obj) 乘;操作符 C.__div__(self, obj) 除;/操作符 C.__truediv__(self, obj) True 除;/操作符 C.__floordiv__(self, obj) Floor 除;//操作符 C.__mod__(self, obj) 取模/取余;%操作符 C.__divmod__(self, obj) 除和取模;内建divmod() C.__pow__(self, obj[, mod]) 乘幂;内建pow();操作符 C.__lshift__(self, obj) 左移位;< 数值类型:二进制操作符 C.__rshift__(self, obj) 右移;>>操作符 C.__and__(self, obj) 按位与;&操作符 C.__or__(self, obj) 按位或;|操作符 C.__xor__(self, obj) 按位与或;^操作符 数值类型:一元操作符 C.__neg__(self) 一元负 C.__pos__(self) 一元正 C.__abs__(self) 绝对值;内建abs() C.__invert__(self) 按位求反;~操作符 数值类型:数值转换 C.__complex__(self, com) 转为complex(复数);内建complex() C.__int__(self) 转为int;内建int() C.__long__(self) 转 .long;内建long() C.__float__(self) 转为float;内建float() 数值类型:基本表示法(String) C.__oct__(self) 八进制表示;内建oct() C.__hex__(self) 十六进制表示;内建hex() 数值类型:数值压缩 C.__coerce__(self, num) 压缩成同样的数值类型;内建coerce() C.__index__(self) 在有必要时,压缩可选的数值类型为整型(比如:用于切片索引等等) 序列类型 C.__len__(self) 序列中项的数目 C.__getitem__(self, ind) 得到单个序列元素 C.__setitem__(self, ind,val) 设置单个序列元素 C.__delitem__(self, ind) 删除单个序列元素 C.__getslice__(self, ind1,ind2) 得到序列片断 C.__setslice__(self, i1, i2,val) 设置序列片断 C.__delslice__(self, ind1,ind2) 删除序列片断 C.__contains__(self, val) 测试序列成员;内建in 关键字 C.__add__(self,obj) 串连;+操作符 C.__mul__(self,obj) 重复;操作符 C.__iter__(self) 创建迭代类;内建iter() 映射类型 C.__len__(self) mapping 中的项的数目 C.__hash__(self) 散列(hash)函数值 C.__getitem__(self,key) 得到给定键(key)的值 C.__setitem__(self,key,val) 设置给定键(key)的值 C.__delitem__(self,key) 删除给定键(key)的值 C.__missing__(self,key) 给定键如果不存在字典中,则提供一个默认值 一:简单定制 classRoundFloatManual(object):def __init__(self, val):assert isinstance(val, float), "Value must be a float!"self.value= round(val, 2)>>> rfm =RoundFloatManual(42) Traceback (mostrecent call last): File"", line 1, in? File"roundFloat2.py", line 5, in __init__assertisinstance(val, float), \ AssertionError: Value must be a float!>>> rfm =RoundFloatManual(4.2)>>>rfm >>> printrfm 它因输入非法而异常,但如果输入正确时,就没有任何输出了。在解释器中,我们得到一些信息,却不是我们想要的。print(使用str())和真正的字符串对象表示(使用repr())都没能显示更多有关我们对象的信息。这就需要实现__str__()和__repr__()二者之一,或者两者都实现。加入下面的方法: def __str__(self):return str(self.value) 现在我们得到下面的: >>> rfm = RoundFloatManual(5.590464)>>>rfm >>> printrfm5.59 >>> rfm = RoundFloatManual(5.5964)>>> printrfm5.6 但是在解释器中转储(dump)对象时,仍然显示的是默认对象符号,要修复它,只需要覆盖__repr__()。可以让__repr__()和__str__()具有相同的代码,但最好的方案是:__repr__ = __str__ 在带参数5.5964的第二个例子中,我们看到它舍入值刚好为5.6,但我们还是想显示带两位小数的数。可以这样修改: def __str__(self):return '%.2f' % self.value 这里就同时具备str()和repr()的输出了: >>> rfm =RoundFloatManual(5.5964)>>>rfm5.60 >>>printrfm5.60 所有代码如下: classRoundFloatManual(object):def __init__(self,val):assert isinstance(val, float), "Valuemust be a float!"self.value= round(val, 2)def __str__(self):return '%.2f' %self.value__repr__ = __str__ 二:数值定制 定义一个Time60,其中,将整数的小时和分钟作为输入传给构造器: classTime60(object):def __init__(self, hr, min): self.hr=hr self.min= min 1:显示 需要在显示实例的时候,得到一个有意义的输出,那么就要覆盖__str__()(如果有必要的话,__repr__()也要覆盖): def __str__(self):return '%d:%d' % (self.hr, self.min) 比如: >>> mon =Time60(10, 30)>>> tue =Time60(11, 15)>>> >>> printmon, tue10:30 11:15 2:加法 Python中的重载操作符很简单。像加号(+),只需要重载__add__()方法,如果合适,还可以用__radd__()及__iadd__()。注意,实现__add__()的时候,必须认识到它返回另一个Time60对象,而不修改原mon或tue: def __add__(self, other):return self.__class__(self.hr + other.hr, self.min + other.min) 在类中,一般不直接调用类名,而是使用self 的__class__属性,即实例化self 的那个类,并调用它。调用self.__class__()与调用Time60()是一回事。但self.__class__()的方式更好。 >>> mon = Time60(10, 30)>>> tue = Time60(11, 15)>>> mon +tue >>> print mon +tue21:45 如果没有定义相对应的特殊方法,但是却使用了该方法对应的运算,则会引起一个TypeError异常: >>> mon -tue Traceback (mostrecent call last): File"", line 1, in? TypeError:unsupported operand type(s)for -: 'Time60' and 'Time60' 3:原位加法 __iadd__(),是用来支持像mon += tue 这样的操作符,并把正确的结果赋给mon。重载一个__i__()方法的唯一秘密是它必须返回self: def __iadd__(self, other): self.hr+=other.hr self.min+=other.minreturn self 下面是结果输出: >>> mon = Time60(10,30)>>> tue = Time60(11,15)>>>mon10:30 >>>id(mon)401872 >>> mon +=tue>>>id(mon)401872 >>>mon21:45 下面是Time60的类的完全定义: classTime60(object):'Time60 - track hours and minutes' def __init__(self,hr, min):'Time60 constructor - takes hours andminutes'self.hr=hr self.min=mindef __str__(self):'Time60 - string representation' return '%d:%d' %(self.hr, self.min)__repr__ = __str__ def __add__(self, other):'Time60 - overloading the additionoperator' return self.__class__(self.hr + other.hr,self.min +other.min)def __iadd__(self,other):'Time60 - overloading in-place addition'self.hr+=other.hr self.min+=other.minreturn self 4:升华 在这个类中,还有很多需要优化和改良的地方。首先看下面的例子: >>> wed =Time60(12, 5)>>>wed12:5 正确的显示应该是:“12:05” >>> thu =Time60(10, 30)>>> fri =Time60(8, 45)>>> thu +fri18:75 正确的显示应该是:19:15 可以做出如下修改: def __str__(self):return '%02d:%02d'%(self.hr, self.min)__repr__ = __str__ def __add__(self, othertime): tmin= self.min +othertime.min thr= self.hr +othertime.hrreturn self.__class__(thr + tmin/60, tmin%60)def __iadd__(self, othertime): self.min+=othertime.min self.hr+=othertime.hr self.hr+= self.min/60self.min%= 60 return self 三:迭代器 迭代器对象本身需要支持以下两种方法,它们组合在一起形成迭代器协议: iterator.__iter__() 返回迭代器对象本身。 iterator.next() 从容器中返回下一个元素。 实现了__iter__()和next()方法的类就是一个迭代器。自定义迭代器的例子如下: RandSeq(Random Sequence),传入一个初始序列,__init__()方法执行前述的赋值操作。__iter__()仅返回self,这就是如何将一个对象声明为迭代器的方式,最后,调用next()来得到迭代器中连续的值。这个迭代器唯一的亮点是它没有终点。代码如下: classRandSeq(object):def __init__(self, seq): self.data=seqdef __iter__(self):returnselfdefnext(self):return choice(self.data) 运行它,将会看到下面的输出: >>> from randseq importRandSeq>>> for eachItem in RandSeq(('rock', 'paper', 'scissors')): ...printeachItem ... scissors scissors rock paper paper scissors ...... 四:多类型定制 现在创建另一个新类,NumStr,由一个数字-字符对组成,记为n和s,数值类型使用整型(integer)。用[n::s]来表示它,这两个数据元素构成一个整体。NumStr有下面的特征: 初始化: 类应当对数字和字符串进行初始化;如果其中一个(或两)没有初始化,则使用0和空字符串,也就是, n=0 且s=''作为默认。 加法: 定义加法操作符,功能是把数字加起来,把字符连在一起;比如,NumStr1=[n1::s1]且NumStr2=[n2::s2]。则NumStr1+NumStr2 表示[n1+n2::s1+s2],其中,+代表数字相加及字符相连接。 乘法: 类似的, 定义乘法操作符的功能为, 数字相乘,字符累积相连, 也就是,NumStr1NumStr2=[n1n::s1n]。 False 值:当数字的数值为 0 且字符串为空时,也就是当NumStr=[0::'']时,这个实体即有一个false值。 比较: 比较一对NumStr对象,比如,[n1::s1] vs. [n2::s2],有九种不同的组合。对数字和字符串,按照标准的数值和字典顺序的进行比较。 如果obj1< obj2,则cmp(obj1, obj2)的返回值是一个小于0 的整数, 当obj1 > obj2 时,比较的返回值大于0, 当两个对象有相同的值时, 比较的返回值等于0。 我们的类的解决方案是把这些值相加,然后返回结果。为了能够正确的比较对象,我们需要让__cmp__()在 (n1>n2) 且 (s1>s2)时,返回 1,在(n1s2),或相反),返回0. 反之亦然。代码如下: classNumStr(object):def __init__(self, num=0, string=''): self.__num =num self.__string =stringdef __str__(self):return '[%d :: %r]' % (self.__num, self.__string)__repr__ = __str__ def __add__(self, other):ifisinstance(other, NumStr):return self.__class__(self.__num + other.__num, self.__string + other.__string)else:raise TypeError, 'Illegal argument type for built-in operation' def __mul__(self, num):ifisinstance(num, int):return self.__class__(self.__num num, self.__string num)else:raise TypeError, 'Illegal argument type for built-inoperation' def __nonzero__(self):return self.__num or len(self.__string)def __norm_cval(self, cmpres):returncmp(cmpres, 0)def __cmp__(self, other):return self.__norm_cval(cmp(self.__num, other.__num))+\ self.__norm_cval(cmp(self.__string,other.__string)) 执行一些例子: >>> a =NumStr(3, 'foo')>>> b =NumStr(3, 'goo')>>> c =NumStr(2, 'foo')>>> d =NumStr()>>> e =NumStr(string='boo')>>> f =NumStr(1)>>>a [3 :: 'foo']>>>b [3 :: 'goo']>>>c [2 :: 'foo']>>>d [0 ::'']>>>e [0 ::'boo']>>>f [1 :: '']>>> a True>>> b False>>> a ==a True>>> b 2[6 :: 'googoo']>>> a 3[9 :: 'foofoofoo']>>> b +e [3 :: 'gooboo']>>> e +b [3 :: 'boogoo']>>> if d: 'not false'...>>> if e: 'not false'...'not false' >>>cmp(a, b)-1 >>>cmp(a, c)1 >>>cmp(a, a) 0 如果在__str__中使用“%s”,将导致字符串没有引号: return '[%d :: %s]' % (self.__num, self.__string)>>> printa [3 :: foo] 第二个元素是一个字符串,如果用户看到由引号标记的字符串时,会更加直观。要做到这点,使用“repr()”表示法对代码进行转换,把“%s”替换成“%r”。这相当于调用repr()或者使用单反引号来给出字符串的可求值版本--可求值版本的确要有引号: >>> printa [3 :: 'foo'] __norm_cval()不是一个特殊方法。它是一个帮助我们重载__cmp__()的助手函数:唯一的目的就是把cmp()返回的正值转为1,负值转为-1。cmp()基于比较的结果,通常返回任意的正数或负数(或0),但为了我们的目的,需要严格规定返回值为-1,0 和1。 对整数调用cmp()及与 0 比较,结果即是我们所需要的,相当于如下代码片断: def __norm_cval(self, cmpres):if cmpres<0:return -1 elif cmpres>0:return 1 else:return 0 两个相似对象的实际比较是比较数字,比较字符串,然后返回这两个比较结果的和。 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_30849865/article/details/112989450。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-04-19 14:30:42
132
转载
转载文章
...储介质中存放的实际是二进制的比特流。那么在这两者之间的转换规则就需要一个统一的标准,否则把我们的U盘插到老板的电脑上,文档就乱码了;小伙伴QQ上传过来的文件,在我们本地打开又乱码了。 于是为了实现转换标准,各种字符集标准就出现了。 简单的说:字符集就规定了某个文字对应的二进制数字存放方式(编码)和某串二进制数值代表了哪个文字(解码)的转换关系。 那么为什么会有那么多字符集标准呢? 这个问题实际非常容易回答。问问自己为什么我们的插头拿到英国就不能用了呢?为什么显示器同时有DVI、VGA、HDMI、DP这么多接口呢?很多规范和标准在最初制定时并不会意识到这将会是以后全球普适的准则,或者处于组织本身利益就想从本质上区别于现有标准。于是,就产生了那么多具有相同效果但又不相互兼容的标准了。 说了那么多我们来看一个实际例子,下面就是“屌”这个字在各种编码下的十六进制和二进制编码结果,怎么样有没有一种很屌的感觉? 6、什么是字符编码 字符集只是一个规则集合的名字,对应到真实生活中,字符集就是对某种语言的称呼。例如:英语,汉语,日语。 对于一个字符集来说要正确编码转码一个字符需要三个关键元素: 1)字库表(character repertoire):是一个相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现表示的所有字符的范围; 2)编码字符集(coded character set):即用一个编码值code point来表示一个字符在字库中的位置; 3)字符编码(character encoding form):将编码字符集和实际存储数值之间的转换关系。 一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中“A”在表中排第65位,而编码后A的数值是 0100 0001 也即十进制的65的二进制转换结果。 看到这里,可能很多读者都会有和我当初一样的疑问:字库表和编码字符集看来是必不可少的,那既然字库表中的每一个字符都有一个自己的序号,直接把序号作为存储内容就好了。为什么还要多此一举通过字符编码把序号转换成另外一种存储格式呢? 其实原因也比较容易理解:统一字库表的目的是为了能够涵盖世界上所有的字符,但实际使用过程中会发现真正用的上的字符相对整个字库表来说比例非常低。例如中文地区的程序几乎不会需要日语字符,而一些英语国家甚至简单的ASCII字库表就能满足基本需求。而如果把每个字符都用字库表中的序号来存储的话,每个字符就需要3个字节(这里以Unicode字库为例),这样对于原本用仅占一个字符的ASCII编码的英语地区国家显然是一个额外成本(存储体积是原来的三倍)。算的直接一些,同样一块硬盘,用ASCII可以存1500篇文章,而用3字节Unicode序号存储只能存500篇。于是就出现了UTF-8这样的变长编码。在UTF-8编码中原本只需要一个字节的ASCII字符,仍然只占一个字节。而像中文及日语这样的复杂字符就需要2个到3个字节来存储。 关于字符编码知识的详细讲解请见:《字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8》。 7、UTF-8和Unicode的关系 看完上面两个概念解释,那么解释UTF-8和Unicode的关系就比较简单了。 Unicode就是上文中提到的编码字符集,而UTF-8就是字符编码,即Unicode规则字库的一种实现形式。 随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字,并将为他们编号。详见:Unicode百科介绍。 Unicode的编号从 0000 开始一直到10FFFF 共分为17个Plane,每个Plane中有65536个字符。而UTF-8则只实现了第一个Plane,可见UTF-8虽然是一个当今接受度最广的字符集编码,但是它并没有涵盖整个Unicode的字库,这也造成了它在某些场景下对于特殊字符的处理困难(下文会有提到)。 8、UTF-8编码简介 为了更好的理解后面的实际应用,我们这里简单的介绍下UTF-8的编码实现方法。即UTF-8的物理存储和Unicode序号的转换关系。 UTF-8编码为变长编码,最小编码单位(code unit)为一个字节。一个字节的前1-3个bit为描述性部分,后面为实际序号部分: 1)如果一个字节的第一位为0,那么代表当前字符为单字节字符,占用一个字节的空间。0之后的所有部分(7个bit)代表在Unicode中的序号; 2)如果一个字节以110开头,那么代表当前字符为双字节字符,占用2个字节的空间。110之后的所有部分(5个bit)加上后一个字节的除10外的部分(6个bit)代表在Unicode中的序号。且第二个字节以10开头; 3)如果一个字节以1110开头,那么代表当前字符为三字节字符,占用3个字节的空间。110之后的所有部分(5个bit)加上后两个字节的除10外的部分(12个bit)代表在Unicode中的序号。且第二、第三个字节以10开头; 4)如果一个字节以10开头,那么代表当前字节为多字节字符的第二个字节。10之后的所有部分(6个bit)和之前的部分一同组成在Unicode中的序号。 具体每个字节的特征可见下表,其中“x”代表序号部分,把各个字节中的所有x部分拼接在一起就组成了在Unicode字库中的序号。如下图所示。 我们分别看三个从一个字节到三个字节的UTF-8编码例子: 细心的读者不难从以上的简单介绍中得出以下规律: 1)3个字节的UTF-8十六进制编码一定是以E开头的; 2)2个字节的UTF-8十六进制编码一定是以C或D开头的; 3)1个字节的UTF-8十六进制编码一定是以比8小的数字开头的。 9、为什么会出现乱码 乱码也就是英文常说的mojibake(由日语的文字化け音译)。 简单的说乱码的出现是因为:编码和解码时用了不同或者不兼容的字符集。 对应到真实生活中:就好比是一个英国人为了表示祝福在纸上写了bless(编码过程)。而一个法国人拿到了这张纸,由于在法语中bless表示受伤的意思,所以认为他想表达的是受伤(解码过程)。这个就是一个现实生活中的乱码情况。 在计算机科学中一样:一个用UTF-8编码后的字符,用GBK去解码。由于两个字符集的字库表不一样,同一个汉字在两个字符表的位置也不同,最终就会出现乱码。 我们来看一个例子,假设我们用UTF-8编码存储“很屌”两个字,会有如下转换: 于是我们得到了E5BE88E5B18C这么一串数值,而显示时我们用GBK解码进行展示,通过查表我们获得以下信息: 解码后我们就得到了“寰堝睂”这么一个错误的结果,更要命的是连字符个数都变了。 10、如何识别乱码的本来想要表达的文字 要从乱码字符中反解出原来的正确文字需要对各个字符集编码规则有较为深刻的掌握。但是原理很简单,这里用以MySQL数据库中的数据操纵中最常见的UTF-8被错误用GBK展示时的乱码为例,来说明具体反解和识别过程。 10.1 第1步:编码 假设我们在页面上看到“寰堝睂”这样的乱码,而又得知我们的浏览器当前使用GBK编码。那么第一步我们就能先通过GBK把乱码编码成二进制表达式。 当然查表编码效率很低,我们也可以用以下SQL语句直接通过MySQL客户端来做编码工作: mysql [localhost] {msandbox} > selecthex(convert('寰堝睂'using gbk)); +-------------------------------------+ | hex(convert('寰堝睂'using gbk)) | +-------------------------------------+ | E5BE88E5B18C | +-------------------------------------+ 1 row inset(0.01 sec) 10.2 第2步:识别 现在我们得到了解码后的二进制字符串E5BE88E5B18C。然后我们将它按字节拆开。 然后套用之前UTF-8编码介绍章节中总结出的规律,就不难发现这6个字节的数据符合UTF-8编码规则。如果整个数据流都符合这个规则的话,我们就能大胆假设乱码之前的编码字符集是UTF-8。 10.3 第3步:解码 然后我们就能拿着 E5BE88E5B18C 用UTF-8解码,查看乱码前的文字了。 当然我们可以不查表直接通过SQL获得结果: mysql [localhost] {msandbox} ((none)) > selectconvert(0xE5BE88E5B18C using utf8); +------------------------------------+ | convert(0xE5BE88E5B18C using utf8) | +------------------------------------+ | 很屌 | +------------------------------------+ 1 row inset(0.00 sec) 11、常见的IM乱码问题处理之MySQL中的Emoji字符 所谓Emoji就是一种在Unicode位于 \u1F601-\u1F64F 区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围 \u0000-\uFFFF。Emoji表情随着IOS的普及和微信的支持越来越常见。 下面就是几个常见的Emoji(IM聊天软件中经常会被用到): 那么Emoji字符表情会对我们平时的开发运维带来什么影响呢? 最常见的问题就在于将他存入MySQL数据库的时候。一般来说MySQL数据库的默认字符集都会配置成UTF-8(三字节),而utf8mb4在5.5以后才被支持,也很少会有DBA主动将系统默认字符集改成utf8mb4。 那么问题就来了,当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错:ERROR 1366: Incorrect string value: '\xF0\x9D\x8C\x86' for column 。 如果认真阅读了上面的解释,那么这个报错也就不难看懂了:我们试图将一串Bytes插入到一列中,而这串Bytes的第一个字节是 \xF0 意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的,所以报了错。 那么遇到这种情况我们如何解决呢? 有两种方式: 1)升级MySQL到5.6或更高版本,并且将表字符集切换至utf8mb4; 2)在把内容存入到数据库之前做一次过滤,将Emoji字符替换成一段特殊的文字编码,然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。 第二种方法我们假设用 --1F601-- 来替代4字节的Emoji,那么具体实现python代码可以参见Stackoverflow上的回答。 12、参考文献 [1] 如何配置Python默认字符集 [2] 字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8 [3] Unicode中文编码表 [4] Emoji Unicode Table [5] Every Developer Should Know About The Encoding 附录:更多IM开发方面的文章 [1] IM开发综合文章: 《新手入门一篇就够:从零开发移动端IM》 《移动端IM开发者必读(一):通俗易懂,理解移动网络的“弱”和“慢”》 《移动端IM开发者必读(二):史上最全移动弱网络优化方法总结》 《从客户端的角度来谈谈移动端IM的消息可靠性和送达机制》 《现代移动端网络短连接的优化手段总结:请求速度、弱网适应、安全保障》 《腾讯技术分享:社交网络图片的带宽压缩技术演进之路》 《小白必读:闲话HTTP短连接中的Session和Token》 《IM开发基础知识补课:正确理解前置HTTP SSO单点登陆接口的原理》 《移动端IM开发需要面对的技术问题》 《开发IM是自己设计协议用字节流好还是字符流好?》 《请问有人知道语音留言聊天的主流实现方式吗?》 《一个低成本确保IM消息时序的方法探讨》 《完全自已开发的IM该如何设计“失败重试”机制?》 《通俗易懂:基于集群的移动端IM接入层负载均衡方案分享》 《微信对网络影响的技术试验及分析(论文全文)》 《即时通讯系统的原理、技术和应用(技术论文)》 《开源IM工程“蘑菇街TeamTalk”的现状:一场有始无终的开源秀》 《QQ音乐团队分享:Android中的图片压缩技术详解(上篇)》 《QQ音乐团队分享:Android中的图片压缩技术详解(下篇)》 《腾讯原创分享(一):如何大幅提升移动网络下手机QQ的图片传输速度和成功率》 《腾讯原创分享(二):如何大幅压缩移动网络下APP的流量消耗(上篇)》 《腾讯原创分享(三):如何大幅压缩移动网络下APP的流量消耗(下篇)》 《如约而至:微信自用的移动端IM网络层跨平台组件库Mars已正式开源》 《基于社交网络的Yelp是如何实现海量用户图片的无损压缩的?》 《腾讯技术分享:腾讯是如何大幅降低带宽和网络流量的(图片压缩篇)》 《腾讯技术分享:腾讯是如何大幅降低带宽和网络流量的(音视频技术篇)》 《字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8》 《全面掌握移动端主流图片格式的特点、性能、调优等》 《子弹短信光鲜的背后:网易云信首席架构师分享亿级IM平台的技术实践》 《微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)》 《自已开发IM有那么难吗?手把手教你自撸一个Andriod版简易IM (有源码)》 《融云技术分享:解密融云IM产品的聊天消息ID生成策略》 《适合新手:从零开发一个IM服务端(基于Netty,有完整源码)》 《拿起键盘就是干:跟我一起徒手开发一套分布式IM系统》 >> 更多同类文章 …… [2] 有关IM架构设计的文章: 《浅谈IM系统的架构设计》 《简述移动端IM开发的那些坑:架构设计、通信协议和客户端》 《一套海量在线用户的移动端IM架构设计实践分享(含详细图文)》 《一套原创分布式即时通讯(IM)系统理论架构方案》 《从零到卓越:京东客服即时通讯系统的技术架构演进历程》 《蘑菇街即时通讯/IM服务器开发之架构选择》 《腾讯QQ1.4亿在线用户的技术挑战和架构演进之路PPT》 《微信后台基于时间序的海量数据冷热分级架构设计实践》 《微信技术总监谈架构:微信之道——大道至简(演讲全文)》 《如何解读《微信技术总监谈架构:微信之道——大道至简》》 《快速裂变:见证微信强大后台架构从0到1的演进历程(一)》 《17年的实践:腾讯海量产品的技术方法论》 《移动端IM中大规模群消息的推送如何保证效率、实时性?》 《现代IM系统中聊天消息的同步和存储方案探讨》 《IM开发基础知识补课(二):如何设计大量图片文件的服务端存储架构?》 《IM开发基础知识补课(三):快速理解服务端数据库读写分离原理及实践建议》 《IM开发基础知识补课(四):正确理解HTTP短连接中的Cookie、Session和Token》 《WhatsApp技术实践分享:32人工程团队创造的技术神话》 《微信朋友圈千亿访问量背后的技术挑战和实践总结》 《王者荣耀2亿用户量的背后:产品定位、技术架构、网络方案等》 《IM系统的MQ消息中间件选型:Kafka还是RabbitMQ?》 《腾讯资深架构师干货总结:一文读懂大型分布式系统设计的方方面面》 《以微博类应用场景为例,总结海量社交系统的架构设计步骤》 《快速理解高性能HTTP服务端的负载均衡技术原理》 《子弹短信光鲜的背后:网易云信首席架构师分享亿级IM平台的技术实践》 《知乎技术分享:从单机到2000万QPS并发的Redis高性能缓存实践之路》 《IM开发基础知识补课(五):通俗易懂,正确理解并用好MQ消息队列》 《微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)》 《微信技术分享:微信的海量IM聊天消息序列号生成实践(容灾方案篇)》 《新手入门:零基础理解大型分布式架构的演进历史、技术原理、最佳实践》 《一套高可用、易伸缩、高并发的IM群聊、单聊架构方案设计实践》 《阿里技术分享:深度揭秘阿里数据库技术方案的10年变迁史》 《阿里技术分享:阿里自研金融级数据库OceanBase的艰辛成长之路》 《社交软件红包技术解密(一):全面解密QQ红包技术方案——架构、技术实现等》 《社交软件红包技术解密(二):解密微信摇一摇红包从0到1的技术演进》 《社交软件红包技术解密(三):微信摇一摇红包雨背后的技术细节》 《社交软件红包技术解密(四):微信红包系统是如何应对高并发的》 《社交软件红包技术解密(五):微信红包系统是如何实现高可用性的》 《社交软件红包技术解密(六):微信红包系统的存储层架构演进实践》 《社交软件红包技术解密(七):支付宝红包的海量高并发技术实践》 《社交软件红包技术解密(八):全面解密微博红包技术方案》 《社交软件红包技术解密(九):谈谈手Q红包的功能逻辑、容灾、运维、架构等》 《即时通讯新手入门:一文读懂什么是Nginx?它能否实现IM的负载均衡?》 《即时通讯新手入门:快速理解RPC技术——基本概念、原理和用途》 《多维度对比5款主流分布式MQ消息队列,妈妈再也不担心我的技术选型了》 《从游击队到正规军(一):马蜂窝旅游网的IM系统架构演进之路》 《从游击队到正规军(二):马蜂窝旅游网的IM客户端架构演进和实践总结》 《IM开发基础知识补课(六):数据库用NoSQL还是SQL?读这篇就够了!》 《瓜子IM智能客服系统的数据架构设计(整理自现场演讲,有配套PPT)》 《阿里钉钉技术分享:企业级IM王者——钉钉在后端架构上的过人之处》 >> 更多同类文章 …… (本文同步发布于:http://www.52im.net/thread-2868-1-1.html) 本篇文章为转载内容。原文链接:https://blog.csdn.net/hellojackjiang2011/article/details/103586305。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2024-04-29 12:29:21
522
转载
转载文章
...e深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本,请升级jieba,pip install jieba --upgrade 。PaddlePaddle官网 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 如果需要使用paddle模式下的分词和词性标注功能,请先安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut 方法接受四个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型;use_paddle 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码; jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。 代码示例 encoding=utf-8import jiebajieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持,早期版本不支持strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]for str in strs:seg_list = jieba.cut(str,use_paddle=True) 使用paddle模式print("Paddle Mode: " + '/'.join(list(seg_list)))seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") 默认是精确模式print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) 输出: 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 添加自定义词典 载入词典 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdict(file_name) file_name 为文件类对象或自定义词典的路径 词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。 词频省略时使用自动计算的能保证分出该词的词频。 例如: 创新办 3 i云计算 5凱特琳 nz台中 更改分词器(默认为 jieba.dt)的 tmp_dir 和 cache_file 属性,可分别指定缓存文件所在的文件夹及其文件名,用于受限的文件系统。 范例: 自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py 之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 / 加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / 调整词典 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。 注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。 代码示例: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 “通过用户自定义词典来增强歧义纠错能力” — https://github.com/fxsjy/jieba/issues/14 关键词提取 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选 jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件 代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py 关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_idf_path(file_name) file_name为自定义语料库的路径 自定义语料库示例:https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py 关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_stop_words(file_name) file_name为自定义语料库的路径 自定义语料库示例:https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py 关键词一并返回关键词权重值示例 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py 基于 TextRank 算法的关键词抽取 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用,接口相同,注意默认过滤词性。 jieba.analyse.TextRank() 新建自定义 TextRank 实例 算法论文: TextRank: Bringing Order into Texts 基本思想: 将待抽取关键词的文本进行分词 以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 计算图中节点的PageRank,注意是无向带权图 使用示例: 见 test/demo.py 词性标注 jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。 除了jieba默认分词模式,提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式,通过enable_paddle()安装paddlepaddle-tiny,并且import相关代码; 用法示例 >>> import jieba>>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门") jieba默认模式>>> jieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持,早期版本不支持>>> words = pseg.cut("我爱北京天安门",use_paddle=True) paddle模式>>> for word, flag in words:... print('%s %s' % (word, flag))...我 r爱 v北京 ns天安门 ns paddle模式词性标注对应表如下: paddle模式词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。 标签 含义 标签 含义 标签 含义 标签 含义 n 普通名词 f 方位名词 s 处所名词 t 时间 nr 人名 ns 地名 nt 机构名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间 并行分词 原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows 用法: jieba.enable_parallel(4) 开启并行分词模式,参数为并行进程数 jieba.disable_parallel() 关闭并行分词模式 例子:https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py 实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。 注意:并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。 Tokenize:返回词语在原文的起止位置 注意,输入参数只接受 unicode 默认模式 result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 搜索模式 result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh 搜索引擎 引用: from jieba.analyse import ChineseAnalyzer 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py 命令行分词 使用示例:python -m jieba news.txt > cut_result.txt 命令行选项(翻译): 使用: python -m jieba [options] filename结巴命令行界面。固定参数:filename 输入文件可选参数:-h, --help 显示此帮助信息并退出-d [DELIM], --delimiter [DELIM]使用 DELIM 分隔词语,而不是用默认的' / '。若不指定 DELIM,则使用一个空格分隔。-p [DELIM], --pos [DELIM]启用词性标注;如果指定 DELIM,词语和词性之间用它分隔,否则用 _ 分隔-D DICT, --dict DICT 使用 DICT 代替默认词典-u USER_DICT, --user-dict USER_DICT使用 USER_DICT 作为附加词典,与默认词典或自定义词典配合使用-a, --cut-all 全模式分词(不支持词性标注)-n, --no-hmm 不使用隐含马尔可夫模型-q, --quiet 不输出载入信息到 STDERR-V, --version 显示版本信息并退出如果没有指定文件名,则使用标准输入。 --help 选项输出: $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. 延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。 import jiebajieba.initialize() 手动初始化(可选) 在 0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big') 例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py 其他词典 占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small 支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big 下载你所需要的词典,然后覆盖 jieba/dict.txt 即可;或者用 jieba.set_dictionary('data/dict.txt.big') 其他语言实现 结巴分词 Java 版本 作者:piaolingxue 地址:https://github.com/huaban/jieba-analysis 结巴分词 C++ 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/cppjieba 结巴分词 Rust 版本 作者:messense, MnO2 地址:https://github.com/messense/jieba-rs 结巴分词 Node.js 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/nodejieba 结巴分词 Erlang 版本 作者:falood 地址:https://github.com/falood/exjieba 结巴分词 R 版本 作者:qinwf 地址:https://github.com/qinwf/jiebaR 结巴分词 iOS 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/iosjieba 结巴分词 PHP 版本 作者:fukuball 地址:https://github.com/fukuball/jieba-php 结巴分词 .NET(C) 版本 作者:anderscui 地址:https://github.com/anderscui/jieba.NET/ 结巴分词 Go 版本 作者: wangbin 地址: https://github.com/wangbin/jiebago 作者: yanyiwu 地址: https://github.com/yanyiwu/gojieba 结巴分词Android版本 作者 Dongliang.W 地址:https://github.com/452896915/jieba-android 友情链接 https://github.com/baidu/lac 百度中文词法分析(分词+词性+专名)系统 https://github.com/baidu/AnyQ 百度FAQ自动问答系统 https://github.com/baidu/Senta 百度情感识别系统 系统集成 Solr: https://github.com/sing1ee/jieba-solr 分词速度 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode 测试环境: Intel® Core™ i7-2600 CPU @ 3.4GHz;《围城》.txt 常见问题 1. 模型的数据是如何生成的? 详见: https://github.com/fxsjy/jieba/issues/7 2. “台中”总是被切成“台 中”?(以及类似情况) P(台中) < P(台)×P(中),“台中”词频不够导致其成词概率较低 解决方法:强制调高词频 jieba.add_word('台中') 或者 jieba.suggest_freq('台中', True) 3. “今天天气 不错”应该被切成“今天 天气 不错”?(以及类似情况) 解决方法:强制调低词频 jieba.suggest_freq(('今天', '天气'), True) 或者直接删除该词 jieba.del_word('今天天气') 4. 切出了词典中没有的词语,效果不理想? 解决方法:关闭新词发现 jieba.cut('丰田太省了', HMM=False) jieba.cut('我们中出了一个叛徒', HMM=False) 更多问题请点击:https://github.com/fxsjy/jieba/issues?sort=updated&state=closed 修订历史 https://github.com/fxsjy/jieba/blob/master/Changelog jieba “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module. Features Support three types of segmentation mode: Accurate Mode attempts to cut the sentence into the most accurate segmentations, which is suitable for text analysis. Full Mode gets all the possible words from the sentence. Fast but not accurate. Search Engine Mode, based on the Accurate Mode, attempts to cut long words into several short words, which can raise the recall rate. Suitable for search engines. Supports Traditional Chinese Supports customized dictionaries MIT License Online demo http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) Usage Fully automatic installation: easy_install jieba or pip install jieba Semi-automatic installation: Download http://pypi.python.org/pypi/jieba/ , run python setup.py install after extracting. Manual installation: place the jieba directory in the current directory or python site-packages directory. import jieba. Algorithm Based on a prefix dictionary structure to achieve efficient word graph scanning. Build a directed acyclic graph (DAG) for all possible word combinations. Use dynamic programming to find the most probable combination based on the word frequency. For unknown words, a HMM-based model is used with the Viterbi algorithm. Main Functions Cut The jieba.cut function accepts three input parameters: the first parameter is the string to be cut; the second parameter is cut_all, controlling the cut mode; the third parameter is to control whether to use the Hidden Markov Model. jieba.cut_for_search accepts two parameter: the string to be cut; whether to use the Hidden Markov Model. This will cut the sentence into short words suitable for search engines. The input string can be an unicode/str object, or a str/bytes object which is encoded in UTF-8 or GBK. Note that using GBK encoding is not recommended because it may be unexpectly decoded as UTF-8. jieba.cut and jieba.cut_for_search returns an generator, from which you can use a for loop to get the segmentation result (in unicode). jieba.lcut and jieba.lcut_for_search returns a list. jieba.Tokenizer(dictionary=DEFAULT_DICT) creates a new customized Tokenizer, which enables you to use different dictionaries at the same time. jieba.dt is the default Tokenizer, to which almost all global functions are mapped. Code example: segmentation encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 默认模式seg_list = jieba.cut("他来到了网易杭研大厦")print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) Output: [Full Mode]: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学[Accurate Mode]: 我/ 来到/ 北京/ 清华大学[Unknown Words Recognize] 他, 来到, 了, 网易, 杭研, 大厦 (In this case, "杭研" is not in the dictionary, but is identified by the Viterbi algorithm)[Search Engine Mode]: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 Add a custom dictionary Load dictionary Developers can specify their own custom dictionary to be included in the jieba default dictionary. Jieba is able to identify new words, but you can add your own new words can ensure a higher accuracy. Usage: jieba.load_userdict(file_name) file_name is a file-like object or the path of the custom dictionary The dictionary format is the same as that of dict.txt: one word per line; each line is divided into three parts separated by a space: word, word frequency, POS tag. If file_name is a path or a file opened in binary mode, the dictionary must be UTF-8 encoded. The word frequency and POS tag can be omitted respectively. The word frequency will be filled with a suitable value if omitted. For example: 创新办 3 i云计算 5凱特琳 nz台中 Change a Tokenizer’s tmp_dir and cache_file to specify the path of the cache file, for using on a restricted file system. Example: 云计算 5李小福 2创新办 3[Before]: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /[After]: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / Modify dictionary Use add_word(word, freq=None, tag=None) and del_word(word) to modify the dictionary dynamically in programs. Use suggest_freq(segment, tune=True) to adjust the frequency of a single word so that it can (or cannot) be segmented. Note that HMM may affect the final result. Example: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 Keyword Extraction import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence: the text to be extracted topK: return how many keywords with the highest TF/IDF weights. The default value is 20 withWeight: whether return TF/IDF weights with the keywords. The default value is False allowPOS: filter words with which POSs are included. Empty for no filtering. jieba.analyse.TFIDF(idf_path=None) creates a new TFIDF instance, idf_path specifies IDF file path. Example (keyword extraction) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py Developers can specify their own custom IDF corpus in jieba keyword extraction Usage: jieba.analyse.set_idf_path(file_name) file_name is the path for the custom corpus Custom Corpus Sample:https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big Sample Code:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py Developers can specify their own custom stop words corpus in jieba keyword extraction Usage: jieba.analyse.set_stop_words(file_name) file_name is the path for the custom corpus Custom Corpus Sample:https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt Sample Code:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py There’s also a TextRank implementation available. Use: jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) Note that it filters POS by default. jieba.analyse.TextRank() creates a new TextRank instance. Part of Speech Tagging jieba.posseg.POSTokenizer(tokenizer=None) creates a new customized Tokenizer. tokenizer specifies the jieba.Tokenizer to internally use. jieba.posseg.dt is the default POSTokenizer. Tags the POS of each word after segmentation, using labels compatible with ictclas. Example: >>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门")>>> for w in words:... print('%s %s' % (w.word, w.flag))...我 r爱 v北京 ns天安门 ns Parallel Processing Principle: Split target text by line, assign the lines into multiple Python processes, and then merge the results, which is considerably faster. Based on the multiprocessing module of Python. Usage: jieba.enable_parallel(4) Enable parallel processing. The parameter is the number of processes. jieba.disable_parallel() Disable parallel processing. Example: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py Result: On a four-core 3.4GHz Linux machine, do accurate word segmentation on Complete Works of Jin Yong, and the speed reaches 1MB/s, which is 3.3 times faster than the single-process version. Note that parallel processing supports only default tokenizers, jieba.dt and jieba.posseg.dt. Tokenize: return words with position The input must be unicode Default mode result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 Search mode result = jieba.tokenize(u'永和服装饰品有限公司',mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh from jieba.analyse import ChineseAnalyzer Example: https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py Command Line Interface $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. Initialization By default, Jieba don’t build the prefix dictionary unless it’s necessary. This takes 1-3 seconds, after which it is not initialized again. If you want to initialize Jieba manually, you can call: import jiebajieba.initialize() (optional) You can also specify the dictionary (not supported before version 0.28) : jieba.set_dictionary('data/dict.txt.big') Using Other Dictionaries It is possible to use your own dictionary with Jieba, and there are also two dictionaries ready for download: A smaller dictionary for a smaller memory footprint: https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small There is also a bigger dictionary that has better support for traditional Chinese (繁體): https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big By default, an in-between dictionary is used, called dict.txt and included in the distribution. In either case, download the file you want, and then call jieba.set_dictionary('data/dict.txt.big') or just replace the existing dict.txt. Segmentation speed 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode Test Env: Intel® Core™ i7-2600 CPU @ 3.4GHz;《围城》.txt 本篇文章为转载内容。原文链接:https://blog.csdn.net/yegeli/article/details/107246661。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-12-02 10:38:37
500
转载
Docker
...始,然后将hello二进制文件添加到镜像中。最后,指定了hello二进制文件作为镜像启动时要执行的命令。 2. 构建Docker镜像 $ docker build -t hello . 该命令使用Dockerfile中的指令构建名称为hello的镜像。 3. 执行Docker容器 $ docker run --name hello-app hello 该命令启动名称为hello-app的容器,并使用构建好的hello镜像执行它。
2023-02-25 10:58:36
491
数据库专家
HTML
...体积紧凑且加载快速的二进制格式,设计用于在现代网络浏览器中运行高性能客户端和服务器应用。文中虽然未直接提及WebAssembly,但作为一种前沿技术趋势,它可以使得像“我的世界”这样的大型游戏直接在浏览器中运行,无需下载安装,增强了网页游戏的便捷性和可访问性。 WebGL , Web图形库(Web Graphics Library),是一种JavaScript API,允许开发者在任何兼容的Web浏览器中无需插件就能渲染高质量的3D图形和2D图形。结合文章语境,在当前Web技术的发展背景下,WebGL的优化升级显著提升了网页游戏的画面渲染效果和性能表现,使得网页游戏能够达到与原生应用相近甚至相同的视觉体验,如《Astroneer》的成功案例所示。 CSS3 , 层叠样式表版本3(Cascading Style Sheets Level 3),是对CSS规范的最新修订版,提供了一系列增强网页布局、颜色、字体和其他设计元素的新特性。在制作“我的世界”游戏页面时,CSS3可以用来实现Logo动态展示、游戏界面丰富化和交互性的提升,进一步优化用户体验,例如通过动画效果吸引用户注意或通过自定义样式展现独特的游戏主题风格。
2023-12-24 15:52:14
527
数据库专家
VUE
...行C/C++编译后的二进制代码,这将进一步打破Web应用与本地系统的界限,为在Web端启动exe文件提供更多可能性。目前,Mozilla、Google、Microsoft等公司都在积极推动WebAssembly标准的完善与应用实践。 综上所述,在前端技术日新月异的今天,理解和掌握如何通过Vue等前端框架与本地资源进行交互,不仅能满足特定场景下的需求,更能在未来的技术浪潮中抢占先机,拓宽开发视野,实现更加丰富多元的用户体验。
2023-06-30 09:47:16
56
逻辑鬼才
MySQL
...确定MySQL服务器二进制文件的确切路径。该命令根据用户提供的条件来遍历文件系统树,返回符合条件的文件或目录的完整路径名,从而帮助用户找到MySQL的安装路径。
2023-12-31 14:25:35
112
软件工程师
MySQL
...误日志、慢查询日志和二进制日志)的工作原理,能够帮助开发者和DBA定位问题、优化SQL语句以及实现基于时间点的恢复等功能。同时,数据库审计与合规性要求促使我们关注并启用MySQL的通用日志或审计插件,以满足法规遵从性需求。 综上所述,MySQL数据库管理是一个既包含基础操作又涉及深度优化及安全管理的综合性领域,持续跟进MySQL最新动态和技术演进,将有助于提升整体数据库管理水平和应用系统的健壮性。
2023-11-16 22:43:19
84
键盘勇士
Python
...,原本被设计为7位的二进制数来表示128种可能的字符,包括大小写英文字母、数字0-9、标点符号及特殊控制字符。在Python 2.x版本中,默认字符集为ASCII码,由于其字符集有限,无法直接支持显示中文等非ASCII字符。 Unicode编码 , Unicode是一个国际通用的字符集标准,旨在统一和涵盖世界上所有书面语言中的字符。它采用多字节编码方式,可以表示几乎所有人类使用的文字符号。在Python中,字符串默认使用Unicode编码,因此处理包含中文的字符串时,需要确保输出时正确转换到对应系统的编码格式以显示中文。 Python 2.x版本与Python 3.x版本 , Python是一门不断演进发展的编程语言,根据其主要版本迭代可分为Python 2.x系列和Python 3.x系列。Python 2.x版本对Unicode的支持相对有限,需要显式声明编码才能正确处理非ASCII字符;而Python 3.x版本则改进了对Unicode的支持,将默认源文件编码设置为utf-8,简化了处理非英文字符的过程,但在实际操作中仍需注意输出时的编码问题。
2023-10-24 16:40:49
333
算法侠
JSON
...存储。由于该标准采用二进制表示十进制小数,导致部分十进制小数无法精确转换为二进制,从而在进行数学运算时可能会出现精度丢失的问题,如文章中提到的0.1与0.2相加结果不等于预期的0.3。 JSON (JavaScript Object Notation) , JSON是一种轻量级的数据交换格式,它基于JavaScript的一个子集,易于人阅读和编写,同时也易于机器解析和生成。JSON数据由键值对构成,其值可以是字符串、数字、布尔值、数组、null以及其它嵌套的JSON对象。在Web开发领域,JSON广泛应用于前后端之间的数据传输,因为它具有良好的跨语言兼容性,便于不同系统之间进行数据交换。 WebAssembly , WebAssembly是一种低级的类汇编语言,设计初衷是为了在现代网络浏览器中实现接近本机代码性能的高性能应用。WebAssembly模块可以在多种编程语言(如C/C++、Rust等)中编写并编译成字节码形式,然后在浏览器环境中运行。尽管文章中未直接提及WebAssembly,但在处理高精度计算或需要优化性能的场景下,它可以作为一种解决方案,通过在JavaScript环境中执行WebAssembly模块以达到更精确的浮点数运算效果,进而解决JSON中数值精度问题。
2023-03-17 15:37:33
314
程序媛
Java
...,原本被设计为7位的二进制数来表示128个可能的字符,包括英文大小写字母、数字、标点符号以及一些控制字符。在Java中,虽然char类型能够存储更大的Unicode字符集,但其最初设计时也兼容ASCII码。 自动装箱与拆箱 , 在Java编程中,自动装箱是指将基本数据类型(如char)自动转换成对应的包装器类对象(如Character),而自动拆箱则是指将包装器类对象自动转换为对应的基本数据类型。例如,在使用Character类方法时,编译器会自动将char类型的变量转换为Character对象(装箱),执行完方法后再转换回char类型(拆箱),这一过程对程序员来说是透明的,有助于简化代码并提高开发效率。 基本数据类型 , 在Java编程语言中,基本数据类型是预先定义好的,具有固定内存大小且不可再细分的数据种类,如int、char、boolean等。它们直接存储值而不是引用,并且不涉及类实例化的过程。比如char,它是Java中用于存储单个字符的基本数据类型。 包装器类 , Java为每个基本数据类型都提供了一个对应的引用类型,这些引用类型被称为包装器类,如Integer对应int,Character对应char等。包装器类的主要作用在于,当需要将基本类型当作对象处理(例如放入集合类中,或者调用方法时作为参数传递)时,可以将基本类型数据封装成对象。同时,包装器类还提供了很多实用的方法来进行数值处理或类型判断等功能。例如,Character类就是对char基本类型的包装,提供了诸如isLetter()和isDigit()等方法,用于判断字符是否为字母或数字。
2023-01-16 09:53:47
470
数据库专家
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
grep pattern file.txt
- 在文件中搜索模式。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"