新用户注册入口 老用户登录入口

中文分词器分词词典txt免费下载,49万多词汇

文章作者:admin-tim 更新时间:2024-01-27 19:37:56 阅读数量:369
文章标签:分词器IKAnalyzer语料配置文件
本文摘要:本文提供了中文分词器分词词典txt的免费下载地址,一键下载、解压急用。并以IKAnalyzer为例介绍了新词典如何配置。最后,介绍了几款常用的中文分词器,供大家针对性选择。原创文章,转载请注明出处。
Java

1. 背景

之前有一篇文章介绍了计算机领域的分词器词汇词典:点这里传送过去

但这里面只有计算机领域的术语,对于常用中文,比如“吃饭”、“逛街”...等词汇是不包括的。

所以,如果大家需要对日常中文文章或语料做分词,需要用这里的词典。两个词典可以并存,配置到分词器的配置文件中。

2. 下载地址

点我免费下载



词库txt文件一览(49万多个词汇):


建议:如果你的程序对分词比较敏感,请务必先小范围用少量样本测试试用,看看分词效果是否符合预期,没有问题再放入正式环境。

3. 分词器使用

关于分词器的使用,见本文第一小节的链接,那个链接里面有介绍。

如果你是用的是IKAnalyzer,可以把新的词典加入到配置文件中:IKAnalyzer.cfg.xml


4. 补充说明

尽管该文章以IKAnalyzer为例,但是这个词典是通用的,它的格式是“词汇1\n词汇2\n词汇3\n”,即用回车符分隔的一个个词汇。很多分词器都是通用的。

分词器有很多,大家根据实际需求选择使用。比如:

  • IK Analyzer:一款基于Java开发的开源中文分词工具,广泛应用于Elasticsearch和Solr中。
  • Ansj:一个高效的Java分词框架,支持多种分词模式如最大匹配、最小切分等。
  • Stanford Segmenter:斯坦福大学提供的分词器,基于统计模型和规则,具有较高的准确性。
  • FudanNLP分词器:复旦大学自然语言处理小组研发的分词系统。
  • jieba分词:Python社区中流行的开源中文分词库,支持精确模式、全模式、搜索引擎模式等多种分词模式。
  • LTP(哈工大 Language Technology Platform)分词器:哈尔滨工业大学开发的一套全面的自然语言处理工具包,其中包含高质量的分词模块。
  • THULAC:由清华大学自然语言处理与社会人文计算实验室推出的分词和词性标注工具。
  • HanLP:由李航团队开发的自然语言处理库,包含高效准确的分词组件。


相关阅读
文章标题:java中模块和类模块的区别

更新时间:2023-01-11
java中模块和类模块的区别
文章标题:java中char和ch区别

更新时间:2023-01-16
java中char和ch区别
文章标题:你知道吗,访问你的服务器的用户很可能是爬虫,如何识别它们呢

更新时间:2024-01-26
你知道吗,访问你的服务器的用户很可能是爬虫,如何识别它们呢
文章标题:java中异步和同步的问题

更新时间:2023-05-04
java中异步和同步的问题
文章标题:计算机领域分词词汇表,点这里免费下载txt,内有java的IKAnalyzer示例

更新时间:2024-01-26
计算机领域分词词汇表,点这里免费下载txt,内有java的IKAnalyzer示例
文章标题:java中T和object的关系

更新时间:2023-11-01
java中T和object的关系
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
uptime - 查看系统运行时间及负载信息。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
Kibana中设置数据保留策略:索引生命周期与滚动操作详解 04-30 MyBatis框架中`StatementParameterIndexOutOfRange`异常:参数数量与占位符匹配问题详解及解决方案 01-24 利用Docker部署Nginx并配置CORS解决Web服务器跨域问题:详解Access-Control-Allow-Origin与Access-Control-Allow-Methods设置 11-18 宽屏创意思维案例展示源码模板下载 11-12 JSON在网站数据导入中的核心角色:API接口、数据交换与解析实践 10-11 C#中声明和初始化类:构造函数、属性与对象初始化器在Person类实例化中的应用实践 08-23 Java中Write和Login用法 08-11 二级导航 代码html 08-10 详解WCF在.NET框架下的Web服务开发:从服务契约创建到终结点配置、安全性实践与部署调用 07-18 本次刷新还10个文章未展示,点击 更多查看。
利用Impala进行实时大规模日志分析:SQL查询优化与Hadoop/Hive集成实践 07-04 丰富人脸识别系统后台管理模板 06-23 响应式法律法务咨询类企业前端CMS模板下载 06-23 [转载]《Android开发从零开始》——31.模拟Http请求 05-22 分布式系统中服务注册与发现的故障容错策略:多节点注册中心、负载均衡与Dubbo异步机制配合Zookeeper和Eureka实践 05-13 Groovy语言中的日期时间处理:从创建对象到格式化、比较与计算时间差实践 05-09 Apache Solr内存优化:应对Java heap space异常,调整查询缓存与索引文件大小策略 04-07 Nacos在分布式系统中的配置管理与服务注册发现实践——复杂业务场景下的高效稳定应用 04-02 黑色响应式高端服装展示类前端模板下载 03-28 [转载]4 款实用的网页设计开源工具【附下载】 02-12 蓝色机械设备网站企业模板html下载 01-17
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"