前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[分布式搜索引擎值精确匹配技术]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...支持四种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本,请升级jieba,pip install jieba --upgrade 。PaddlePaddle官网 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 如果需要使用paddle模式下的分词和词性标注功能,请先安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut 方法接受四个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型;use_paddle 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码; jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。 代码示例 encoding=utf-8import jiebajieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持,早期版本不支持strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]for str in strs:seg_list = jieba.cut(str,use_paddle=True) 使用paddle模式print("Paddle Mode: " + '/'.join(list(seg_list)))seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") 默认是精确模式print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) 输出: 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 添加自定义词典 载入词典 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdict(file_name) file_name 为文件类对象或自定义词典的路径 词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。 词频省略时使用自动计算的能保证分出该词的词频。 例如: 创新办 3 i云计算 5凱特琳 nz台中 更改分词器(默认为 jieba.dt)的 tmp_dir 和 cache_file 属性,可分别指定缓存文件所在的文件夹及其文件名,用于受限的文件系统。 范例: 自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py 之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 / 加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / 调整词典 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。 注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。 代码示例: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 “通过用户自定义词典来增强歧义纠错能力” — https://github.com/fxsjy/jieba/issues/14 关键词提取 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选 jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件 代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py 关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_idf_path(file_name) file_name为自定义语料库的路径 自定义语料库示例:https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py 关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_stop_words(file_name) file_name为自定义语料库的路径 自定义语料库示例:https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py 关键词一并返回关键词权重值示例 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py 基于 TextRank 算法的关键词抽取 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用,接口相同,注意默认过滤词性。 jieba.analyse.TextRank() 新建自定义 TextRank 实例 算法论文: TextRank: Bringing Order into Texts 基本思想: 将待抽取关键词的文本进行分词 以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 计算图中节点的PageRank,注意是无向带权图 使用示例: 见 test/demo.py 词性标注 jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。 除了jieba默认分词模式,提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式,通过enable_paddle()安装paddlepaddle-tiny,并且import相关代码; 用法示例 >>> import jieba>>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门") jieba默认模式>>> jieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持,早期版本不支持>>> words = pseg.cut("我爱北京天安门",use_paddle=True) paddle模式>>> for word, flag in words:... print('%s %s' % (word, flag))...我 r爱 v北京 ns天安门 ns paddle模式词性标注对应表如下: paddle模式词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。 标签 含义 标签 含义 标签 含义 标签 含义 n 普通名词 f 方位名词 s 处所名词 t 时间 nr 人名 ns 地名 nt 机构名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间 并行分词 原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows 用法: jieba.enable_parallel(4) 开启并行分词模式,参数为并行进程数 jieba.disable_parallel() 关闭并行分词模式 例子:https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py 实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。 注意:并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。 Tokenize:返回词语在原文的起止位置 注意,输入参数只接受 unicode 默认模式 result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 搜索模式 result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh 搜索引擎 引用: from jieba.analyse import ChineseAnalyzer 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py 命令行分词 使用示例:python -m jieba news.txt > cut_result.txt 命令行选项(翻译): 使用: python -m jieba [options] filename结巴命令行界面。固定参数:filename 输入文件可选参数:-h, --help 显示此帮助信息并退出-d [DELIM], --delimiter [DELIM]使用 DELIM 分隔词语,而不是用默认的' / '。若不指定 DELIM,则使用一个空格分隔。-p [DELIM], --pos [DELIM]启用词性标注;如果指定 DELIM,词语和词性之间用它分隔,否则用 _ 分隔-D DICT, --dict DICT 使用 DICT 代替默认词典-u USER_DICT, --user-dict USER_DICT使用 USER_DICT 作为附加词典,与默认词典或自定义词典配合使用-a, --cut-all 全模式分词(不支持词性标注)-n, --no-hmm 不使用隐含马尔可夫模型-q, --quiet 不输出载入信息到 STDERR-V, --version 显示版本信息并退出如果没有指定文件名,则使用标准输入。 --help 选项输出: $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. 延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。 import jiebajieba.initialize() 手动初始化(可选) 在 0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big') 例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py 其他词典 占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small 支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big 下载你所需要的词典,然后覆盖 jieba/dict.txt 即可;或者用 jieba.set_dictionary('data/dict.txt.big') 其他语言实现 结巴分词 Java 版本 作者:piaolingxue 地址:https://github.com/huaban/jieba-analysis 结巴分词 C++ 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/cppjieba 结巴分词 Rust 版本 作者:messense, MnO2 地址:https://github.com/messense/jieba-rs 结巴分词 Node.js 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/nodejieba 结巴分词 Erlang 版本 作者:falood 地址:https://github.com/falood/exjieba 结巴分词 R 版本 作者:qinwf 地址:https://github.com/qinwf/jiebaR 结巴分词 iOS 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/iosjieba 结巴分词 PHP 版本 作者:fukuball 地址:https://github.com/fukuball/jieba-php 结巴分词 .NET(C) 版本 作者:anderscui 地址:https://github.com/anderscui/jieba.NET/ 结巴分词 Go 版本 作者: wangbin 地址: https://github.com/wangbin/jiebago 作者: yanyiwu 地址: https://github.com/yanyiwu/gojieba 结巴分词Android版本 作者 Dongliang.W 地址:https://github.com/452896915/jieba-android 友情链接 https://github.com/baidu/lac 百度中文词法分析(分词+词性+专名)系统 https://github.com/baidu/AnyQ 百度FAQ自动问答系统 https://github.com/baidu/Senta 百度情感识别系统 系统集成 Solr: https://github.com/sing1ee/jieba-solr 分词速度 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode 测试环境: Intel® Core™ i7-2600 CPU @ 3.4GHz;《围城》.txt 常见问题 1. 模型的数据是如何生成的? 详见: https://github.com/fxsjy/jieba/issues/7 2. “台中”总是被切成“台 中”?(以及类似情况) P(台中) < P(台)×P(中),“台中”词频不够导致其成词概率较低 解决方法:强制调高词频 jieba.add_word('台中') 或者 jieba.suggest_freq('台中', True) 3. “今天天气 不错”应该被切成“今天 天气 不错”?(以及类似情况) 解决方法:强制调低词频 jieba.suggest_freq(('今天', '天气'), True) 或者直接删除该词 jieba.del_word('今天天气') 4. 切出了词典中没有的词语,效果不理想? 解决方法:关闭新词发现 jieba.cut('丰田太省了', HMM=False) jieba.cut('我们中出了一个叛徒', HMM=False) 更多问题请点击:https://github.com/fxsjy/jieba/issues?sort=updated&state=closed 修订历史 https://github.com/fxsjy/jieba/blob/master/Changelog jieba “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module. Features Support three types of segmentation mode: Accurate Mode attempts to cut the sentence into the most accurate segmentations, which is suitable for text analysis. Full Mode gets all the possible words from the sentence. Fast but not accurate. Search Engine Mode, based on the Accurate Mode, attempts to cut long words into several short words, which can raise the recall rate. Suitable for search engines. Supports Traditional Chinese Supports customized dictionaries MIT License Online demo http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) Usage Fully automatic installation: easy_install jieba or pip install jieba Semi-automatic installation: Download http://pypi.python.org/pypi/jieba/ , run python setup.py install after extracting. Manual installation: place the jieba directory in the current directory or python site-packages directory. import jieba. Algorithm Based on a prefix dictionary structure to achieve efficient word graph scanning. Build a directed acyclic graph (DAG) for all possible word combinations. Use dynamic programming to find the most probable combination based on the word frequency. For unknown words, a HMM-based model is used with the Viterbi algorithm. Main Functions Cut The jieba.cut function accepts three input parameters: the first parameter is the string to be cut; the second parameter is cut_all, controlling the cut mode; the third parameter is to control whether to use the Hidden Markov Model. jieba.cut_for_search accepts two parameter: the string to be cut; whether to use the Hidden Markov Model. This will cut the sentence into short words suitable for search engines. The input string can be an unicode/str object, or a str/bytes object which is encoded in UTF-8 or GBK. Note that using GBK encoding is not recommended because it may be unexpectly decoded as UTF-8. jieba.cut and jieba.cut_for_search returns an generator, from which you can use a for loop to get the segmentation result (in unicode). jieba.lcut and jieba.lcut_for_search returns a list. jieba.Tokenizer(dictionary=DEFAULT_DICT) creates a new customized Tokenizer, which enables you to use different dictionaries at the same time. jieba.dt is the default Tokenizer, to which almost all global functions are mapped. Code example: segmentation encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 默认模式seg_list = jieba.cut("他来到了网易杭研大厦")print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) Output: [Full Mode]: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学[Accurate Mode]: 我/ 来到/ 北京/ 清华大学[Unknown Words Recognize] 他, 来到, 了, 网易, 杭研, 大厦 (In this case, "杭研" is not in the dictionary, but is identified by the Viterbi algorithm)[Search Engine Mode]: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 Add a custom dictionary Load dictionary Developers can specify their own custom dictionary to be included in the jieba default dictionary. Jieba is able to identify new words, but you can add your own new words can ensure a higher accuracy. Usage: jieba.load_userdict(file_name) file_name is a file-like object or the path of the custom dictionary The dictionary format is the same as that of dict.txt: one word per line; each line is divided into three parts separated by a space: word, word frequency, POS tag. If file_name is a path or a file opened in binary mode, the dictionary must be UTF-8 encoded. The word frequency and POS tag can be omitted respectively. The word frequency will be filled with a suitable value if omitted. For example: 创新办 3 i云计算 5凱特琳 nz台中 Change a Tokenizer’s tmp_dir and cache_file to specify the path of the cache file, for using on a restricted file system. Example: 云计算 5李小福 2创新办 3[Before]: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /[After]: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / Modify dictionary Use add_word(word, freq=None, tag=None) and del_word(word) to modify the dictionary dynamically in programs. Use suggest_freq(segment, tune=True) to adjust the frequency of a single word so that it can (or cannot) be segmented. Note that HMM may affect the final result. Example: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 Keyword Extraction import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence: the text to be extracted topK: return how many keywords with the highest TF/IDF weights. The default value is 20 withWeight: whether return TF/IDF weights with the keywords. The default value is False allowPOS: filter words with which POSs are included. Empty for no filtering. jieba.analyse.TFIDF(idf_path=None) creates a new TFIDF instance, idf_path specifies IDF file path. Example (keyword extraction) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py Developers can specify their own custom IDF corpus in jieba keyword extraction Usage: jieba.analyse.set_idf_path(file_name) file_name is the path for the custom corpus Custom Corpus Sample:https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big Sample Code:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py Developers can specify their own custom stop words corpus in jieba keyword extraction Usage: jieba.analyse.set_stop_words(file_name) file_name is the path for the custom corpus Custom Corpus Sample:https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt Sample Code:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py There’s also a TextRank implementation available. Use: jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) Note that it filters POS by default. jieba.analyse.TextRank() creates a new TextRank instance. Part of Speech Tagging jieba.posseg.POSTokenizer(tokenizer=None) creates a new customized Tokenizer. tokenizer specifies the jieba.Tokenizer to internally use. jieba.posseg.dt is the default POSTokenizer. Tags the POS of each word after segmentation, using labels compatible with ictclas. Example: >>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门")>>> for w in words:... print('%s %s' % (w.word, w.flag))...我 r爱 v北京 ns天安门 ns Parallel Processing Principle: Split target text by line, assign the lines into multiple Python processes, and then merge the results, which is considerably faster. Based on the multiprocessing module of Python. Usage: jieba.enable_parallel(4) Enable parallel processing. The parameter is the number of processes. jieba.disable_parallel() Disable parallel processing. Example: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py Result: On a four-core 3.4GHz Linux machine, do accurate word segmentation on Complete Works of Jin Yong, and the speed reaches 1MB/s, which is 3.3 times faster than the single-process version. Note that parallel processing supports only default tokenizers, jieba.dt and jieba.posseg.dt. Tokenize: return words with position The input must be unicode Default mode result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 Search mode result = jieba.tokenize(u'永和服装饰品有限公司',mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh from jieba.analyse import ChineseAnalyzer Example: https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py Command Line Interface $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. Initialization By default, Jieba don’t build the prefix dictionary unless it’s necessary. This takes 1-3 seconds, after which it is not initialized again. If you want to initialize Jieba manually, you can call: import jiebajieba.initialize() (optional) You can also specify the dictionary (not supported before version 0.28) : jieba.set_dictionary('data/dict.txt.big') Using Other Dictionaries It is possible to use your own dictionary with Jieba, and there are also two dictionaries ready for download: A smaller dictionary for a smaller memory footprint: https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small There is also a bigger dictionary that has better support for traditional Chinese (繁體): https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big By default, an in-between dictionary is used, called dict.txt and included in the distribution. In either case, download the file you want, and then call jieba.set_dictionary('data/dict.txt.big') or just replace the existing dict.txt. Segmentation speed 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode Test Env: Intel® Core™ i7-2600 CPU @ 3.4GHz;《围城》.txt 本篇文章为转载内容。原文链接:https://blog.csdn.net/yegeli/article/details/107246661。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-12-02 10:38:37
500
转载
转载文章
...rch 是一个开源、分布式的搜索和分析引擎,能够对大规模数据快速地进行全文检索、结构化检索以及分析操作。在本文的上下文中,【学成在线】项目利用 Elasticsearch 构建了一个课程信息发布与检索系统,将课程计划等信息存储在 Elasticsearch 的索引库中,以便通过查询接口高效地从海量数据中获取指定课程的详细信息。 Logstash , Logstash 是一款开源的数据收集引擎,常用于日志管理和转发,支持从多种来源采集数据,并将其转换为适合下游系统消费的格式后输出到多个目标存储。在【学成在线】项目的实施过程中,Logstash 被用来实时扫描并收集课程发布后的媒资信息,自动保存至 Elasticsearch 索引库,确保课程资源的及时更新与同步。 m3u8 地址 , m3u8 是一种 HLS(HTTP Live Streaming)协议采用的播放列表文件格式,主要用于流媒体内容分发。m3u8 文件包含一系列 TS(Transport Stream)视频片段的 URL 列表,允许客户端根据网络条件动态选择不同码率的视频流进行播放。在本文所述的在线教育平台中,每个课程计划对应的媒资信息包含了用于在线播放视频的 m3u8 地址,前端通过调用接口获取这个地址来实现视频的流畅播放。
2023-12-16 12:41:01
73
转载
建站模板下载
...绍 该“响应式SEO搜索引擎优化服务公司网站html模板”是一款基于HTML5技术打造的自适应企业模板,专注于网站建设与推广。此模板具备优秀的搜索引擎友好性,能有效提升网站在各大引擎中的索引与排名表现。它融合了互联网科技的前沿理念,实现了一站式适应不同设备浏览的需求,是专为SEO服务公司量身定制的高品质、专业级网页设计解决方案。 点我下载 文件大小:4.37 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-01-24 12:10:44
282
本站
建站模板下载
...ML5、DIVCSS技术开发的响应式模板,专为在线教育与培训企业提供一站式解决方案。具备出色的自适应能力,确保在各类屏幕设备上完美展现。设计兼顾SEO优化,利于搜索引擎收录,提升网站排名。模板通用性强,覆盖企业介绍、在线课程展示、培训资讯发布等多元化需求,是打造专业且易用的在线教育平台的理想选择。 点我下载 文件大小:13.72 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-02-12 10:08:28
127
本站
建站模板下载
...采用最新的HTML5技术,确保网站在各终端设备上均能自适应展示。它具备丰富的功能模块,满足企业展示产品、推广营销的需求,是搭建专业且高搜索引擎友好的软件官网的理想选择。 点我下载 文件大小:2.07 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-04-08 14:37:16
87
本站
建站模板下载
...设计,采用HTML5技术构建,实现全设备自适应布局。以沉稳的蓝色调彰显专业与信赖,页面结构清晰、内容排版整洁,凸显“更多防护”服务理念。该模板拥有SEO优化特性,利于搜索引擎收录和提升排名,便于企业展示保防业务实力,打造卓越的线上品牌形象。 点我下载 文件大小:952.73 KB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-12-06 17:18:26
63
本站
建站模板下载
...HTML5和CSS3技术,具备出色的响应式布局,可在多种设备上自适应展示,确保卓越的用户体验。模板预设了丰富的多页面结构,满足多元化内容发布需求。同时,它深度优化了SEO属性,有利于搜索引擎收录与排名提升,是打造专业、高流量中文博客的理想选择。 点我下载 文件大小:1.10 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-07-18 08:37:00
124
本站
建站模板下载
...设计,采用HTML5技术构建,实现跨设备兼容的完美展现。它以企业级标准打造,适用于发布和展示演讲会、研讨会、博览会等信息,提供流畅的用户体验和高转换率的着陆页设计。该模板包含静态页面布局,方便用户快速搭建专业且吸引人的活动专题网站,提升品牌形象与搜索引擎排名。 点我下载 文件大小:2.94 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-03-24 19:32:21
56
本站
建站模板下载
...HTML5与CSS3技术,设计风格小清新且大气,具备固定导航、宽屏布局和大图幻灯片展示效果。它基于Bootstrap框架构建,确保了跨设备的完美响应式体验,尤其适合手机和平板浏览。模板内置SEO优化元素及统计功能,利于搜索引擎排名提升与销售转化分析。同时,生动的CSS3动画为用户带来沉浸式交互体验,是打造专业营销推广公司官网的理想选择。 点我下载 文件大小:4.08 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-12-27 10:57:58
46
本站
建站模板下载
...板。它采用先进的网页技术和设计理念,确保在不同设备上提供卓越的视觉效果与用户体验。模板具有高度自定义功能,适用于科技公司、科技创新及科技研发公司的官方网站建设,便于展示产品、服务与技术实力,同时具备SEO友好属性,利于搜索引擎优化,方便用户快速下载并搭建专业且富有现代感的网络公司网站。 点我下载 文件大小:4.74 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-01-30 18:11:34
339
本站
建站模板下载
...借其响应式设计能完美匹配多种终端设备,实现“一次构建,全设备适用”。页面布局清晰专业,凸显汽车维修保养业务特色,内含丰富模块展示汽车配件与改装服务,且已集成SEO优化机制,助力企业在搜索引擎中获得更高排名,是打造汽车行业专业级线上形象的理想之选。 点我下载 文件大小:1.67 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-08-07 16:23:32
54
本站
建站模板下载
...优化功能,助力企业在搜索引擎中获得更高排名。它涵盖了企业模板、互联网建设、网络营销等多元板块,满足各类网络公司的业务需求与品牌形象展示,是进行网站建设和推广的理想选择,特别适合网络科技企业展现其专业网站设计及技术服务实力。 点我下载 文件大小:3.55 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-08-09 23:13:14
273
本站
建站模板下载
...,它基于HTML静态技术构建,保证了页面加载速度和搜索引擎优化效果。模板内含丰富的内容模块,方便用户展示各类婚纱摄影作品及服务信息,并设有“更多”链接功能,便于引导访客深度浏览,是打造专业婚纱摄影网站的理想选择。 点我下载 文件大小:2.41 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-10-15 12:38:57
250
本站
建站模板下载
...打造,采用HTML5技术构建,提供全面的前端企业模板解决方案。该模板具有高度自适应性,能在不同设备上完美展现,满足手机、平板及PC端浏览需求。设计风格现代简约,突出产品展示与信息传递,便于用户管理和定制,预设关键词优化功能,利于搜索引擎收录,是化工材料类企业建立品牌形象、推广产品的理想选择。 点我下载 文件大小:17.24 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-06-15 22:29:40
30
本站
建站模板下载
...打造,采用HTML5技术与Bootstrap框架,设计风格以蓝色为主调,营造出专业且高科技的车载仪表盘氛围。模板具备响应式布局与自适应功能,能在不同设备上完美展示内容。其SEO友好特性有助于提高搜索引擎排名,助力企业提升线上曝光度。适用于搭建汽车仪表产品介绍网站,提供卓越的用户体验与便捷的内容管理,兼容DedeCMS系统,便于安装与维护。 点我下载 文件大小:13.24 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-11-02 21:46:46
109
本站
建站模板下载
...站模板采用HTML5技术,专为美食行业的加盟企业打造,设计上兼顾了视觉吸引力与功能性。该模板具备出色的响应式布局,可在不同设备上自适应展示,确保用户在桌面、平板或手机端都能获得优质的浏览体验。模板内容涵盖了加盟信息、披萨产品特色、品牌故事以及连锁店加盟流程等模块,方便潜在加盟商全面了解并快速接入品牌,同时提供静态页面展示,便于搜索引擎优化和加载速度提升,是搭建专业且高效的披萨加盟连锁网站的理想选择。 点我下载 文件大小:1.73 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-05-16 09:52:33
79
本站
建站模板下载
...HTML5和CSS3技术的响应式网站模板,专为从事影视制作、印刷广告、传媒宣传推广的商务和外贸企业打造。设计风格以黑色为主调,彰显专业与高端,具备全屏展示效果及流畅的CSS3动画特效。内置丰富portfolio模块,便于展示公司作品与案例,同时整合了SEO优化功能,利于搜索引擎排名提升。此外,该模板还包含报价、服务介绍等实用功能板块,适用于各类企业进行手机及电脑多端口的宣传推广活动,是搭建全面、高效的企业官方网站的理想之选。 点我下载 文件大小:5.01 MB 您将下载一个资源包,该资源包内部文件的目录结构如下: 本网站提供模板下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-05-19 10:09:49
133
本站
HTML
...图,如果你需要在谷歌搜索引擎推广网站,可以在谷歌站长后台提交自己站点的sitemap,但是发现“状态”一栏始终是无法抓取。怎么办呢? 1. 尝试一:保证sitemap的文件格式 下面是一个标准的sitemap的文件格式在,这样用,是最基础的保证: <?xml version="1.0" encoding="UTF-8"?>2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">3 <url>4 <loc>http://www.example.com/</loc>5 <lastmod>2024-01-26</lastmod>6 <changefreq>daily</changefreq>7 <priority>1.0</priority>8 </url>9 <url>10 <loc>http://www.example.com/about-us</loc>11 <lastmod>2023-12-30</lastmod>12 <changefreq>monthly</changefreq>13 <priority>0.8</priority>14 </url>15 <url>16 <loc>http://www.example.com/services</loc>17 <lastmod>2024-01-15</lastmod>18 <changefreq>weekly</changefreq>19 <priority>0.6</priority>20 </url>21 <!-- 更多页面 -->22</urlset> 这里给大家一个示例,如果需要,可以粘贴走根据自己的情况修改。 2. 尝试二:loc地址一定要是全域名的 这一点对google很重要,其它的站长工具可能可以识别相对路径的地址: 比如页面:http://www.example.com/services,有的站长后台支持/services 但google这里请务必写全地址,即:http://www.example.com/services,全地址! 否则即使被读取了,也会提示“xxx项错误”,好不容易读取了,却报错了,很是可惜。如下图这样的: 3. 尝试三:去掉changeFreq和priority 谷歌会忽略掉这两个属性,资料:https://developers.google.com/search/docs/crawling-indexing/sitemaps/build-sitemap?hl=zh-cn 这样,sitemap.xml文件就变成了: <?xml version="1.0" encoding="UTF-8"?>2<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">3 <url>4 <loc>http://www.example.com/</loc>5 <lastmod>2024-01-26</lastmod>6 </url>7 <url>8 <loc>http://www.example.com/about-us</loc>9 <lastmod>2023-12-30</lastmod>10 </url>11 <url>12 <loc>http://www.example.com/services</loc>13 <lastmod>2024-01-15</lastmod>14 </url>15 <!-- 更多页面 -->16</urlset> 4. 尝试四:一定不要返回过多的url 尤其是新站,搜索引擎对新站的权重比较低,所以当我们一个sitemap文件里返回过多url的时候,会把搜索引擎“吓走”。 它会想:好家伙,一下子返回这么多url给我,我哪有空搭理你,先一边呆着吧,我很忙! 所以新站的单个sitemap文件一定不要太大,包括上面去掉changeFreq和priority也是为了减少sitemap.xml文件的体积。 sitemap里面的url控制在1000个以内一般是问题不大的,如下图: 5. 尝试五:返回的响应耗时不能太长 尤其是新站,而且sitemap体积大的情况下,可能返回耗时稍长(这个搜索引擎设定的时间阈值咱也不知道,但是感觉可能几秒都是不应该的)。 解决方法: 不要实时动态生成!不要实时动态生成!每次查一下数据库,再生成数据,再响应,这个过程不快! 如果非要动态生成,建议设置一个调度,每隔几个小时,生成一下然后存放静态的sitemap.xml文件放在服务器根路径下面,即https://www.你的域名.com/sitemap.xml这里。 这样,搜索引擎来抓取的时候,直接拿现成的静态文件,结合尝试三、尝试四,保证单个sitemap文件又不会太大,就很稳妥了。响应速度又快,单文件大小又舒服,url数量又符合搜索引擎的预期。 写在后面的话 对于sitemap.xml的应用,新站还需要注意下面几个地方: 名字无所谓,但一定都是xxx.xml格式,xxx的名字最终你会提交给站长后台的,但要小写,不要出现一些乱七八糟的符号 新站不要过分依赖于sitemap.xml,搜索引擎对于新站的态度其实更喜欢自己发现的url,sitemap.xml提交几千几万也不见得会都来爬取 爬取是第一步,是否收录,还取决于站点的质量等等因素,这个比较博大精深了,我也说不好其中一二 以及,lastmod这个也不要任意改,比如你只改了lastmod但没改文章内容,会存在概率性被搜索引擎认为是作弊的 被索引的文章,不要删除,否则搜索引擎会认为站点不稳定 最后,sitemap.xml提交只是第一步,更多的还是应该注重站点的质量建设、外链维护、用户体验的提升
2024-01-26 18:24:34
497
admin-tim
JQuery
...近期,随着Web开发技术的发展,前端框架Vue.js、React等对DOM操作提供了更为高效便捷的方式,但jQuery作为经典的库,其在DOM元素选择、属性修改等方面的基础原理仍值得深入研究。 例如,在实际项目中,开发者可能需要根据用户行为动态生成并更新页面上的多个链接地址,这时不仅可利用jQuery的each方法遍历和修改a标签href属性,还可以结合AJAX获取后台数据实时填充链接内容,实现动态路由功能。 另外,针对网站优化及SEO策略,合理地设置a标签href属性对于提升网页质量和搜索引擎排名至关重要。比如,为图片添加详细的alt属性和正确的href链接,确保当图片无法加载时,用户仍可以通过链接访问目标资源,同时也利于搜索引擎理解图片内容。 再者,从安全角度出发,JavaScript在处理href属性时应格外注意防范XSS(跨站脚本攻击),通过encodeURIComponent等函数对用户输入进行转码,避免恶意代码注入。 综上所述,虽然本文着重于jQuery在修改a标签href属性中的应用,但在实际开发过程中,我们需要关注更广泛的议题,包括但不限于DOM操作性能优化、前后端数据交互、用户体验优化以及网站安全性保障等,以适应不断变化的Web开发需求。
2023-11-18 19:01:21
335
数据库专家
HTML
...至关重要。随着Web技术的快速发展,HTML5和CSS3为表格设计提供了更多可能。例如,可以使用新的语义标签如为表格添加标题以提高可访问性,同时结合CSS Grid布局实现复杂的数据展示结构。 近日,W3C发布了最新的无障碍网页内容规范(WCAG 2.2),对数据表格的可读性和操作性提出了更严格的要求,强调了使用ARIA角色属性(role="rowheader"、role="columnheader")来增强屏幕阅读器对表格的理解能力。此外,Google也于近期更新了搜索算法,优先索引遵循无障碍标准的网页,这意味着正确构建和优化表格不仅有助于提升用户体验,还能影响网站在搜索引擎中的排名。 深入探究表格的设计实践,Bootstrap等前端框架提供了丰富的预设样式和交互效果,使得开发者无需从零开始编写CSS代码即可轻松定制响应式表格。与此同时,前端库如ag-Grid、DataTables等提供了强大的表格功能扩展,如分页、排序、过滤以及动态加载大数据量等高级特性,极大地提升了数据密集型应用的性能表现和用户体验。 综上所述,无论是基础的HTML表格构建,还是借助现代Web技术和框架进行进阶优化,都应当关注最新标准、趋势及最佳实践,以确保所创建的表格既能满足信息展示需求,又能适应不同用户群体的访问习惯和设备环境,从而打造更加友好且高效的网页界面。
2023-02-13 13:05:09
485
码农
HTML
... 等,不仅有助于搜索引擎优化,还使网页结构更加清晰,便于开发者更好地组织内容;同时,canvas与svg元素让网页动态图形绘制成为可能,极大地丰富了网页视觉效果。此外,HTML5对于移动互联网的适应性也得到显著提升,离线存储功能、媒体元素 和 的原生支持,使得开发跨平台、响应式的Web应用更为便捷。值得关注的是,随着Web Components技术的发展,未来HTML可能会迎来更多可复用、模块化的组件,进一步提高代码质量和开发效率。 因此,深入掌握HTML5的新特性,紧跟时代步伐,是每一位前端开发者保持竞争力的关键所在。通过不断学习和实践,如同光头强一样精通各种HTML标签,并能灵活运用到实际项目中,才能在日新月异的前端开发领域立于不败之地。
2023-05-13 09:23:43
468
软件工程师
HTML
...码编辑器评测》:随着技术的不断迭代,各类代码编辑器如VS Code、Atom等也提供了强大的HTML代码美化和格式化功能。本文将详细介绍并对比这些工具在实时预览、自动格式化、插件支持等方面的性能,帮助前端开发者选择最适合自己的开发环境。 2. 《W3C发布最新HTML结构化指南及其对SEO优化的影响》:近期,W3C(万维网联盟)发布了关于HTML5结构化元素的新指南,强调了语义化标签的使用对于搜索引擎优化的意义,以及如何通过合理布局和格式化HTML代码提升网页可读性与搜索引擎友好度。 3. 《从GitHub仓库看大型项目如何实现HTML代码风格一致性》:以知名开源项目为例,深入剖析其在团队协作中如何利用ESLint、Prettier等代码校验和格式化工具保证HTML代码风格的一致性,从而提高代码质量及维护效率。 4. 《浅谈AI在HTML代码格式化中的应用》:随着人工智能的发展,已有研究开始探索AI在自动优化HTML代码结构和格式方面的潜力。本文介绍了部分前沿研究成果,并展望未来AI可能为HTML代码格式化带来的变革。 以上延伸阅读不仅提供了解决HTML代码格式化问题的实用工具和策略,还关注了行业标准的更新动态以及新兴技术对未来编程实践的影响,有助于读者紧跟行业发展,提升自身技术水平和实战能力。
2023-07-25 14:28:54
508
程序媛
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
mount /dev/sda1 /mnt
- 挂载设备到指定目录。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"