前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[RocksDB状态后端使用及优化策略]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...。 文本转换为语音 使用 pyttsx 使用名为 pyttsx 的 python 包,你可以将文本转换为语音。直接使用 pip 就可以进行安装, 命令如下: pip install pyttsx3 下载缓慢推荐您使用第三方通道下载 pip install -i https://mirrors.aliyun.com/pypi/simple pyttsx3 【示例】使用 pyttsx 实现文本转换语音 import pyttsx3 as pyttsx 调用初始化方法,获取讲话对象engine = pyttsx.init()engine.say('加油!努力吧少年')engine.runAndWait() 使用 SAPI 在 python 中,你也可以使用 SAPI 来做文本到语音的转换。 【示例】使用 SAPI 实现文本转换语音 from win32com.client import Dispatch 获取讲话对象speaker = Dispatch('SAPI.SpVoice') 讲话内容speaker.Speak('猪哥猪哥,你真了不起')speaker.Speak('YL美吗?')speaker.Speak('ZS说她美吖') 释放对象del speaker 使用 SpeechLib 使用 SpeechLib,可以从文本文件中获取输入,再将其转换为语音。先使用 pip 安装, 命令如下: pip install comtypes 【示例】使用 SpeechLib 实现文本转换语音 from comtypes.client import CreateObjectfrom comtypes.gen import SpeechLib 获取语音对象,源头engine = CreateObject('SAPI.SpVoice') 输出到目标对象的流stream = CreateObject('SAPI.SpFileStream')infile = 'demo.txt'outfile = 'demo_audio.wav' 获取流写入通道stream.open(outfile, SpeechLib.SSFMCreateForWrite) 给语音源头添加输出流engine.AudioOutputStream = stream 读取文本内容 打开文件f = open(infile, 'r', encoding='utf-8') 读取文本内容theText = f.read() 关闭流对象f.close() 语音对象,读取文本内容engine.speak(theText)stream.close() 语音转换为文本 使用 PocketSphinx PocketSphinx 是一个用于语音转换文本的开源 API。它是一个轻量级的语音识别引擎, 尽管在桌面端也能很好地工作,它还专门为手机和移动设备做过调优。首先使用 pip 命令安装所需模块,命令如下: pip install PocketSphinxpip install SpeechRecognition 下载地址:https://pypi.org/project/SpeechRecognition/ 下载缓慢推荐您使用第三方通道下载 pip install -i https://mirrors.aliyun.com/pypi/simple 模块名 【示例】使用 PocketSphinx 实现语音转换文本 import speech_recognition as sr 获取语音文件audio_file = 'demo_audio.wav' 获取识别语音内容的对象r = sr.Recognizer() 打开语音文件with sr.AudioFile(audio_file) as source:audio = r.record(source) 将语音转化为文本 print('文本内容:', r.recognize_sphinx(audio)) recognize_sphinx() 参数中language='en-US' 默认是英语print('文本内容:', r.recognize_sphinx(audio, language='zh-CN')) 普通话识别问题 speech_recognition 默认识别英文,是不支持中文的,需要在Sphinx语音识别工具包里面下载对应的 普通话包 和 语言模型 。 安装步骤: 下 载 地 址:https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/ 点击 Mandarin下载cmusphinx-zh-cn-5.2.tar.gz并解压. 在python安装目录下找到Lib\site-packages\speech_recognition 点击进入pocketsphinx-data文件夹,会看到一个en-US文件夹,再新建文件夹zh-CN 在这个文件夹中添加进入刚刚解压的文件,需要注意:把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为dict格式。即与en-US文件夹中命名一样。 参考:https://blog.csdn.net/qq_32643313/article/details/99936268 致以感谢 后序 浅显的学习语音识别,不足之处甚多,深究后,将更新文章。 感谢跟随老师的代码在未知领域里探索,希望我能走的更高更远 本篇文章为转载内容。原文链接:https://blog.csdn.net/qq_46092061/article/details/113945654。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-01-27 19:34:15
277
转载
Datax
...指定了DataX应该使用多少个线程来处理数据。这里的数字可以根据你的实际情况调整。比如说,如果你的电脑配置比较高,内存和CPU都很给力,那就可以试试设大一点的数值,比如8或者16。 5. 实战演练 为了更好地理解DataX的多线程处理,我们来看一个具体的实战案例。假设你有一个名为 user_info 的表,其中包含用户的ID、姓名和邮箱信息。现在你想把这部分数据同步到HDFS中。 首先,你需要确保已经安装并配置好了DataX。接着,按照上面的步骤创建一个JSON配置文件。这里是一些关键点: - 数据库连接:确保你提供的数据库连接信息(用户名、密码、JDBC URL)都是正确的。 - 表名:指定你要同步的表名。 - 字段列表:列出你要同步的字段。 - 线程数:根据你的需求设置合适的线程数。 保存好配置文件后,就可以运行DataX了。打开命令行,输入以下命令: bash python datax.py /path/to/your/config.json 注意替换 /path/to/your/config.json 为你的实际配置文件路径。运行后,DataX会自动启动指定数量的线程来处理数据同步任务。 6. 总结与展望 通过本文的介绍,你应该对如何使用DataX实现数据同步的多线程处理有了初步了解。多线程不仅能加快数据同步的速度,还能让你在处理海量数据时更加得心应手,感觉轻松不少。当然啦,这仅仅是DataX功能的冰山一角,它还有超多酷炫的功能等你来探索呢! 希望这篇文章对你有所帮助!如果你有任何问题或建议,欢迎随时留言交流。我们一起探索更多有趣的技术吧!
2025-02-09 15:55:03
76
断桥残雪
Mahout
...C") ); // 使用Mahout的协同过滤算法进行实时推荐 DataStream> recommendations = eventStream.map(new MapFunction, Tuple2>() { @Override public Tuple2 map(Tuple2 value) { // 这里只是一个示例,实际应用中需要调用具体的协同过滤算法 return new Tuple2<>(value.f0, "recommendedItem"); } }); // 打印输出 recommendations.print(); // 执行任务 env.execute("Realtime Recommendation System"); } } 四、结论 开启数据驱动的未来 通过整合Mahout的机器学习能力和Flink的实时计算能力,开发者能够构建出响应迅速、高效精准的数据分析系统。无论是实时推荐、大规模聚类还是在线协同过滤,这些功能都为数据分析带来了新的可能。哎呀,随着科技这玩意儿越变越厉害,咱们能见到的新鲜事儿也是一波接一波。就像是魔法一样,数据这东西,现在能帮咱们推动业务发展,搞出不少新花样,让咱们的生意越来越红火,创意源源不断。简直就像开了挂一样!
2024-09-01 16:22:51
60
海阔天空
转载文章
... 1. 概念 2. 使用 2.1 依赖Jar包 2.2 基本使用 2.2.1 直接调用 2.2.2 自定义工具类 2.2.3 示例代码 1. 概念 Java中的Tuple是一种数据结构,可存放多个元素,每个元素的数据类型可不同。Tuple与List集合类似,但是不同的是,List集合只能存储一种数据类型,而Tuple可存储多种数据类型。 可能你会说,Object类型的List实际也是可以存储多种类型的啊?但是在创建List的时候,需要指定元素数据类型,也就是只能指定为Object类型,获取的元素类型就是Object,如有需要则要进行强转。而Tuple在创建的时候,则可以直接指定多个元素数据类型。 Tuple具体是怎么的数据结构呢? 元组(tuple)是关系数据库中的基本概念,关系是一张表,表中的每行(即数据库中的每条记录)就是一个元组,每列就是一个属性。 在二维表里,元组也称为行。 以上是百度百科中的"元组"概念,我们将一个元组理解为数据表中的一行,而一行中每个字段的类型是可以不同的。这样我们就可以简单理解Java中的Tuple数据结构了。 2. 使用 2.1 依赖Jar包 Maven坐标如下: <dependency><groupId>org.javatuples</groupId><artifactId>javatuples</artifactId><version>1.2</version></dependency> 引入相关依赖后,可以看出jar包中的结构很简单,其中的类主要是tuple基础类、扩展的一元组、二元组…十元组,以及键值对元组;接口的作用是提供【获取创建各元组时传入参数值】的方法。 2.2 基本使用 2.2.1 直接调用 以下以三元组为例,部分源码如下: package org.javatuples;import java.util.Collection;import java.util.Iterator;import org.javatuples.valueintf.IValue0;import org.javatuples.valueintf.IValue1;import org.javatuples.valueintf.IValue2;/ <p> A tuple of three elements. </p> @since 1.0 @author Daniel Fernández/public final class Triplet<A,B,C> extends Tupleimplements IValue0<A>,IValue1<B>,IValue2<C> {private static final long serialVersionUID = -1877265551599483740L;private static final int SIZE = 3;private final A val0;private final B val1;private final C val2;public static <A,B,C> Triplet<A,B,C> with(final A value0, final B value1, final C value2) {return new Triplet<A,B,C>(value0,value1,value2);} 我们一般调用静态方法with,传入元组数据,创建一个元组。当然了,也可以通过有参构造、数组Array、集合Collection、迭代器Iterator来创建一个元组,直接调用相应方法即可。 但是,我们可能记不住各元组对象的名称(Unit、Pair、Triplet、Quartet、Quintet、Sextet、Septet、Octet、Ennead、Decade),还要背下单词…因此,我们可以自定义一个工具类,提供公共方法,根据传入的参数个数,返回不同的元组对象。 2.2.2 自定义工具类 package com.superchen.demo.utils;import org.javatuples.Decade;import org.javatuples.Ennead;import org.javatuples.Octet;import org.javatuples.Pair;import org.javatuples.Quartet;import org.javatuples.Quintet;import org.javatuples.Septet;import org.javatuples.Sextet;import org.javatuples.Triplet;import org.javatuples.Unit;/ ClassName: TupleUtils Function: <p> Tuple helper to create numerous items of tuple. the maximum is 10. if you want to create tuple which elements count more than 10, a new class would be a better choice. if you don't want to new a class, just extends the class {@link org.javatuples.Tuple} and do your own implemention. </p> date: 2019/9/2 16:16 @version 1.0.0 @author Chavaer @since JDK 1.8/public class TupleUtils{/ <p>Create a tuple of one element.</p> @param value0 @param <A> @return a tuple of one element/public static <A> Unit<A> with(final A value0) {return Unit.with(value0);}/ <p>Create a tuple of two elements.</p> @param value0 @param value1 @param <A> @param <B> @return a tuple of two elements/public static <A, B> Pair<A, B> with(final A value0, final B value1) {return Pair.with(value0, value1);}/ <p>Create a tuple of three elements.</p> @param value0 @param value1 @param value2 @param <A> @param <B> @param <C> @return a tuple of three elements/public static <A, B, C> Triplet<A, B, C> with(final A value0, final B value1, final C value2) {return Triplet.with(value0, value1, value2);} } 以上的TupleUtils中提供了with的重载方法,调用时根据传入的参数值个数,返回对应的元组对象。 2.2.3 示例代码 若有需求: 现有pojo类Student、Teacher、Programmer,需要存储pojo类的字节码文件、对应数据库表的主键名称、对应数据库表的毕业院校字段名称,传到后层用于组装sql。 可以再定义一个对象类,但是如果还要再添加条件字段的话,又得重新定义…所以我们这里直接使用元组Tuple实现。 public class TupleTest {public static void main(String[] args) {List<Triplet<Class, String, String>> roleList = new ArrayList<Triplet<Class, String, String>>();/三元组,存储数据:对应实体类字节码文件、数据表主键名称、数据表毕业院校字段名称/Triplet<Class, String, String> studentTriplet = TupleUtils.with(Student.class, "sid", "graduate");Triplet<Class, String, String> teacherTriplet = TupleUtils.with(Teacher.class, "tid", "graduate");Triplet<Class, String, String> programmerTriplet = TupleUtils.with(Programmer.class, "id", "graduate");roleList.add(studentTriplet);roleList.add(teacherTriplet);roleList.add(programmerTriplet);for (Triplet<Class, String, String> triplet : roleList) {System.out.println(triplet);} }} 存储数据结构如下: 本篇文章为转载内容。原文链接:https://blog.csdn.net/qq_35006663/article/details/100301416。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-09-17 17:43:51
257
转载
CSS
...。 我们可以使用CSS来设置这个标题的字体大小和颜色,以及这段文字的行高和颜色。下面是相应的CSS代码: css .container { background-color: f0f0f0; } .title { font-size: 2em; color: 333; } .para { line-height: 1.5; color: 666; } 这样,我们就成功地设置了容器的背景色,标题的字体大小和颜色,以及段落的行高和颜色。这就是CSS的基本用法,也是我们在后续讨论中需要用到的基础知识。 第3章 JS函数未定义的原因 回到我们一开始提出的问题,“js函数未定义是怎么回事?”这个问题实际上是在问:“为什么我在某个地方使用了一个函数,但是却出现了函数未定义的错误?”这个问题的答案可能有很多,下面我们一一来看一下。 第一个可能的原因是,我们确实没有定义这个函数。比如说,我们有一个名为helloWorld的函数,但是在其他地方却忘记定义它了。这种情况简直是最直截了当的啦,解决起来也超级简单,你只需要在需要用到这个函数的地方给它加上一个定义就OK啦,就像给菜加点盐那么简单。 javascript function helloWorld() { console.log("Hello, world!"); } helloWorld(); // 输出 "Hello, world!" 第二个可能的原因是,我们虽然定义了这个函数,但是在使用的时候却拼错了函数名或者写错了参数。这种情况也比较多见,特别是在大型项目中,很容易出现这种错误。 javascript function helloWorld() { console.log("Hello, world!"); } helloWord(); // 报错,因为函数名拼错了 第三个可能的原因是,我们使用的函数在一个作用域内是可以访问的,但是在另一个作用域内却不可以访问。这种情况比较复杂,需要我们深入理解作用域的概念才能解决。 javascript let x = 1; if (true) { function foo() { console.log(x); // 输出 1 } } else { function foo() { console.log(x); // 报错,因为x在else的作用域内不可访问 } } foo(); // 报错,因为foo在if的作用域外不可访问 以上就是“js函数未定义是怎么回事”的一些可能原因,我们在日常开发中需要根据具体的情况进行分析和处理。 第4章 如何避免“js函数未定义”的问题? 避免“js函数未定义”的问题,其实有很多方法。下面我们就来介绍一些常用的技巧。 首先是要注意命名规范。当我们在创建函数的时候,可别忘了给它起个既规范又有意思的名字。就像咱们常说的“驼峰式命名法”,就是一种挺实用的命名规则,你可以把函数名想象成一只可爱的小骆驼,每个单词首字母都像驼峰一样高高地耸起来,这样一来,不仅看起来顺眼,读起来也朗朗上口,更容易让人记住。这样可以让我们的代码更加清晰易懂,也可以减少出错的可能性。 其次是要注意作用域的限制。在JavaScript这个编程语言里,每个函数都拥有自己的独立小天地,也就是作用域。这就意味着,当我们呼唤一个函数来干活的时候,得留个心眼儿,千万要注意别跨出这个小天地去调用还没被定义过的函数,否则就可能闹出“函数未定义”的乌龙事件。 最后是要注意版本兼容性。假如我们正在玩转一些最新的JavaScript黑科技,但心里也得惦记着那些还在用老旧浏览器的用户群体。这就意味着,咱们还得琢磨琢磨怎么在这些老爷爷级别的浏览器上,找到能兼容这些新特性的备选方案,让它们也能顺畅运行起来。这就意味着咱们得摸清楚各个浏览器的不同版本之间是怎么个兼容法,还有学会如何运用各种小工具和技巧来对付这些可能出现的兼容性问题。 总之,“js函数未定义”的问题是一个比较常见的问题,但是只要我们注意一些基本的原则和技巧,就能够有效地避免这个问题。希望本文能够对你有所帮助,如果你还有其他的问题,欢迎随时联系我。
2023-08-12 12:30:02
429
岁月静好_t
Hadoop
...的结果。 下面是一段使用MapReduce计算两个整数之和的Java代码: java import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCount { public static class TokenizerMapper extends Mapper { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context ) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer itr = new StringTokenizer(line); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } } public static class IntSumReducer extends Reducer { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } 在这个例子中,我们首先定义了一个Mapper类,它负责将文本切分成单词,并将每个单词作为一个键值对输出。然后呢,我们捣鼓出了一个Reducer类,它的职责就是把所有相同的单词出现的次数统统加起来。 以上就是Hadoop的一些基本信息以及它的主要组件介绍。如果你对此还有任何疑问或者想要深入了解,欢迎留言讨论!
2023-12-06 17:03:26
409
红尘漫步-t
转载文章
...、什么是离线安装? 使用离线安装包进行软件安装的方式就叫离线安装。 离线安装包又叫做完整安装包,包含所有的安装文件。与其相对的是在线安装,即在条件允许且网络良好的条件下采用网络安装的方式。在线安装方式的缺点是在不太好的网络状况下容易出现长时间等待或安装失败的情况,这种情况下只能进行离线安装。 二、安装步骤 1.安装nginx所需依赖 1.1 安装gcc和gcc-c++ 1.1.1 下载依赖包 gcc依赖下载镜像地址: 官网:https://gcc.gnu.org/releases.html 阿里云镜像站:http://mirrors.aliyun.com/centos/7/os/x86_64/Packages/ CentOS 镜像站点:https://vault.centos.org/7.5.1804/os/x86_64/Packages/ 只需下载如下依赖即可:cpp-4.8.5-44.el7.x86_64.rpmgcc-4.8.5-44.el7.x86_64.rpmglibc-devel-2.17-317.el7.x86_64.rpmglibc-headers-2.17-317.el7.x86_64.rpmkernel-headers-3.10.0-1160.el7.x86_64.rpmlibmpc-1.0.1-3.el7.x86_64.rpmmpfr-3.1.1-4.el7.x86_64.rpm----------------------------------------------gcc-c++-4.8.5-44.el7.x86_64.rpmlibstdc++-4.8.5-44.el7.x86_64.rpmlibstdc++-devel-4.8.5-44.el7.x86_64.rpm 1.1.2 上传依赖包 下载完成后,将依赖包上传到服务器,若权限不足不能上传,可以通过 sudo chmod -R 777 文件夹路径名命令增加权限 1.1.3 安装依赖 进入上传目录,输入rpm -Uvh .rpm --nodeps --forc命令进行批量安装,出现下图则说明安装成功 1.1.4 验证安装 使用gcc-v和g++ -v命令查看版本,若出现版本详情则说明离线安装成功,如下图示: 1.2 安装pcre 1.2.1 下载pcre 下载地址:http://www.pcre.org/ 1.2.2 上传解压安装包 将下载好的安装包上传到服务器,并解压,解压命令tar -xvf pcre-8.45.tar.gz 1.2.3 编译安装 进入解压目录,依次执行以下命令: ./configure make make install 1.3 下载安装zlib 1. 3.1 下载zlib 下载地址:http://www.zlib.net/ 1.3.2 上传解压安装包 将下载好的安装包上传到服务器,并解压 1.3.3 配置 进入解压目录输入 ./configure 1.3.4 编译安装 进入解压目录输入make && make install 1.4 下载安装openssl tips:检查是否已安装openssl,输入命令openssl version,若出现版本信息,则无需安装;若没有安装则继续安装 1.4.1 下载 地址:https://www.openssl.org/source/ 1.4.2 上传解压安装包 将下载好的安装包上传到服务器,并解压 1.4.3 配置 进入解压目录输入 ./configure 1.4.4 编译安装 进入解压目录输入 make && make install 1.4.5 验证 安装完成后,控制台输入openssl version,出现版本信息则说明安装成功 2. 下载安装nginx 2.1 下载nginx安装包 下载地址:https://nginx.org/en/download.html 2.2 上传解压安装包 将下载好的安装包上传到服务器,并解压 2.3 配置 进入解压目录进行配置安装地址:./configure --prefix=/home/develop/nginx 2.4 编译 make 2.5 安装 make install 2.6 检查并启动 2.6.1 检查 进入安装目录下的sbin文件夹,输入./nginx -t,如下图则说明安装成功: 2.6.2 启动 启动nginx,命令:./nginx 2.7 访问 浏览器访问nginx,前提是80端口可以访问 2.8 设置开启自启动 tips:此步骤为可选项 将nginx的sbin目录添加到rc.local文件中: 编辑rc.local文件 vim /etc/rc.local 在最后一行加入如下内容 /home/develop/nginx/sbin/nginx 总结 以上就是离线安装nginx的详细步骤,希望可以帮到有需要的小伙伴。 本篇文章为转载内容。原文链接:https://blog.csdn.net/Shiny_boy_/article/details/126965658。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-06-23 08:28:14
107
转载
转载文章
...写在前面 适合人群 使用前提 基本思路 键鼠记录器脚本 前期准备 脚本原理 注意事项 检查下载效果 写在前面 整理专利的时候,在专利引擎上只能一条条的下载,很是烦人。我比较讨厌这种重复性劳动,所以每次碰上都得想想办法怎么自动化操作,虽然上每次研究自动化办法的时间把都足够把活干完了哈哈。可惜的是每次搞完都没有把文档保留下来,下次有点什么事情又得从头开始。因此准备开始写写文档记录一些思路,同时如果能帮到有需要的人就更好了! 适合人群 不会爬虫的都可以来看看!能大概看明白python就够了。 使用前提 python环境配好 有梯子 不排斥键鼠记录器读取键鼠记录 基本思路 现在的专利搜索引擎大概都有批量下载库,如果只要摘要的话直接下载就可以了。但是下载全文的时候,大部分引擎都不支持批量下载,只能一个一个点,还得输验证码。 这里就不得不提到google patent了,这是我目前找到的唯一一个不需要验证码就能下载的专利引擎了(其实主要是还不会用python识别验证码)。那么有了google patent这个神器,就可以用自动办法来进行下载了。我这里使用的是按键精灵,傻瓜式操作。(没用python爬虫的原因是requests不能挂梯子。。。这里我不是很确定是什么问题,希望有大佬指点一下。anyway,主要思路就是用键鼠记录器点点点,我用的是按键精灵,理论上什么记录器都可以。 ps. 听说poxoq能批量下载,但是新版本只能下载前十页,因此我没有尝试,如果能直接下载全文的话请评论区告诉我。 键鼠记录器脚本 前期准备 按格式排好公开号或者申请号,在编辑器中打开; 把google patent搜索页面和文本编辑器分屏显示,便于操作。 脚本原理 以edge浏览器为例,按键精灵双击全选文本中第一行的公开号,ctrl+c复制,鼠标转到网页搜索框,ctrl+v粘贴,点搜索。等搜索完成右键download PDF,选链接另存为并确定,之后点击网页关闭下载栏,一次下载完成。返回编辑器,删除第一行的文本,把第二行提到第一行,完成复位。 这样就形成了完整的一次过程,只要重复运行脚本就可以把所有专利全文下载下来。 注意事项 实际操作中,可能遇到两大问题: 网页反馈问题 这里指的是搜索后没有来到我们想象中的专利页,可能是没有搜索到专利,或该专利google patent没有pdf文档,这时如果脚本还在运行,那么显然就会错误运行。 脚本运行问题 主要要考虑的是命令之间的延时。延时调小确实运行速度会变快,但是如果电脑运行速度不够或者网速/服务器慢了,就会错误执行命令。我的建议是文本操作可以适当删减延时,涉及网页的部分适量增加延时,保证脚本的容错率。 由此可以看出来这个脚本还是离不开人的,在跑的时候还是需要盯着点,如果有错误可以及时处理。 检查下载效果 看了上面的注意事项,想必你也知道这个脚本不太靠谱。那么解决这个问题的方法就是负反馈。下载完了检查一遍就好了。 由于google patent下载的文件是以公开号命名的,所以对照要下载的和已下载的公开号就能看出哪些专利没有下载成功。 我这里写了一个python小脚本。 import pandas as pdimport os读取待下载专利的公开号,地址修改成你自己存放的位置df = pd.read_excel("target.xlsx",header= 0, usecols= "B").drop_duplicates()取前11位作为对比(以中国专利作为参考)PublicNumber_tgt = list(map(lambda x: x[0:11],df["公开(公告)号"].to_list()))读取已下载专利的公开号,地址修改成你自己存放的位置filelist=os.listdir(r'C:\Users\mornthx\Desktop\专利全文')取前11位作为对比PublicNumber_dl = list(map(lambda x: x[0:11],filelist))比较两者差值diff = set(PublicNumber_tgt).difference(set(PublicNumber_dl))print(diff) 没下载的专利具体问题具体解决就好了。 希望能帮到大家! 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_38688347/article/details/124000919。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-11-21 12:55:28
274
转载
Java
...了效率,我们可以稍微优化一下。比如说啊,检查一个数是不是有因数的时候,其实没必要从头到尾都查一遍,查到这个数的平方根就够了。为啥呢?因为如果一个数能被分成两个部分,比如说是 \( n = a \times b \),那这两个部分里肯定至少有一个不会比平方根大。换句话说,你只要找到一个小于等于平方根的因数,另一个就不用再费劲去挨个找了,直接配对就行啦! 下面是Java代码实现: java public static boolean isPrime(int num) { if (num <= 1) return false; // 小于等于1的数都不是素数 for (int i = 2; i i <= num; i++) { // 只需要检查到sqrt(num) if (num % i == 0) { return false; // 如果能被i整除,则不是素数 } } return true; } 这段代码看起来简单吧?但是它的作用可不小哦!现在我们可以用它来生成一系列素数了。 --- 三、拆分数字 递归的力量 接下来,我们的目标是找到所有可能的组合方式,让这些素数组合起来等于给定的目标数字。这里我们可以用递归来解决这个问题。递归的核心思想就是把大问题分解成小问题,然后逐步解决。 假设我们要把数字10拆成素数的和,我们可以从最小的素数2开始尝试,看看能不能凑出来。如果不行,就换下一个素数继续尝试。这样一步步往下走,直到找到所有可能的组合。 下面是一段Java代码示例: java import java.util.ArrayList; public class PrimeSum { public static void main(String[] args) { int target = 10; ArrayList primes = new ArrayList<>(); for (int i = 2; i <= target; i++) { if (isPrime(i)) { primes.add(i); } } findPrimeSums(target, primes, new ArrayList<>()); } public static boolean isPrime(int num) { if (num <= 1) return false; for (int i = 2; i i <= num; i++) { if (num % i == 0) { return false; } } return true; } public static void findPrimeSums(int remaining, ArrayList primes, ArrayList currentCombination) { if (remaining == 0) { System.out.println(currentCombination); return; } for (Integer prime : primes) { if (prime > remaining) break; currentCombination.add(prime); findPrimeSums(remaining - prime, primes, currentCombination); currentCombination.remove(currentCombination.size() - 1); } } } 这段代码里,findPrimeSums方法就是一个递归函数。这玩意儿呢,要收三个东西当输入:一个是剩下的数字,一个是所有的素数小弟们列好队等着用,还有一个是咱们现在正在拼凑的那个组合。当剩余数字为0时,我们就找到了一组有效的组合。 --- 四、结果展示 数字的无限可能性 运行上面的代码后,你会看到类似如下的输出: [2, 2, 2, 2, 2] [2, 2, 2, 3, 1] [2, 2, 3, 3] [2, 3, 5] [3, 7] 哇哦!原来10可以有这么多不同的拆分方式呢!每一组都是由素数组成的,并且它们的和正好等于10。 在这个过程中,我一直在想,为什么会有这么多种可能性呢?是不是因为素数本身就具有某种特殊的规律?还是说这只是数学世界中的一种巧合? 不管怎样,我觉得这种探索的过程真的很迷人。每一次运行程序,都像是在打开一个新的宝藏箱,里面装满了未知的答案。 --- 五、总结与展望 好了朋友们,今天的旅程到这里就要结束了。我们不仅学会了如何用Java找到素数,还掌握了如何用递归的方法拆分数字。虽然过程有点复杂,但每一步都很值得回味。 未来,如果你对这个问题感兴趣,不妨尝试优化代码,或者挑战更大的数字。也许你会发现更多有趣的规律呢! 最后,希望大家都能喜欢编程带来的乐趣。记住,学习编程就像学习一门新的语言,多实践、多思考,总有一天你会说得非常流利!再见啦,下次见!
2025-03-17 15:54:40
61
林中小径
转载文章
...伯努利分布的数据后,使用Beta分布作为先验时,可以得到同样为Beta分布的后验分布。 最大似然估计(Maximum Likelihood Estimation, MLE) , 最大似然估计是一种参数估计方法,其核心思想是根据观测到的数据集,找到使得该数据出现概率最大的模型参数值。在实际应用中,通过构建似然函数并最大化该函数,从而确定参数的最佳估计值。文章中详细描述了如何使用最大似然估计来求解伯努利分布中的参数p,即通过计算样本集中所有观测结果对应概率乘积的最大化,得出参数p的最可能取值。
2024-02-26 12:45:04
517
转载
Netty
...的地方,不断地调整和优化这些方法。记住,优秀的软件工程师总是愿意拥抱变化,勇于尝试新的技术和方法,以求达到最佳的性能表现和用户体验。希望这篇文章能给大家带来一些启示,让我们一起在技术的海洋里继续探索吧! --- 这篇技术文章希望能够以一种更贴近实际开发的方式,让大家了解并发资源分配的重要性,并通过Netty提供的强大工具,找到适合自己的解决方案。如果有任何疑问或建议,欢迎随时留言交流!
2024-12-05 15:57:43
102
晚秋落叶
转载文章
...的重要环节。通过不断优化招聘流程、提升人才评价标准,并加强校企之间的深度融合,我们才能更好地促进人才与市场的精准对接,实现高质量就业的目标。
2024-02-02 13:16:24
524
转载
转载文章
...回收机制,释放掉不被使用的内存空间,解决了管理内存空间的烦恼。 Java 语言是一种分布式的面向对象语言,具有面向对象、平台无关性、简单性、解释执行、多线程、安全性等很多特点,下面针对这些特点进行逐一介绍。 1. 面向对象 Java 是一种面向对象的语言,它对对象中的类、对象、继承、封装、多态、接口、包等均有很好的支持。为了简单起见,Java 只支持类之间的单继承,但是可以使用接口来实现多继承。使用 Java 语言开发程序,需要采用面向对象的思想设计程序和编写代码。 2. 平台无关性 平台无关性的具体表现在于,Java 是“一次编写,到处运行(Write Once,Run any Where)”的语言,因此采用 Java 语言编写的程序具有很好的可移植性,而保证这一点的正是 Java 的虚拟机机制。在引入虚拟机之后,Java 语言在不同的平台上运行不需要重新编译。 Java 语言使用 Java 虚拟机机制屏蔽了具体平台的相关信息,使得 Java 语言编译的程序只需生成虚拟机上的目标代码,就可以在多种平台上不加修改地运行。 3. 简单性 Java 语言的语法与 C 语言和 C++ 语言很相近,使得很多程序员学起来很容易。对 Java 来说,它舍弃了很多 C++ 中难以理解的特性,如操作符的重载和多继承等,而且 Java 语言不使用指针,加入了垃圾回收机制,解决了程序员需要管理内存的问题,使编程变得更加简单。 4. 解释执行 Java 程序在 Java 平台运行时会被编译成字节码文件,然后可以在有 Java 环境的操作系统上运行。在运行文件时,Java 的解释器对这些字节码进行解释执行,执行过程中需要加入的类在连接阶段被载入到运行环境中。 5. 多线程 Java 语言是多线程的,这也是 Java 语言的一大特性,它必须由 Thread 类和它的子类来创建。Java 支持多个线程同时执行,并提供多线程之间的同步机制。任何一个线程都有自己的 run() 方法,要执行的方法就写在 run() 方法体内。 6. 分布式 Java 语言支持 Internet 应用的开发,在 Java 的基本应用编程接口中就有一个网络应用编程接口,它提供了网络应用编程的类库,包括 URL、URLConnection、Socket 等。Java 的 RIM 机制也是开发分布式应用的重要手段。 7. 健壮性 Java 的强类型机制、异常处理、垃圾回收机制等都是 Java 健壮性的重要保证。对指针的丢弃是 Java 的一大进步。另外,Java 的异常机制也是健壮性的一大体现。 8. 高性能 Java 的高性能主要是相对其他高级脚本语言来说的,随着 JIT(Just in Time)的发展,Java 的运行速度也越来越高。 9. 安全性 Java 通常被用在网络环境中,为此,Java 提供了一个安全机制以防止恶意代码的攻击。除了 Java 语言具有许多的安全特性以外,Java 还对通过网络下载的类增加一个安全防范机制,分配不同的名字空间以防替代本地的同名类,并包含安全管理机制。 Java 语言的众多特性使其在众多的编程语言中占有较大的市场份额,Java 语言对对象的支持和强大的 API 使得编程工作变得更加容易和快捷,大大降低了程序的开发成本。Java 的“一次编写,到处执行”正是它吸引众多商家和编程人员的一大优势。 扩展知识: 按应用范围,Java 可分为 3 个体系,即 Java SE、Java EE 和 Java ME。下面简单介绍这 3 个体系。 1. Java SE Java SE(Java Platform Standard Edition,Java 平台标准版)以前称为 J2SE,它允许开发和部署在桌面、服务器、嵌入式环境和实时环境中使用的 Java 应用程序。Java SE 包含了支持 Java Web 服务开发的类,并为 Java EE 提供基础,如 Java 语言基础、JDBC 操作、I/O 操作、网络通信以及多线程等技术。图 1 所示为 Java SE 的体系结构。 本篇文章为转载内容。原文链接:https://blog.csdn.net/m0_73892801/article/details/129181633。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-03-25 09:18:50
84
转载
转载文章
...图表类型选择,还特别优化了与现代Web开发工具如React、Angular和Vue的集成体验。然而,数据可视化领域的创新和发展永无止境。近日,amCharts公司宣布即将推出的一系列新功能更新,进一步强化其产品在实时数据分析、交互式体验以及无障碍访问等方面的优势。 据官方透露,amCharts 5将在下一版本中引入更先进的动态数据流处理机制,使得大规模实时数据能够得到即时、流畅的可视化展现,尤其适用于金融交易、物联网监控等对时效性要求极高的场景。同时,针对日益增长的无障碍需求,amCharts 5也将改进图表元素的可访问性设计,确保视障用户通过辅助技术也能准确理解数据信息。 此外,amCharts团队正积极与各大开源社区合作,持续丰富地图库资源,并计划将更多开源地理空间数据项目纳入支持范围,让用户能更加便捷地创建符合特定业务需求的地图图表。通过这些升级,amCharts 5旨在巩固其作为行业领先的数据可视化工具的地位,赋能各行业用户高效、精准地洞察并传达复杂数据背后的价值。
2023-09-17 18:18:34
351
转载
转载文章
...可能多条生产品线的的后端是由一个架构师设计的平台提供,所以架构师也是有所不同的,其分类如下: 软件架构师 信息架构师 网站架构师 其主要职责如下: 1、需求分析:“知彼”有时比“知已”还重要。管理市场,产品等的需求,确立关键需求。坚持技术上的优秀与需求的愿景统一,提升技术负债意识,提供技术选项,风险预判,工期等解决方案。 2、架构设计:在产品功能中抽取中非功能的需求,由关键需求变成概念型架构。列出功能树,分层治之,如用户界面层、系统交互层,数据管理层。达成高扩展,高可用,高性能,高安全,易运维,易部署,易接入等能力。 3、功能设计与实现:对架构设计的底层代码级别实现。如公共核心类,接口实现,应用发现规则、接口变更等。 技术经理 人生就是不断上升的过程,你已经到达经理的层次了。如今的你,需要不断提高领导力,需要定期召开团队会议讨论问题。 首先我们要更加自信,在工作中显示自己的功力,给讲话增添力量。如:“本次项目虽然有很大的困难,我们也需苦战到底。当然示先垂范,身先士卒,方能成功!” 技术经理有时候也可能叫系统分析员,一些小公司可能会整个公司或者部门有一个技术经理。技术经理承担的角色主要是系统分析、架构搭建、系统构建、代 码走查等工作,如果说项目经理是总统,那么技术经理就是总理。当然不是所有公司都是这样的,有些公司项目经理是不管技术团队的,只做需求、进度和同客户沟 通,那么这个时候的项目经理就好像工厂里的跟单人员了,这种情况在外包公司比较多。对于技术经理来说,着重于技术方面,你需要知道某种功能用哪些技术合 适,需要知道某项功能需要多长的开发时间等。同时,技术经理也应该承担提高团队整体技术水平的工作。 你需要和大家站在一起,因为人们也都有解决问题的能力,更需要有以下的能力与责任: 1、任务管理:开发工作量评估、定立开发流程、分配和追踪开发任务 2、质量管理:代码review、开发风险判断/报告/协调解决 3、效率提升:代码底层研发和培训、最佳代码实践规范总结与推广、自动化生产工具、自动化部署工具 4、技术能力提升:招聘面试、试题主拟、新人指导、项目复盘与改进 技术总监 如果一个研发团队超过20人,有多条产品线或业务量很大,这时已经有多个技术经理在负责每个业务,这时需要一位技术总监。 主要职责: 1、组建平台研发部,与架构师共建软件公共平台,方便各条产品业务线研发。 2、通过技术平台、通过高一层的职权,管理和协调公司各个部门与本部门各条线。现在每个产品线都应该有合格的技术经理和高级程序员。 结语:我们相信,每个人都能成为IT大神。现在开始,找个师兄带你入门,让你的学习之路不再迷茫。 这里推荐我们的前端学习交流圈:784783012,里面都是学习前端的从最基础的HTML+CSS+JS【炫酷特效,游戏,插件封装,设计模式】到移动端HTML5的项目实战的学习资料都有整理,送给每一位前端小伙伴。 最新技术,与企业需求同步。好友都在里面学习交流,每天都会有大牛定时讲解前端技术! 点击:前端技术分享 本篇文章为转载内容。原文链接:https://blog.csdn.net/webDk/article/details/88917912。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2024-05-10 13:13:48
755
转载
转载文章
...盘操作,还支持跨平台使用,对于Windows、Mac OS X及Linux系统均能提供一致的操作接口。 与此同时,针对更复杂的交互场景如游戏或三维设计软件,一些高级模拟技术如Robot Framework、Appium也开始受到广泛关注。这些框架不仅能模拟基本的键盘鼠标输入,还能处理更精细的触屏手势操作,并能适应各种移动设备和桌面环境,极大提高了自动化测试的覆盖率和效率。 另外,在安全性方面,研究人员正不断探索如何防止恶意软件通过模拟合法用户的键盘和鼠标操作进行攻击。例如,某些安全软件已开始采用行为分析和机器学习算法来识别并阻止非人类产生的异常输入模式,确保只有真实的用户交互才能触发敏感操作。 总之,Python win32api提供的键盘鼠标模拟功能为自动化测试与脚本编写打开了新世界的大门,而结合最新的自动化测试技术和安全防护手段,我们不仅可以更高效地实现UI自动化,还能在保障用户体验的同时,有效抵御潜在的安全威胁。未来,随着相关技术的持续发展和完善,这一领域的应用场景将更加丰富多元。
2023-06-07 19:00:58
54
转载
ElasticSearch
...ticsearch的使用大牛,本篇文章对你不会有什么收益。如果你要做一个搜索功能,不知道如何选型,那你可以参考一下本文。 1. 可选方案 如果你需要做一个搜索功能,这时候你可能会想到很多实现方法: 比如你的底层数据库用的是sql数据库(比如mysql):你可能会想到在对应字段上使用field1 like '%?%',?即用户输出的关键词 比如你的底层数据库用的是mongo:你可能会想到在对应字段上使用db.collection.find({ "field1": { $regex: /aaa/ } })做查询,aaa即用户输入的关键词 比如你的底层数据库用的是elasticsearch:那厉害了,专业全文搜索神奇,全文搜索或搜索相关的需求使用elasticsearch绝对是最合适的选择 比如你的底层数据库用的是hive、impala、clickhouse等大数据计算引擎:鸟枪换炮,其实用作全文索引和搜索的场景并不合适,你可能依旧会使用sql数据库那样用like做交互 2. 方案选择 调研之后,可能会发现对于数据量相对大一点的搜索场景,在当下流行的数据库或计算引擎中,elasticsearch是其中最合适的解决方案。 无论是sql的like、还是mongo的regex,在线上环境下,数据量较多的情况下,都不是很高效的查询,甚至有的公司的dba会禁止在线上使用类似的查询语法。 与elasticsearch是“亲戚”的,大家还常提到lucene、solr,但是无论从现在的发展趋势还是公司运维人才的储备(不得不说当下的运维人才中,对es熟悉的人才会更多一些),elasticsearch是相对较合适的选择。 一些大数据计算引擎,其实更多的适合OLAP场景。当然也完全可以使用,因为比如clickhouse、starrocks等的查询速度已经发展的非常快。但你会发现在中文分词搜索上,实现起来有一定困扰。 所以,如果你不差机器,首选方案还是elasticsearch。 3. elasticsearch的适用场景 3.1 经典的日志搜索场景 提到elasticsearch不得不提到它的几个好朋友: 一些公司里经常用elasticsearch来收集日志,然后用kibana来展示和分析。 展开来说,举个例子,你的app打印日志打印到了线上日志文件,当app出现故障你需要做定位筛查的时候,可能需要登录线上机器用grep命令各种查看。 但如果你不差机器资源,可以搭建上述架构,app的日志会被收集到elasticsearch中,最终你可以在kibana中查看日志,kibana里面可以很方面的做各种筛查操作。 这个流畅大概是这样的: 3.2 通用搜索场景 但是没有上图的beats、logstash、kibana,elasticsearch可以自己工作吗?完全可以的! elasticsearch也支持单机部署,数据规模不是很大的情况下,表现也是不错的。所以,你也不用担心因为自己机器资源不够而对elasticsearch望而却步。当然,单机部署的情况下,更多的适合自己玩,对于可靠性的要求就不能太苛刻了。 如果你在用宝塔,那你可以在宝塔面板,左侧“软件商店”中直接找到elasticsearch,并“没有痛苦”的安装。 本篇文章主要讨论选型,所以不涉及安装细节。 3.2.1 性能顾虑 上面提到了“表现”,其实性能只是elasticsearch的一个方面,主要你的机器资源足够(机器资源?对,包括你的机器个数,elasticsearch可以非常方便的横向扩展,以及单机的配置,cpu+内存,内存越高越好,elasticsearch比较吃内存!),它一定会给你很好的性能反应。试想,公司里的app打印线上日志的行数其实可比一般业务系统产生的订单数量要大很多很多,elasticsearch都可以常在日志的实时分析,所以如果你要做通用场景,而且机器资源不是问题,这是完全行得通的。 3.2.2 易用性和可玩性 此外,在使用elasticsearch的时候,会有很多的可玩性。这里不引经据典,呈现很多elasticsearch官方文章的列举优秀特性(当然,确实很优秀!)。 这里举几个例子: (1)中文分词:第一章提到的其它引擎几乎很难实现,elasticsearch对分词器的支持是原生的,因为elasticsearch天生就为全文索引而生,elasticsearch的汉语名字就是“弹性搜索”。这家伙可是专门搞搜索的! 有的朋友可能不了解分词器,比如你的一个字段里存储“今天我要吃冰激凌”,在分词器的加持下,es最终会存储为“今天|我|要|吃|冰激凌”,并且使用倒排索引的形式进行存储。当你搜索“冰激凌”的时候,可以很快的反馈回来。 关于elasticsearch的原理,这里不展开说明,分词器和倒排索引是elasticsearch的最基本的概念。如果有不了解的朋友,可以自行百度一下。而且这两个概念,与elasticsearch其实不挂钩,是搜索中的通用概念。 关于倒排索引,其核心表现如下图: 如果你要用mysql、mongo实现中文分词,这......其实挺麻烦的,可能在后面的版本支持中会实现的很好,但在当前的流行版本中,它们对中文分词是不够友好的。 mysql5.7之后支持外挂第三方分词器,支持中文分词。而在数据量较大的情况下,mysql的多机器部署几乎很难实现,elasticsearch可以很容易的水平扩展。 mongo支持西方语言的分词,但不支持中文、日语、汉语等东方语言,你需要在自己的逻辑代码中实现分词器。 ngram分词,你看看效果:依旧是“今天我要吃冰激凌”,ngram二元分词后即将得到结果“今天、天我、我要、要吃、吃冰、冰激、激凌”。这....,那你搜索冰激凌就搜不出来!咋办呢,当然可以使用三元分词。但是更好的解决方案还是中文分词器,但它们原生并不支持的。 (2)自定义排名场景:比如你的搜索“冰激凌”,结果中返回了有10条,这10条应该有你想对它指定的顺序。最简单的就是用默认的得分,但是如果你想人为干预这个得分怎么办? elasticsearch支持function_score功能(可以不用,这个是增强功能),es会在计算最终得分之前回调这个你指定的function_score回调函数,传入原始得分、行的原始数据,你可以在里面做计算,比如查询其它参考表、或查看是否是广告位,以得到新的score返回给用户。 function_scrore的功能不展开描述,是一个在自定义得分场景下十分有用又简单易用的功能!下面是一个使用示例,不仅如此,它是支持自定义函数的,自由度非常高。 (3)文本高亮:你用mysql或mongo也可以实现,比如用户搜索“冰激凌”,你只需要在逻辑代码中对“冰激凌”替换为“<span class='highlight-term'>冰激凌</span>”,然后前端做样式即可。但如果用户搜索了“好吃的冰激凌”咋办呢?还有就是英文大小写的场景,用户搜索"MAIN",那结果及时匹配到了“main”(小写的),这个单词是否应该高亮呢?也许这时候你会用业务代码实现toLowerCase下基于位置下标的匹配。 挺麻烦的吧,elasticsearch,自动可以返回高亮字段!并且可以自由指定高亮的html前后标签。 (4)实在太多了....这家伙天生为索引而生,而且版本还在不断地迭代。不差机器的话,用用吧! 4. 退而求其次 4.1 普通数据库 尽管elasticsearch在搜索场景下,是非常好用的利器!但是它比较消耗机器资源,如果你的数据规模并不大,而且想快速实现功能。你可以使用mysql或mongo来代替,完全没有问题。 技术是为了解决特定业务场景下的问题,结合当前手头的资源,适合自己的才是最好的。也许你搞了一个单机器的elasticsearch,单机器内存只有2G,它的表现并不会比mysql、mongo来的好。 当然,如果你为了使用上边提到的一些优秀的独有的特性,那elasticsearch一定还是最佳选择! 对于mysql(关系型数据库)和mongo(文档数据库)的区别这里不展开描述了,但对于搜索而言,两种都合适。有时候选型也不用很纠结,其实都是差不太多的东西,适合自己的、自己熟悉的、运维起来顺手的,就是最好的。 4.2 普通数据库实现中文分词搜索的原理 尽管mysql在5.7以后支持外挂第三方分词器,mongo在截止目前的版本中也不支持中文分词(你可能会看到一些文章中说可以指定language为chinese,但其实会报错的)。 其实当你选择普通数据库,你就不得不在逻辑代码中自己实现一套索引分词+搜索分词逻辑。 索引分词+搜索分词?为什么分开写,如果你有用过elasticsearch或solr,你会知道,在指定字段的时候,需要指定index分词器和search分词器。 下面以mongo为例做简要说明。 4.2.1 index分词器 意思是当数据“索引”截断如何分词。首先,这里必须要承认,数据之后存储了,才能被查询。在搜索中,这句话可以换成是“数据只有被索引了,才能被搜索”。 这时候请求打过来了,要索引一条数据,其中某字段是“今天我要吃冰激凌”,分词后得到“今天|我|要|吃|冰激凌”,这个就可以入库了。 如果你使用elasticsearch或solr,这个过程是自动的。如果你使用不支持外观分词器的常规数据库,这个过程你就要手动了,并把分词后的结果用空格分开(最好使用空格,因为西方语言的分词规则就是按空格拆分,以及逗号句号),存入数据库的一个待搜索的字段上。 效果如下图: 本站的其它博文中有介绍IKAnalyzer:https://www.52itw.com/java/6268.html 4.2.2 search分词器 当用户的查询请求打过来,用户输入了“好吃的冰激凌”,分词后得到“好吃|冰激凌”(“的”作为停用词stopwords,被自动忽略了,IKAnalyzer可以指定停用词表)。 于是这时候就回去上图的数据库表里面搜索“好吃 冰激凌”(与index分词器结果统一,还是用空格分隔)。 当然,对于mongo而言,你需要事先开启全文索引db.xxx.ensureIndex({content: "text"}),xxx是集合名,content是字段名,text是全文索引的标识。 mongo搜索的时候用这个语法:db.xxx.find( { $text: { $search: "好吃 冰激凌" } },{ score: { $meta: "textScore" } }).sort( { score: { $meta: "textScore" } } ) 4.2.3 索引库和存储库分开 为了减少单表的大小,为了让普通的列表查询、普通筛选可以跑的更快,你可以对原有的数据原封不动的做一张表。 然后对于搜索场景,再单独对需要被搜索的字段单独拎一张表出来! 然后二者之间做增量信号同步或定时差额同步,可能会有延迟,这个就看你能容忍多长时间(悄悄告诉你,elasticsearch也需要指定这个refresh时间,一般是1s到几秒、甚至分钟级。当然,二者的这个时间对饮的底层目的是不一样的)。 这样,搜索的时候先查询搜索库,拿到一个指针id的列表,然后拿到指针id的列表区存储里把数据一次性捞出来。当然,也是支持分页的,你查询搜索库其实也是普通的数据库查询嘛,支持分页参数的。 4.3 存储库和索引库的延伸阅读 很多有名的开源软件也是使用的存储库与索引库分离的技术方案,如apache atlas: apache atlas对于大数据领域的数据资产元数据管理、数据血缘上可谓是专家,也涉及资产搜索的特性,它的实现思路就是:从搜索库中做搜索、拿到key、再去存储库中做查询。 搜索库:上图右下角,可以看到使用的是elasticsearch、solr或lucene,多个选一个 存储库:上图左下角,可以看到使用的是Cassandra、HBase或BerkeleyDB,多个选一个 虽然apache atlas在只有搜索库或只有存储库的时候也可以很好的工作,但只针对于数据量并不大的场景。 搜索库,擅长搜索!存储库,擅长海量存储!搜索库多样化搜索,然后去存储库做点查。 当你的数据达到海量的时候,es+hbase也是一种很好的解决方案,不在这里展开说明了。
2024-01-27 17:49:04
537
admin-tim
转载文章
...同样的时间和精力,你使用不同的途径来成长,收获是不一样的。 关于721法则有两种不同的理解。 理解1: 通过实践,我们可以吸收其中的70%,通过与他人交流,我们可以吸收其中的20%,通过读书和培训,可以吸收其中的10%。 理解2: 一生而言,我们70%的经验来之实践,20%来之与他人交流,10%来之读书和培训。 【----帮助Python学习,以下所有学习资料文末免费领!----】 不管你如何理解,这个721法则都告诉我们:我们都要勇敢地去实践。 实践中我们可以出错,可以不满意,可以有失去,但那都是我们的财富。 不去实践,我们永远站在原地,实践了,那就是希望的开始。 下图是我百度所得: 下面是我用matplotlib画的: 我还有另外一种理解:如果你想有所产出,10%靠运气,20%靠自己,更多的是要靠团队。 我将70%赋予了灰色,这是一种冷色调,代表理性、努力和恒心。其它两种颜色为亮色,表示我们赤诚的心和坚定不移的方向。 如果你感兴趣,可以将下面代码复制到IDLE或者Spyder或者Pycharm,轻轻一点,属于你的图就成了。 第一个图from matplotlib import pyplot as plt 调节图形大小,宽,高plt.figure(figsize=(6,9))定义饼状图的标签,标签是列表labels = [ '实践与经验','交流与反馈','培训与学习']每个标签占多大,会自动去算百分比sizes = [70,20,10]colors = ['red','yellowgreen','lightskyblue']colors = ['gray','00FFFF','FF1493']灰、粉、蓝绿将某部分爆炸出来, 使用括号,将第一块分割出来,数值的大小是分割出来的与其他两块的间隙explode = (0.05,0.05,0)patches,l_text,p_text = plt.pie(sizes,explode=explode,labels=labels,colors=colors,labeldistance = 1.1,autopct = '%3.1f%%',shadow = False,startangle = 90,pctdistance = 0.6)labeldistance,文本的位置离远点有多远,1.1指1.1倍半径的位置autopct,圆里面的文本格式,%3.1f%%表示小数有三位,整数有一位的浮点数shadow,饼是否有阴影startangle,起始角度,0,表示从0开始逆时针转,为第一块。一般选择从90度开始比较好看pctdistance,百分比的text离圆心的距离patches, l_texts, p_texts,为了得到饼图的返回值,p_texts饼图内部文本的,l_texts饼图外label的文本改变文本的大小方法是把每一个text遍历。调用set_size方法设置它的属性for t in l_text:t.set_size(25)for t in p_text:t.set_size(20) 设置x,y轴刻度一致,这样饼图才能是圆的plt.axis('equal')plt.legend(loc="upper left",frameon=False,fontsize=20,borderaxespad=-5)plt.title('721法则', y=-0.1,fontsize=30,loc="center")plt.savefig("721法则.png")plt.show() 下图还是我画的,当然,没有上面那个美观。 第二个图import matplotlib.pyplot as pltplt.rcParams['font.family']='SimHei'plt.figure(figsize=(6, 9))labels = '实践与经验','交流与反馈','培训与学习'sizes = [70.0,20.0,10.0]explode = (0.1,0,0)colors = ['gray','00FFFF','FF1493']plt.pie(sizes,explode=explode,labels=labels,colors=colors,labeldistance=1.1,\autopct='%d%%',shadow=True,counterclock=False)plt.legend(loc="upper left",frameon=False,fontsize=18,borderaxespad=-5)plt.axis('equal')plt.title('721法则', y=-0.1,fontsize=18)plt.savefig("721法则.png")plt.show() 结论:我们不但要会画,还要学着画得尽可能美,实践是唯一的途径。 Python入门教程 如果你现在还是不会Python也没关系,下面我会给大家免费分享一份Python全套学习资料, 包含视频、源码、课件,希望能帮到那些不满现状,想提升自己却又没有方向的朋友,可以和我一起来学习交 流。 ① Python所有方向的学习路线图,清楚各个方向要学什么东西 ② 600多节Python课程视频,涵盖必备基础、爬虫和数据分析 ③ 100多个Python实战案例,含50个超大型项目详解,学习不再是只会理论 ④ 20款主流手游迫解 爬虫手游逆行迫解教程包 ⑤ 爬虫与反爬虫攻防教程包,含15个大型网站迫解 ⑥ 爬虫APP逆向实战教程包,含45项绝密技术详解 ⑦ 超300本Python电子好书,从入门到高阶应有尽有 ⑧ 华为出品独家Python漫画教程,手机也能学习 ⑨ 历年互联网企业Python面试真题,复习时非常方便 👉Python学习视频600合集👈 观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 👉实战案例👈 光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 👉100道Python练习题👈 检查学习结果。 👉面试刷题👈 资料领取 上述这份完整版的Python全套学习资料已经上传CSDN官方,朋友们如果需要可以微信扫描下方CSDN官方认证二维码输入“领取资料” 即可领取 好文推荐 了解python的前景:https://blog.csdn.net/weixin_49891576/article/details/127187029 了解python的兼职:https://blog.csdn.net/weixin_49891576/article/details/127125308 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_49891576/article/details/130861900。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-06-04 23:38:21
105
转载
转载文章
...数的代码实现中,我们使用showString函数把被加载执行的用户进程数据段所对应的全局描述符号给显示到桌面上,上面代码执行后情况如下: 我们看到,在控制台中执行hlt命令后,内核加载了用户进程,同时在控制台下方输出了一个字符串,也就是0x1E,这个数值对应的就是当前运行用户进程其数据段对应的全局描述符号。一旦有这个信息之后,另一个进程就可以有机可乘了。 接着我们在本地目录创建一个新文件叫crack.c,其内容如下: void main() {char p = (char)0x123;p[0] = 'c';p[1] = 'r';p[2] = 'a';p[3] = 'c';p[4] = 'k';p[5] = 0;} 它的目的简单,就是针对内存地址0x123处写入字符串”crack”.接着我们修改一下makefile,使得内核编译时,能把crack.c编译成二进制文件: CFLAGS=-fno-stack-protectorckernel : ckernel_u.asm app_u.asm crack_u.asm cp ckernel_u.asm win_sheet.h win_sheet.c mem_util.h mem_util.c write_vga_desktop.c timer.c timer.h global_define.h global_define.c multi_task.c multi_task.h app_u.asm app.c crack_u.asm crack.c makefile '/media/psf/Home/Documents/操作系统/文档/19/OS-kernel-win-sheet/'ckernel_u.asm : ckernel.o....crack_u.asm : crack.o./objconv -fnasm crack.o crack_u.asmcrack.o : crack.cgcc -m32 -fno-stack-protector -fno-asynchronous-unwind-tables -s -c -o crack.o crack.c 然后我们在本地目录下,把api_call.asm拷贝一份,并命名为crack_call.asm,后者内容与前者完全相同,只不过稍微有那么一点点改变,例如: BITS 32mov AX, 30 8mov DS, axcall mainmov edx, 4 ;返回内核int 02Dh.... 这里需要注意,语句: mov AX, 30 8mov DS, ax 其中30对应的就是前面显示的0x1E,这两句汇编的作用是,把程序crack的数据段设置成下标为30的全局描述符所指向的内存段一致。这就意味着crack进程所使用的数据段就跟hlt启动的进程所使用的数据段一致了!于是在crack.c中,它对内存地址为0x123的地方写入字符串”crack”,那就意味着对hlt加载用户进程的内存空间写入对应字符串! 完成上面代码后,我们在java项目中,增加代码,一是用来编译crack进程,而是把crack代码写入虚拟磁盘。在OperatingSystem.java中,将代码做如下添加: public void makeFllopy() {writeFileToFloppy("kernel.bat", false, 1, 1);....header = new FileHeader();header.setFileName("crack");header.setFileExt("exe");file = new File("crack.bat");in = null;try {in = new FileInputStream(file);long len = file.length();int count = 0;while (count < file.length()) {bbuf[count] = (byte) in.read();count++;}in.close();}catch(IOException e) {e.printStackTrace();return;}header.setFileContent(bbuf);fileSys.addHeader(header);....}public static void main(String[] args) {CKernelAsmPrecessor kernelPrecessor = new CKernelAsmPrecessor();kernelPrecessor.process();kernelPrecessor.createKernelBinary();CKernelAsmPrecessor appPrecessor = new CKernelAsmPrecessor("hlt.bat", "app_u.asm", "app.asm", "api_call.asm");appPrecessor.process();appPrecessor.createKernelBinary();CKernelAsmPrecessor crackPrecessor = new CKernelAsmPrecessor("crack.bat", "crack_u.asm", "crack.asm", "crack_call.asm");crackPrecessor.process();crackPrecessor.createKernelBinary();OperatingSystem op = new OperatingSystem("boot.bat");op.makeFllopy();} 在main函数中,我们把crack.c及其附属汇编文件结合在一起,编译成二进制文件crack.bat,在makeFllopy中,我们把编译后的crack.bat二进制数据读入,并把它写入到虚拟磁盘中,当系统运行起来后,可以把crack.bat二进制内容作为进程加载执行。 完成上面代码后,回到内核的C语言部分,也就是write_vga_desktop.c做一些修改,在kernel_api函数中,修改如下: int kernel_api(int edi, int esi, int ebp, int esp,int ebx, int edx, int ecx, int eax) {....else if (edx == 14) {sheet_free(shtctl, (struct SHEET)ebx);//change herecons_putstr((char)(task->pTaskBuffer->pDataSeg + 0x123));}....}void console_task(struct SHEET sheet, int memtotal) {....for(;;) {....else if (i == KEY_RETURN) {....else if (strcmp(cmdline, "crack") == 1) {cmd_execute_program("crack.exe");}....}....} 在kernel_api中,if(edx == 14)对应的api调用是api_closewin,也就是当用户进程关闭窗口时,我们把进程数据偏移0x123处的数据当做字符串打印到控制台窗口上,在console_task控制台进程主函数中,我们增加了对命令crack的响应,当用户在控制台上输入命令”crack”时,将crack代码加载到内核中运行。上面代码完成后,编译内核,然后用虚拟机将内核加载,系统启动后,我们现在一个控制台中输入hlt,先启动用户进程。然后点击”shift + w”,启动另一个控制台窗口,在其中输入crack,运行crack程序: 接着把点击tab键,把焦点恢复到窗口task_a,然后用鼠标点击运行hlt命令的窗口,把输入焦点切换到该控制台,然后再次点击tab键,把执行权限提交给运行hlt命令的控制台,此时点击回车,介绍用户进程启动的窗口,结果情况如下: 此时我们可以看到,运行hlt命令,执行用户进程的控制台窗口居然输出了字符串”crack”,而这个字符串正是crack.c在执行时,写入地址0x123的字符串。这就意味着一个恶意进程成功修改了另一个进程的内存数据,也相当于一个流氓程序把一只咸猪手伸到其他用户进程的裙底,蹂躏一番后留下了猥琐的证据。 那么如何防范恶意进程对其他程序的非法入侵呢,这就得使用CPU提供的LDT机制,也就是局部描述符表,该机制的使用,我们将在下一节详细讲解。更详细的讲解和代码演示调试,请参看视频: 更详细的讲解和代码调试演示过程,请参看视频 Linux kernel Hacker, 从零构建自己的内核 更多技术信息,包括操作系统,编译器,面试算法,机器学习,人工智能,请关照我的公众号: 本篇文章为转载内容。原文链接:https://blog.csdn.net/tyler_download/article/details/78731905。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-03-14 19:08:07
254
转载
转载文章
...来存储工艺参数、设备状态等各种需要在控制系统中保存和处理的信息。在实际应用中,C代码通过OPC UA协议访问这些数据块,按需读取或更新其中的数据。 标签(Tag) , 在工业自动化领域,特别是在OPC UA通讯中,标签是用来标识具体数据变量的一种抽象概念。它对应于PLC或其他设备内部的一个特定数据位或一组数据。本文中描述了如何在OpcUaServer中根据PLC的数据块创建标签,例如DB4.0-99和DB5.0-99等,它们分别代表了PLC内部DB4和DB5数据块中特定地址范围内的数据数组。通过标签,C应用程序可以方便地定位并操作PLC中的具体数据项,实现了对生产现场数据的远程监控与控制。
2023-05-10 18:43:00
269
转载
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
read -p "Enter input: " variable
- 在脚本中提示用户输入并存储至变量。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"