前端技术
HTML
CSS
Javascript
前端框架和UI库
VUE
ReactJS
AngularJS
JQuery
NodeJS
JSON
Element-UI
Bootstrap
Material UI
服务端和客户端
Java
Python
PHP
Golang
Scala
Kotlin
Groovy
Ruby
Lua
.net
c#
c++
后端WEB和工程框架
SpringBoot
SpringCloud
Struts2
MyBatis
Hibernate
Tornado
Beego
Go-Spring
Go Gin
Go Iris
Dubbo
HessianRPC
Maven
Gradle
数据库
MySQL
Oracle
Mongo
中间件与web容器
Redis
MemCache
Etcd
Cassandra
Kafka
RabbitMQ
RocketMQ
ActiveMQ
Nacos
Consul
Tomcat
Nginx
Netty
大数据技术
Hive
Impala
ClickHouse
DorisDB
Greenplum
PostgreSQL
HBase
Kylin
Hadoop
Apache Pig
ZooKeeper
SeaTunnel
Sqoop
Datax
Flink
Spark
Mahout
数据搜索与日志
ElasticSearch
Apache Lucene
Apache Solr
Kibana
Logstash
数据可视化与OLAP
Apache Atlas
Superset
Saiku
Tesseract
系统与容器
Linux
Shell
Docker
Kubernetes
[使用Python实现精准鼠标点击坐标定位]的搜索结果
这里是文章列表。热门标签的颜色随机变换,标签颜色没有特殊含义。
点击某个标签可搜索标签相关的文章。
点击某个标签可搜索标签相关的文章。
转载文章
...应内容。 1.首先先定位该弹出框: 用spy++查找到该弹出框的标题和类名: 弹出框的句柄是每次都会变的,所以通过标题和类名获取该句柄: 获取另存为弹出框 calssname = u"32770" titlename = u"文件另存为" hwnd = win32gui.FindWindow(calssname,titlename) 2.输入文件名 输入框定位在多层窗口的下面,所以我是一层一层往下找的,没找到便捷的方法 获取文件名输入框 a1 = win32gui.FindWindowEx(hwnd,None,"DUIViewWndClassName",None) a2 = win32gui.FindWindowEx(a1,None,"DirectUIHWND",None) a3 = win32gui.FindWindowEx(a2,None,"FloatNotifySink",None) a4 = win32gui.FindWindowEx(a3,None,"ComboBox",None) hwnd_filename = win32gui.FindWindowEx(a4,None,"Edit",None) 在文件名输入框中输入文件名(fileName输入一个字符串,我根据系统需要生成的随机数,汉字的话需要转码,如u'你好'.encode('gbk')) win32gui.SendMessage(hwnd_filename, win32con.WM_SETTEXT, None, fileName) 3.点击保存 点击保存按钮 hwnd_save = win32gui.FindWindowEx(hwnd,None,"Button",None) win32gui.PostMessage(hwnd_save, win32con.WM_KEYDOWN, win32con.VK_RETURN, 0) win32gui.PostMessage(hwnd_save, win32con.WM_KEYUP, win32con.VK_RETURN, 0) 以上在不需要修改保存路径的情况下可以直接保存文件 --------------------------------------------------------------------------------------------------------------------------- 以下是未解决的问题 1.修改路径的问题(已解决),我猜想是通过两种方式,一是通过左边的树视图(SysTreeView32)来操作选择路径,二是通过在地址栏直接输入路径地址。其中第一种方法在网上没有查找到操作的方法,然后尝试第二种方法,找到路径地址输入框然后输入路径: 未点击地址栏时路径的窗口句柄是上图这样的 点击地址栏之后路径窗口句柄变成下图这样 a1 = win32gui.FindWindowEx(hwnd,None,"WorkerW",None) a2 = win32gui.FindWindowEx(a1,None,"ReBarWindow32",None) a3 = win32gui.FindWindowEx(a2,None,"Address Band Root",None) a4 = win32gui.FindWindowEx(a3,None,"msctls_progress32",None) a5 = win32gui.FindWindowEx(a4,None,"Breadcrumb Parent",None) hwnd_filepath1 = win32gui.FindWindowEx(a5,None,"ToolbarWindow32",None) print "-----hwnd_filepath1------",hwnd_filepath1 先找到到上图路径栏句柄(查找成功),然后按回车,使地址栏变成可输入状态 win32gui.PostMessage(hwnd_filepath1, win32con.WM_LBUTTONDOWN, win32con.MK_LBUTTON, 0) win32gui.PostMessage(hwnd_filepath1, win32con.WM_LBUTTONUP, win32con.MK_LBUTTON, 0) 在通过路径查找 a11 = win32gui.FindWindowEx(hwnd,None,"WorkerW",None) a21 = win32gui.FindWindowEx(a11,None,"ReBarWindow32",None) a31 = win32gui.FindWindowEx(a21,None,"Address Band Root",None) a41 = win32gui.FindWindowEx(a31,None,"msctls_progress32",None) a6 = win32gui.FindWindowEx(a41,None,"ComboBoxEx32",None) a7 = win32gui.FindWindowEx(a6,None,"ComboBox",None) hwnd_filepath = win32gui.FindWindowEx(a7,None,"Edit",None) print "-----hwnd_filepath------",hwnd_filepath 到这一步查找句柄返回值变成0,就是没查找到路径编辑框,没有找到原因,代码运行下来路径那里只是能看到的效果点击了一下,但是不会变成输入框状态,但是把鼠标移上去会变成输入的状态 这样是可输入的状态 然后win32gui.SendMessage(hwnd_filepath, win32con.WM_SETTEXT, None, 'C:\Users\Administrator\Desktop')这样地址就输入不进去,原因不明 视图数操作的方法没有找到 2.取消按钮的点击无效(已解决) 保存按钮 取消按钮 保存和取消的类名都是“Button”,所以通过保存按钮查找到下一个Button就是取消 hwnd_cancle = win32gui.FindWindowEx(hwnd,hwnd_save,"Button",None) print "------hwnd_cancle---",hwnd_cancle 取消句柄获取到了,通过下面的方法打印出来的父句柄和保存按钮是一样的都是另存为这个弹出框 print win32gui.GetParent(hwnd_cancle) 下面两行代码也获取到了取消的类名和标题打印出来的是‘Button’和‘取消’ print win32gui.GetClassName(hwnd_cancle) print win32gui.GetWindowText(hwnd_cancle).decode('gbk').encode('utf-8') 以下两行代码点击取消按钮的时候,弹出框不关闭,然后发现点击的是保存按钮,原因不明 win32gui.PostMessage(hwnd_cancle, win32con.WM_KEYDOWN, win32con.VK_RETURN, 0) win32gui.PostMessage(hwnd_cancle, win32con.WM_KEYUP, win32con.VK_RETURN, 0) 以上是完成的两点和处理失败的两点,做出来是个半成品,win32gui这方面的知识对我来说有点难,在python中安装的pywin32自带了一个API,里面的描述方法很简单,不够详细,很多看不太懂,以后还需要再花时间慢慢研究 -------------------------------------------------------------------------------------------- 问题1的解决方法: 修改成指定路径 win_1 = win32gui.FindWindowEx(hwnd, None,"WorkerW",None) win_2 = win32gui.FindWindowEx(win_1, None,"ReBarWindow32",None) win_3 = win32gui.FindWindowEx(win_2, None,"Address Band Root",None) win_4 = win32gui.FindWindowEx(win_3, None,"msctls_progress32",None) left, top, right, bottom = win32gui.GetWindowRect(win_4) win32api.SetCursorPos([left,top]) win32api.mouse_event(win32con.MOUSEEVENTF_LEFTUP | win32con.MOUSEEVENTF_LEFTDOWN, 0, 0, 0, 0) 将路径复制到剪切板 win32clipboard.OpenClipboard() win32clipboard.EmptyClipboard() win32clipboard.SetClipboardText(filePath) win32clipboard.CloseClipboard() 按下ctrl+v win32api.keybd_event(0x11, 0, 0, 0) win32api.keybd_event(0x56, 0, 0, 0) win32api.keybd_event(0x56, 0, win32con.KEYEVENTF_KEYUP, 0) win32api.keybd_event(0x11, 0, win32con.KEYEVENTF_KEYUP, 0) 按回车进入该路径 win32api.keybd_event(0x0D,0,0,0) 问题2取消按钮点击的问题已经解决: 点击取消按钮,用鼠标点击点击取消按钮,上面使用键盘按键不行,原因不明 hwnd_cancel = win32gui.FindWindowEx(hwnd,hwnd_save,"Button",None) left, top, right, bottom = win32gui.GetWindowRect(hwnd_cancel)该方法接收值必须为4个 win32api.SetCursorPos([left+35,top+13]) win32api.mouse_event(win32con.MOUSEEVENTF_LEFTUP | win32con.MOUSEEVENTF_LEFTDOWN, 0, 0, 0, 0) win32gui.GetWindowRect方法描述:Returns the rectangle for a window in screen coordinates。应该返回该句柄控件的四个顶点坐标吧 win32api.SetCursorPos方法描述:The SetCursorPos function moves the cursor to the specified screen coordinates.将光标移动到指定的屏幕坐标。 ----------------------------------------------------------------------------------------------- 查找另存为弹出框下的所有子句柄: hwndChildList = [] win32gui.EnumChildWindows(hwnd, lambda hwnd1, param: param.append(hwnd1), hwndChildList) for a in hwndChildList: print win32gui.GetParent(a) print win32gui.GetClassName(a) print win32gui.GetWindowText(a).decode('gbk').encode('utf-8') print "-----hwnd_save------",a 另外,经同事推荐ViewWizard工具比spy++更轻便快捷,查看父句柄也比之更方便 按键控制查询:http://www.mamicode.com/info-detail-1319197.html 本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_39814378/article/details/110329291。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-12-17 22:46:11
253
转载
转载文章
...cutor) , 在Python编程中,线程池是一种多线程编程的高效解决方案,通过预先创建一定数量的线程并进行复用,能够减少线程频繁创建销毁带来的开销。文中使用了concurrent.futures.ThreadPoolExecutor来并发处理多个关键词的下拉词数据获取任务,每个关键词的请求作为一个独立的任务提交给线程池,线程池中的空闲线程会自动执行这些任务,从而提高了数据采集效率。 抓包操作 , 在网络编程与数据分析领域中,抓包操作指的是利用网络封包分析软件(如Wireshark、Fiddler等,或浏览器开发者工具)捕获、记录网络传输过程中经过计算机网络接口的所有数据包的过程。在本文的具体情境下,作者通过浏览器开发者工具进行抓包操作,找到了包含百度下拉词数据的HTTP请求,进一步分析了该请求的相关参数和返回结果,以实现自动化数据采集的目标。
2023-06-21 12:59:26
490
转载
转载文章
...阐述的基础操作与元素定位。近期,Selenium 4版本正式发布,引入了WebDriver BiDi协议,使得浏览器与测试脚本之间的通信更为实时和高效,从而提升自动化测试的性能和稳定性。同时,新版还强化了对Shadow DOM的支持,方便开发者针对现代Web组件进行精确测试。 对于实际应用场景,Selenium结合Python、Java等编程语言可以构建复杂的自动化测试框架,如pytest-selenium、TestNG+Selenium等。而在持续集成(CI/CD)环境中,Jenkins、Travis CI等工具与Selenium的集成使用也日益普及,实现自动化测试在开发流程中的无缝衔接。 此外,为了提高测试覆盖率和效率,许多团队开始采用基于AI技术的视觉回归测试工具,如Applitools Eyes、PerceptualDiff等,它们能够与Selenium配合,通过比较页面截图来检测UI界面的变化,尤其适用于响应式设计及跨平台测试场景。 另外值得注意的是,在Web应用安全测试方面,Selenium还可以与其他安全测试工具如ZAP (Zed Attack Proxy) 结合使用,通过对网站进行爬取和模拟用户交互,帮助发现潜在的安全漏洞。 综上所述,Selenium作为Web自动化测试的核心工具,在不断迭代升级中正逐步适应更多复杂且多样化的测试需求。随着DevOps理念的深入推广和实践,熟练掌握并灵活运用Selenium将成为软件质量保障工程师必备技能之一。与此同时,关注相关领域的最新发展动态和技术趋势,将有助于我们在实际项目中更好地利用Selenium以及其他配套工具,不断提升自动化测试的效果与价值。
2023-12-03 12:51:11
45
转载
转载文章
...色、行列位置等。通过使用二维数组,开发者能够方便地根据行列索引访问和操作每一个方块。 连通图算法 , 在计算机科学中,连通图算法是指处理图论问题的一种方法,通常用于确定图中的节点(或对象)是否通过边(或关系)彼此相连形成一个连通分量。在这篇文章中,作者应用了一个递归实现的连通图算法——checkLinked函数,当玩家鼠标移入某个方块时,该算法会遍历与其颜色相同的相邻方块,检查并收集所有可以消除的连通方块,以便进行后续的计分和动画效果展示。 定时器(Timer) , 定时器是浏览器提供的JavaScript特性之一,允许开发人员设置一段代码在特定时间间隔后执行。在这篇文章描述的游戏开发过程中,定时器被用来实现选中方块的闪烁特效。通过设置一个定时器(例如timer变量),每经过一定的时间间隔(如300毫秒),就改变选中方块的样式属性,使其产生连续的视觉变化,从而达到闪烁的效果。 绝对定位(Absolute Positioning) , 在CSS布局中,绝对定位是一种定位模式,它允许开发人员为元素指定精确的坐标值来决定其在页面上的确切位置,而不是遵循正常的文档流。文章中创建的小方块采用的就是绝对定位方式,确保它们可以根据行列位置准确地放置于游戏画布上,无论其他元素如何变化,这些方块的位置始终保持不变。
2023-06-08 15:26:34
516
转载
转载文章
...页内容、结构及样式,实现与用户的交互功能。 节点层级关系 , 在DOM树中,所有网页内容被组织成一个层次结构,每个元素、文本或其他内容都被视为一个节点,并且具有父子、兄弟等层级关系。例如,某个元素节点可能有多个子节点,同时它自身也是其父节点的一个子节点。通过理解并利用这种层级关系,开发者可以精准定位并操作页面中的特定节点。 事件处理机制 , 在Web开发中,事件处理机制允许JavaScript代码对用户或浏览器产生的特定行为(称为“事件”)做出响应。当触发事件时,如鼠标点击、键盘输入或页面加载完成,预先绑定到该事件上的函数将会被执行。这一机制使得网页具备了动态交互的能力,例如通过监听点击事件来响应按钮点击,或通过监听窗口加载事件来初始化页面内容。 自定义属性(data-属性) , HTML5引入了一种自定义属性的标准方法,即以\ data-\ 开头的属性。这些自定义属性可以用来存储额外的数据信息,而不会影响到HTML标签的语义或默认行为。通过JavaScript,可以使用dataset属性便捷地获取和设置这些数据属性值,增强了HTML元素的数据承载能力,同时也便于脚本进行数据驱动的动态渲染和交互逻辑处理。
2023-08-04 13:36:05
247
转载
Superset
...lchemy,这可是Python世界里鼎鼎大名的关系型数据库操作工具,大家都抢着用。而URI呢,你可以理解为一个超级实用的“地址条”,它用一种统一格式的字符串,帮我们精准定位并解锁访问数据库资源的各种路径和方式,是不是很给力?在Superset中,我们通过配置SQLAlchemy URI来建立与各种数据库(如MySQL、PostgreSQL、Oracle等)的连接。 例如,一个基本的PostgreSQL的SQLAlchemy URI可能看起来像这样: python postgresql://username:password@host:port/database 这里的各个部分分别代表数据库用户名、密码、主机地址、端口号和数据库名。 2. Superset中的SQLAlchemy URI设置 在Superset中,我们可以在“Sources” -> “Databases”页面添加或编辑数据源时,自定义SQLAlchemy URI。下面让我们一步步揭开这个过程: 2.1 添加新的数据库连接 (1) 登录到您的Superset后台管理界面,点击左侧菜单栏的"Sources",然后选择"Databases"。 (2) 点击右上角的"+"按钮,开始创建一个新的数据库连接。 (3) 在弹出的表单中,选择适合您的数据库引擎类型,如"PostgreSQL",并在"Database Connection URL"字段中填写您的自定义SQLAlchemy URI。 2.2 示例代码 假设我们要连接到一台本地运行的PostgreSQL数据库,用户名为superset_user,密码为secure_password,端口为5432,数据库名为superset_db,则对应的SQLAlchemy URI如下: python postgresql://superset_user:secure_password@localhost:5432/superset_db 填入上述信息后,点击"Save"保存设置,Superset便会使用该URI与指定的数据库建立连接。 2.3 进阶应用 对于一些需要额外参数的数据库(比如SSL加密连接、指定编码格式等),可以在URI中进一步扩展: python postgresql://superset_user:secure_password@localhost:5432/superset_db?sslmode=require&charset=utf8 这里,sslmode=require指定了启用SSL加密连接,charset=utf8则设置了字符集。 3. 思考与探讨 在实际应用场景中,灵活运用SQLAlchemy URI的自定义能力,可以极大地增强Superset的数据源兼容性与安全性。甭管是云端飘着的RDS服务,还是公司里头自个儿搭建的各种数据库系统,只要你摸准了那个URI构造的门道,咱们就能轻轻松松把它们拽进Superset这个大舞台,然后麻溜儿地对数据进行深度分析,再活灵活现地展示出来,那感觉倍儿爽! 在面对复杂的数据库连接问题时,别忘了查阅SQLAlchemy官方文档以获取更多关于URI配置的细节和选项,同时结合Superset的强大功能,定能让您的数据驱动决策之路更加顺畅! 总的来说,掌握并熟练运用自定义SQLAlchemy URI的技巧,就像是赋予了Superset一把打开任意数据宝库的钥匙,无论数据藏于何处,都能随心所欲地进行探索挖掘。这就是Superset的魅力所在,也是我们在数据科学道路上不断求索的动力源泉!
2024-03-19 10:43:57
52
红尘漫步
HTML
...网站的不同区域,提升使用者感受。在超文本标记语言中实现下拉列表栏非常简易,只需少量的层叠样式表和JS编码即可达成。以下是一个简易的例子: 超文本标记语言编码: <div class="dropdown"><button class="dropbtn">下拉列表</button><div class="dropdown-content"><a href="">超链接 1</a><a href="">超链接 2</a><a href="">超链接 3</a></div></div> 层叠样式表编码: .dropdown { position: relative; display: inline-block; } .dropdown-content { display: none; position: absolute; z-index: 1; } .dropdown:hover .dropdown-content { display: block; } JS编码: // 点击其他地方关闭下拉列表 window.onclick = function(event) { if (!event.target.matches('.dropbtn')) { var dropdowns = document.getElementsByClassName("dropdown-content"); for (var i = 0; i< dropdowns.length; i++) { var openDropdown = dropdowns[i]; if (openDropdown.style.display === 'block') { openDropdown.style.display = 'none'; } } } } 我们首先声明一个dropdown类的div组件,它包括一个按键以及一个下拉列表。在层叠样式表中,我们将下拉列表的display特性设定为none,表示一开始隐藏。当鼠标悬浮在按键上时,我们启动下拉列表的展现,将其display特性设定为block。在JS中,我们声明了一个点击事件监听器,当用户点击页面其他区域时,关闭所有的下拉列表。 这是一个简易的下拉列表栏例子,你可以根据自己的需求进行修改和扩展。
2023-06-06 16:16:22
555
逻辑鬼才
Python
一、引言 作为Python程序员,我们经常需要绘制各种各样的图表来展示数据或者结果。而在众多的Python绘图库中,Matplotlib无疑是最受欢迎的一个。不过,如果我们只是想画些超级基础的、简单的点状图,那Matplotlib可能就显得有点大材小用了,让人感觉像是拿机关枪打蚊子,忒复杂了。那么,Python这个小家伙有没有什么趁手的工具能帮我们捣鼓出点绘图呢?这篇文章我要给大家伙儿推荐一款贼好用、超级赞的Python绘图神器——plotly,保管你用了就爱上它! 二、plotly的基本使用 Plotly是一个交互式的Python绘图库,可以用来创建各种各样的图表,包括散点图、折线图、柱状图等等。Plotly的优势在于它的可视化效果非常好,而且可以制作出很复杂的交互式图表。下面我们就来看一下如何使用plotly来绘制点绘图。 1. 安装plotly 首先,我们需要安装plotly。可以通过pip install plotly来安装。 sql pip install plotly 2. 导入plotly 安装好plotly后,我们就可以开始使用它了。导入plotly的方法很简单,只需要一行代码就可以了。 java import plotly.graph_objs as go 3. 创建数据 接下来,我们需要创建一些数据。这里我们将创建一个包含x坐标和y坐标的列表。 scss x = [1, 2, 3, 4, 5] y = [1, 4, 9, 16, 25] 4. 绘制点绘图 有了数据之后,我们就可以开始绘制点绘图了。绘制点绘图的代码如下所示: go trace = go.Scatter( x=x, y=y, mode='markers', marker=dict(size=12) ) data = [trace] layout = dict(title='Point Plot with plotly', xaxis=dict(title='x'), yaxis=dict(title='y')) fig = go.Figure(data=data, layout=layout) py.offline.iplot(fig, filename='scatter_hover_labels') 以上代码将会创建一个包含五个点的点绘图。在这幅点状图表里,你会发现每一个点都有一个独一无二的“身份证”,更有意思的是,只要你把鼠标轻轻挪到这个点上“搭个桥”,它就会主动告诉你这个点所代表的具体数值。 三、plotly的优点 通过上述的代码示例,相信大家都已经了解了plotly的基本使用方法。那么,plotly有哪些优点呢? 1. 可视化效果好 plotly的可视化效果非常好,无论是线条还是颜色都非常清晰明了。 2. 支持交互式操作 plotly可以制作出很多交互式的图表,用户可以通过鼠标悬停、点击等操作来获取更多的信息。 3. 功能强大 plotly的功能非常强大,不仅可以绘制基本的点绘图,还可以绘制折线图、柱状图、热力图等各种各样的图表。 四、总结 总的来说,如果你需要绘制一些非常基础的点绘图,那么plotly无疑是一个非常好的选择。它的可视化效果好,支持交互式操作,而且功能也非常强大。因此,强烈推荐大家使用plotly来绘制点绘图。当然啦,除了plotly这位大神,Python的世界里还有不少其他的可视化神器,比如说Matplotlib、seaborn这些好哥们儿,都是绘图时的得力助手。不过,每个人的需求不同,所选择的绘图工具也会有所不同。因此,希望大家可以根据自己的需求来选择最适合自己的绘图工具。
2023-07-14 11:34:15
119
落叶归根_t
CSS
...点样式是指当用户通过鼠标点击、触摸或者使用键盘Tab键将焦点定位在HTML元素(如input框)上时,该元素呈现的特殊视觉样式。在本文中,主要探讨了如何利用CSS自定义input元素获取焦点时的样式,包括但不限于边框颜色、宽度、样式等。 outline属性 , outline是CSS中的一个样式属性,用于为元素设置轮廓线。不同于border属性会增加元素的实际尺寸和影响布局,outline不会改变元素的大小和布局,它仅仅是在元素外部创建一条额外的装饰线,常用于表示当前活动或聚焦状态的元素。 transition属性 , transition属性在CSS3中被引入,允许开发者定义一个或多个CSS属性值在一定时间段内的平滑过渡效果。例如,在文章中提到,可以使用transition属性来实现input元素获取焦点时outline颜色的渐变变化,从而增强界面的动态交互体验。 :focus-within伪类 , :focus-within是CSS伪类选择器,表示如果元素内部包含任何具有焦点的元素(例如input获得焦点),则匹配此伪类的选择器将应用于该父元素。文中举例说明了如何结合:focus-within伪类,在input元素获取焦点时改变其父容器的样式,以提供更明显的视觉反馈。
2023-04-08 21:55:58
465
青山绿水
Apache Solr
...松就把地理搜索功能给实现了。这样一来,开发者们就能随心所欲地定制出专属于自己的地理位置索引和检索服务,就像给自己家的地图装上了精准定位器一样方便。本篇文章将带你深入了解Solr如何在地理空间上施展它的魔力。 2. Apache Solr基础 Solr的核心在于它的强大查询解析能力,特别是利用Lucene的底层技术。它是一个基于Java的框架,允许我们扩展和优化搜索性能。首先,让我们看看如何在Solr中设置一个基本的地理搜索环境: java // 创建一个SolrServer实例 SolrServer server = new HttpSolrServer("http://localhost:8983/solr/mycore"); // 定义一个包含地理位置字段的Document对象 Document doc = new Document(); doc.addField("location", "40.7128,-74.0060"); // 纽约市坐标 3. 地理坐标编码 地理搜索的关键在于正确地编码和存储经纬度。Solr这家伙可灵活了,它能支持好几种地理编码格式,比如那个GeoJSON啦,还有WKT(别名Well-Known Text),这些它都玩得转。例如,我们可以使用Solr Spatial Component(SPT)来处理这些数据: java // 在schema.xml中添加地理位置字段 // 在添加文档时,使用GeoTools或类似库进行坐标编码 Coordinate coord = new Coordinate(40.7128, -74.0060); Point point = new Point(coord); String encodedLocation = SpatialUtil.encodePoint(point, "4326"); // WGS84坐标系 doc.addField("location", encodedLocation); 4. 地理范围查询(BoundingBox) Solr的Spatial Query模块允许我们执行基于地理位置的范围查询。例如,查找所有在纽约市方圆10公里内的文档: java // 构造一个查询参数 SolrQuery query = new SolrQuery(":"); query.setParam("fl", ",_geo_distance"); // 返回地理位置距离信息 query.setParam("q", "geodist(location,40.7128,-74.0060,10km)"); server.query(query); 5. 地理聚合(Geohash或Quadtree) Solr还支持地理空间聚合,如将文档分组到特定的地理区域(如GeoHash或Quadtree)。这有助于区域划分和统计分析: java // 使用Geohash进行区域划分 query.setParam("geohash", "radius(40.7128,-74.0060,10km)"); List geohashes = server.query(query).get("geohash"); 6. 神经网络搜索与地理距离排序 Solr 8.x及以上版本引入了神经网络搜索功能,允许使用深度学习模型优化地理位置相关查询。虽然具体实现依赖于Sease项目,但大致思路是将用户输入转换为潜在的地理坐标,然后进行精确匹配: java // 假设有一个预训练模型 NeuralSearchService neuralService = ...; double[] neuralCoordinates = neuralService.transform("New York City"); query.setParam("nn", "location:" + Arrays.toString(neuralCoordinates)); 7. 结论与展望 Apache Solr的地理搜索功能使得地理位置信息的索引和检索变得易如反掌。开发者们可以灵活运用各种Solr组件和拓展功能,像搭积木一样拼接出适应于五花八门场景的智能搜索引擎,让搜索变得更聪明、更给力。不过呢,随着科技的不断进步,Solr这个家伙肯定还会持续进化升级,没准儿哪天它就给我们带来更牛掰的功能,比如实时地理定位分析啊、预测功能啥的。这可绝对能让我们的搜索体验蹭蹭往上涨,变得越来越溜! 记住,Solr的强大之处在于它的可扩展性和社区支持,因此在实际应用中,持续学习和探索新特性是保持竞争力的关键。现在,你已经掌握了Solr地理搜索的基本原理,剩下的就是去实践中发现更多的可能性吧!
2024-03-06 11:31:08
405
红尘漫步-t
转载文章
...款模拟人工操作键盘和鼠标的自动化软件工具,通过录制用户的鼠标点击、键盘输入等操作,形成脚本后可以进行回放,实现批量重复执行相同操作的功能。在本文中,作者使用按键精灵作为半自动化下载专利全文PDF的辅助工具,通过记录搜索、复制公开号、粘贴至搜索框、点击搜索及下载PDF等步骤,形成脚本自动执行,从而批量下载多个专利全文。 Google Patent , Google Patent是谷歌推出的一款专门针对全球专利信息检索的服务平台。用户可以通过该平台搜索到各国专利局公开的专利文献,包括专利标题、摘要、说明书以及专利权人等详细信息,并提供部分专利的全文PDF文件供用户免费下载。文中提到,Google Patent是目前唯一一个在无需验证码情况下支持全文PDF下载的专利搜索引擎,因此被作者选作自动化下载专利全文的重要途径。 自动化脚本 , 自动化脚本是一种计算机程序或命令序列,旨在通过预先编写好的代码指令代替人工完成一系列重复性工作。在本文语境下,作者设计并实现了用于批量下载专利全文的自动化脚本,结合按键精灵工具模拟人类操作行为,通过读取文本编辑器中的公开号,依次搜索并下载对应的专利全文PDF。同时,还提供了检查下载效果的Python小脚本,用于对比待下载清单与实际已下载文件的公开号,确保所有需要的专利都已成功下载。
2023-11-21 12:55:28
274
转载
转载文章
...在编程环境中,特别是Python使用win32api模块进行键盘和鼠标操作模拟时,VK_CODE是一个字典结构,将字符或特殊键与对应的虚拟键码关联起来。例如,在文中提到的VK_CODE A 等于0x41,表示字母\ A\ 在系统内部被识别为0x41这个特定数值,程序通过调用keybd_event函数并传入对应虚拟键码来模拟按下或释放该键。 win32api模块 , win32api是Python的一个库,提供了对Windows API(应用程序接口)的访问功能。它允许Python程序员以编程方式执行许多Windows操作系统的底层任务,如模拟用户输入、控制窗口、处理文件和目录等。在本文中,作者利用win32api模块中的mouse_event和keybd_event函数实现了对鼠标点击、移动以及键盘按键的模拟操作,这对于自动化测试、脚本编写以及需要自动交互的应用场景尤为实用。 用户界面自动化(UI Automation) , 用户界面自动化是一种软件测试方法和技术,旨在通过编写脚本或程序代替人工操作,实现对应用程序用户界面的各种元素(如按钮、文本框、菜单等)进行自动化的点击、输入、验证等交互行为。在本文中,作者通过Python win32api模块模拟键盘和鼠标事件,从而实现在Windows环境下对用户界面的自动化控制,这是用户界面自动化的一种具体实践形式,常用于提高测试效率、减少重复工作并确保软件功能稳定可靠。
2023-06-07 19:00:58
54
转载
转载文章
...中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持四种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。目前paddle模式支持jieba v0.40及以上版本。jieba v0.40以下版本,请升级jieba,pip install jieba --upgrade 。PaddlePaddle官网 支持繁体分词 支持自定义词典 MIT 授权协议 安装说明 代码对 Python 2/3 均兼容 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录 通过 import jieba 来引用 如果需要使用paddle模式下的分词和词性标注功能,请先安装paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。 算法 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 主要功能 分词 jieba.cut 方法接受四个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型;use_paddle 参数用来控制是否使用paddle模式下的分词模式,paddle模式采用延迟加载方式,通过enable_paddle接口安装paddlepaddle-tiny,并且import相关代码; jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。 代码示例 encoding=utf-8import jiebajieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持,早期版本不支持strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]for str in strs:seg_list = jieba.cut(str,use_paddle=True) 使用paddle模式print("Paddle Mode: " + '/'.join(list(seg_list)))seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 精确模式seg_list = jieba.cut("他来到了网易杭研大厦") 默认是精确模式print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) 输出: 【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学【精确模式】: 我/ 来到/ 北京/ 清华大学【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 添加自定义词典 载入词典 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdict(file_name) file_name 为文件类对象或自定义词典的路径 词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。 词频省略时使用自动计算的能保证分出该词的词频。 例如: 创新办 3 i云计算 5凱特琳 nz台中 更改分词器(默认为 jieba.dt)的 tmp_dir 和 cache_file 属性,可分别指定缓存文件所在的文件夹及其文件名,用于受限的文件系统。 范例: 自定义词典:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py 之前: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 / 加载自定义词库后: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / 调整词典 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。 注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。 代码示例: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 “通过用户自定义词典来增强歧义纠错能力” — https://github.com/fxsjy/jieba/issues/14 关键词提取 基于 TF-IDF 算法的关键词抽取 import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选 jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件 代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py 关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_idf_path(file_name) file_name为自定义语料库的路径 自定义语料库示例:https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py 关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径 用法: jieba.analyse.set_stop_words(file_name) file_name为自定义语料库的路径 自定义语料库示例:https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py 关键词一并返回关键词权重值示例 用法示例:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py 基于 TextRank 算法的关键词抽取 jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’)) 直接使用,接口相同,注意默认过滤词性。 jieba.analyse.TextRank() 新建自定义 TextRank 实例 算法论文: TextRank: Bringing Order into Texts 基本思想: 将待抽取关键词的文本进行分词 以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 计算图中节点的PageRank,注意是无向带权图 使用示例: 见 test/demo.py 词性标注 jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。jieba.posseg.dt 为默认词性标注分词器。 标注句子分词后每个词的词性,采用和 ictclas 兼容的标记法。 除了jieba默认分词模式,提供paddle模式下的词性标注功能。paddle模式采用延迟加载方式,通过enable_paddle()安装paddlepaddle-tiny,并且import相关代码; 用法示例 >>> import jieba>>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门") jieba默认模式>>> jieba.enable_paddle() 启动paddle模式。 0.40版之后开始支持,早期版本不支持>>> words = pseg.cut("我爱北京天安门",use_paddle=True) paddle模式>>> for word, flag in words:... print('%s %s' % (word, flag))...我 r爱 v北京 ns天安门 ns paddle模式词性标注对应表如下: paddle模式词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。 标签 含义 标签 含义 标签 含义 标签 含义 n 普通名词 f 方位名词 s 处所名词 t 时间 nr 人名 ns 地名 nt 机构名 nw 作品名 nz 其他专名 v 普通动词 vd 动副词 vn 名动词 a 形容词 ad 副形词 an 名形词 d 副词 m 数量词 q 量词 r 代词 p 介词 c 连词 u 助词 xc 其他虚词 w 标点符号 PER 人名 LOC 地名 ORG 机构名 TIME 时间 并行分词 原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升 基于 python 自带的 multiprocessing 模块,目前暂不支持 Windows 用法: jieba.enable_parallel(4) 开启并行分词模式,参数为并行进程数 jieba.disable_parallel() 关闭并行分词模式 例子:https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py 实验结果:在 4 核 3.4GHz Linux 机器上,对金庸全集进行精确分词,获得了 1MB/s 的速度,是单进程版的 3.3 倍。 注意:并行分词仅支持默认分词器 jieba.dt 和 jieba.posseg.dt。 Tokenize:返回词语在原文的起止位置 注意,输入参数只接受 unicode 默认模式 result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 搜索模式 result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh 搜索引擎 引用: from jieba.analyse import ChineseAnalyzer 用法示例:https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py 命令行分词 使用示例:python -m jieba news.txt > cut_result.txt 命令行选项(翻译): 使用: python -m jieba [options] filename结巴命令行界面。固定参数:filename 输入文件可选参数:-h, --help 显示此帮助信息并退出-d [DELIM], --delimiter [DELIM]使用 DELIM 分隔词语,而不是用默认的' / '。若不指定 DELIM,则使用一个空格分隔。-p [DELIM], --pos [DELIM]启用词性标注;如果指定 DELIM,词语和词性之间用它分隔,否则用 _ 分隔-D DICT, --dict DICT 使用 DICT 代替默认词典-u USER_DICT, --user-dict USER_DICT使用 USER_DICT 作为附加词典,与默认词典或自定义词典配合使用-a, --cut-all 全模式分词(不支持词性标注)-n, --no-hmm 不使用隐含马尔可夫模型-q, --quiet 不输出载入信息到 STDERR-V, --version 显示版本信息并退出如果没有指定文件名,则使用标准输入。 --help 选项输出: $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. 延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer() 不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。如果你想手工初始 jieba,也可以手动初始化。 import jiebajieba.initialize() 手动初始化(可选) 在 0.28 之前的版本是不能指定主词典的路径的,有了延迟加载机制后,你可以改变主词典的路径: jieba.set_dictionary('data/dict.txt.big') 例子: https://github.com/fxsjy/jieba/blob/master/test/test_change_dictpath.py 其他词典 占用内存较小的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small 支持繁体分词更好的词典文件 https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big 下载你所需要的词典,然后覆盖 jieba/dict.txt 即可;或者用 jieba.set_dictionary('data/dict.txt.big') 其他语言实现 结巴分词 Java 版本 作者:piaolingxue 地址:https://github.com/huaban/jieba-analysis 结巴分词 C++ 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/cppjieba 结巴分词 Rust 版本 作者:messense, MnO2 地址:https://github.com/messense/jieba-rs 结巴分词 Node.js 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/nodejieba 结巴分词 Erlang 版本 作者:falood 地址:https://github.com/falood/exjieba 结巴分词 R 版本 作者:qinwf 地址:https://github.com/qinwf/jiebaR 结巴分词 iOS 版本 作者:yanyiwu 地址:https://github.com/yanyiwu/iosjieba 结巴分词 PHP 版本 作者:fukuball 地址:https://github.com/fukuball/jieba-php 结巴分词 .NET(C) 版本 作者:anderscui 地址:https://github.com/anderscui/jieba.NET/ 结巴分词 Go 版本 作者: wangbin 地址: https://github.com/wangbin/jiebago 作者: yanyiwu 地址: https://github.com/yanyiwu/gojieba 结巴分词Android版本 作者 Dongliang.W 地址:https://github.com/452896915/jieba-android 友情链接 https://github.com/baidu/lac 百度中文词法分析(分词+词性+专名)系统 https://github.com/baidu/AnyQ 百度FAQ自动问答系统 https://github.com/baidu/Senta 百度情感识别系统 系统集成 Solr: https://github.com/sing1ee/jieba-solr 分词速度 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode 测试环境: Intel® Core™ i7-2600 CPU @ 3.4GHz;《围城》.txt 常见问题 1. 模型的数据是如何生成的? 详见: https://github.com/fxsjy/jieba/issues/7 2. “台中”总是被切成“台 中”?(以及类似情况) P(台中) < P(台)×P(中),“台中”词频不够导致其成词概率较低 解决方法:强制调高词频 jieba.add_word('台中') 或者 jieba.suggest_freq('台中', True) 3. “今天天气 不错”应该被切成“今天 天气 不错”?(以及类似情况) 解决方法:强制调低词频 jieba.suggest_freq(('今天', '天气'), True) 或者直接删除该词 jieba.del_word('今天天气') 4. 切出了词典中没有的词语,效果不理想? 解决方法:关闭新词发现 jieba.cut('丰田太省了', HMM=False) jieba.cut('我们中出了一个叛徒', HMM=False) 更多问题请点击:https://github.com/fxsjy/jieba/issues?sort=updated&state=closed 修订历史 https://github.com/fxsjy/jieba/blob/master/Changelog jieba “Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module. Features Support three types of segmentation mode: Accurate Mode attempts to cut the sentence into the most accurate segmentations, which is suitable for text analysis. Full Mode gets all the possible words from the sentence. Fast but not accurate. Search Engine Mode, based on the Accurate Mode, attempts to cut long words into several short words, which can raise the recall rate. Suitable for search engines. Supports Traditional Chinese Supports customized dictionaries MIT License Online demo http://jiebademo.ap01.aws.af.cm/ (Powered by Appfog) Usage Fully automatic installation: easy_install jieba or pip install jieba Semi-automatic installation: Download http://pypi.python.org/pypi/jieba/ , run python setup.py install after extracting. Manual installation: place the jieba directory in the current directory or python site-packages directory. import jieba. Algorithm Based on a prefix dictionary structure to achieve efficient word graph scanning. Build a directed acyclic graph (DAG) for all possible word combinations. Use dynamic programming to find the most probable combination based on the word frequency. For unknown words, a HMM-based model is used with the Viterbi algorithm. Main Functions Cut The jieba.cut function accepts three input parameters: the first parameter is the string to be cut; the second parameter is cut_all, controlling the cut mode; the third parameter is to control whether to use the Hidden Markov Model. jieba.cut_for_search accepts two parameter: the string to be cut; whether to use the Hidden Markov Model. This will cut the sentence into short words suitable for search engines. The input string can be an unicode/str object, or a str/bytes object which is encoded in UTF-8 or GBK. Note that using GBK encoding is not recommended because it may be unexpectly decoded as UTF-8. jieba.cut and jieba.cut_for_search returns an generator, from which you can use a for loop to get the segmentation result (in unicode). jieba.lcut and jieba.lcut_for_search returns a list. jieba.Tokenizer(dictionary=DEFAULT_DICT) creates a new customized Tokenizer, which enables you to use different dictionaries at the same time. jieba.dt is the default Tokenizer, to which almost all global functions are mapped. Code example: segmentation encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "/ ".join(seg_list)) 默认模式seg_list = jieba.cut("他来到了网易杭研大厦")print(", ".join(seg_list))seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") 搜索引擎模式print(", ".join(seg_list)) Output: [Full Mode]: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学[Accurate Mode]: 我/ 来到/ 北京/ 清华大学[Unknown Words Recognize] 他, 来到, 了, 网易, 杭研, 大厦 (In this case, "杭研" is not in the dictionary, but is identified by the Viterbi algorithm)[Search Engine Mode]: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造 Add a custom dictionary Load dictionary Developers can specify their own custom dictionary to be included in the jieba default dictionary. Jieba is able to identify new words, but you can add your own new words can ensure a higher accuracy. Usage: jieba.load_userdict(file_name) file_name is a file-like object or the path of the custom dictionary The dictionary format is the same as that of dict.txt: one word per line; each line is divided into three parts separated by a space: word, word frequency, POS tag. If file_name is a path or a file opened in binary mode, the dictionary must be UTF-8 encoded. The word frequency and POS tag can be omitted respectively. The word frequency will be filled with a suitable value if omitted. For example: 创新办 3 i云计算 5凱特琳 nz台中 Change a Tokenizer’s tmp_dir and cache_file to specify the path of the cache file, for using on a restricted file system. Example: 云计算 5李小福 2创新办 3[Before]: 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /[After]: 李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 / Modify dictionary Use add_word(word, freq=None, tag=None) and del_word(word) to modify the dictionary dynamically in programs. Use suggest_freq(segment, tune=True) to adjust the frequency of a single word so that it can (or cannot) be segmented. Note that HMM may affect the final result. Example: >>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中将/出错/。>>> jieba.suggest_freq(('中', '将'), True)494>>> print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))如果/放到/post/中/将/出错/。>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台/中/」/正确/应该/不会/被/切开>>> jieba.suggest_freq('台中', True)69>>> print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))「/台中/」/正确/应该/不会/被/切开 Keyword Extraction import jieba.analyse jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) sentence: the text to be extracted topK: return how many keywords with the highest TF/IDF weights. The default value is 20 withWeight: whether return TF/IDF weights with the keywords. The default value is False allowPOS: filter words with which POSs are included. Empty for no filtering. jieba.analyse.TFIDF(idf_path=None) creates a new TFIDF instance, idf_path specifies IDF file path. Example (keyword extraction) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py Developers can specify their own custom IDF corpus in jieba keyword extraction Usage: jieba.analyse.set_idf_path(file_name) file_name is the path for the custom corpus Custom Corpus Sample:https://github.com/fxsjy/jieba/blob/master/extra_dict/idf.txt.big Sample Code:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_idfpath.py Developers can specify their own custom stop words corpus in jieba keyword extraction Usage: jieba.analyse.set_stop_words(file_name) file_name is the path for the custom corpus Custom Corpus Sample:https://github.com/fxsjy/jieba/blob/master/extra_dict/stop_words.txt Sample Code:https://github.com/fxsjy/jieba/blob/master/test/extract_tags_stop_words.py There’s also a TextRank implementation available. Use: jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) Note that it filters POS by default. jieba.analyse.TextRank() creates a new TextRank instance. Part of Speech Tagging jieba.posseg.POSTokenizer(tokenizer=None) creates a new customized Tokenizer. tokenizer specifies the jieba.Tokenizer to internally use. jieba.posseg.dt is the default POSTokenizer. Tags the POS of each word after segmentation, using labels compatible with ictclas. Example: >>> import jieba.posseg as pseg>>> words = pseg.cut("我爱北京天安门")>>> for w in words:... print('%s %s' % (w.word, w.flag))...我 r爱 v北京 ns天安门 ns Parallel Processing Principle: Split target text by line, assign the lines into multiple Python processes, and then merge the results, which is considerably faster. Based on the multiprocessing module of Python. Usage: jieba.enable_parallel(4) Enable parallel processing. The parameter is the number of processes. jieba.disable_parallel() Disable parallel processing. Example: https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py Result: On a four-core 3.4GHz Linux machine, do accurate word segmentation on Complete Works of Jin Yong, and the speed reaches 1MB/s, which is 3.3 times faster than the single-process version. Note that parallel processing supports only default tokenizers, jieba.dt and jieba.posseg.dt. Tokenize: return words with position The input must be unicode Default mode result = jieba.tokenize(u'永和服装饰品有限公司')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限公司 start: 6 end:10 Search mode result = jieba.tokenize(u'永和服装饰品有限公司',mode='search')for tk in result:print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])) word 永和 start: 0 end:2word 服装 start: 2 end:4word 饰品 start: 4 end:6word 有限 start: 6 end:8word 公司 start: 8 end:10word 有限公司 start: 6 end:10 ChineseAnalyzer for Whoosh from jieba.analyse import ChineseAnalyzer Example: https://github.com/fxsjy/jieba/blob/master/test/test_whoosh.py Command Line Interface $> python -m jieba --helpJieba command line interface.positional arguments:filename input fileoptional arguments:-h, --help show this help message and exit-d [DELIM], --delimiter [DELIM]use DELIM instead of ' / ' for word delimiter; or aspace if it is used without DELIM-p [DELIM], --pos [DELIM]enable POS tagging; if DELIM is specified, use DELIMinstead of '_' for POS delimiter-D DICT, --dict DICT use DICT as dictionary-u USER_DICT, --user-dict USER_DICTuse USER_DICT together with the default dictionary orDICT (if specified)-a, --cut-all full pattern cutting (ignored with POS tagging)-n, --no-hmm don't use the Hidden Markov Model-q, --quiet don't print loading messages to stderr-V, --version show program's version number and exitIf no filename specified, use STDIN instead. Initialization By default, Jieba don’t build the prefix dictionary unless it’s necessary. This takes 1-3 seconds, after which it is not initialized again. If you want to initialize Jieba manually, you can call: import jiebajieba.initialize() (optional) You can also specify the dictionary (not supported before version 0.28) : jieba.set_dictionary('data/dict.txt.big') Using Other Dictionaries It is possible to use your own dictionary with Jieba, and there are also two dictionaries ready for download: A smaller dictionary for a smaller memory footprint: https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.small There is also a bigger dictionary that has better support for traditional Chinese (繁體): https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big By default, an in-between dictionary is used, called dict.txt and included in the distribution. In either case, download the file you want, and then call jieba.set_dictionary('data/dict.txt.big') or just replace the existing dict.txt. Segmentation speed 1.5 MB / Second in Full Mode 400 KB / Second in Default Mode Test Env: Intel® Core™ i7-2600 CPU @ 3.4GHz;《围城》.txt 本篇文章为转载内容。原文链接:https://blog.csdn.net/yegeli/article/details/107246661。 该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。 作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。 如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。
2023-12-02 10:38:37
500
转载
JQuery插件下载
...章节内容的精确绑定,实现对滚动行为的智能化控制。在使用该插件后,网站可以自动生成一个导航视图,用户点击不同章节时,页面会平滑地滚动到对应位置,确保用户能快速定位并阅读所需内容。与此同时,Viewport.js具有实时滚动状态检测功能,这意味着当用户滚动浏览页面时,不仅能够流畅切换阅读进度,而且导航视图也会动态更新,直观反映当前所在章节及其状态。这一特性有助于提高用户对长篇文章或复杂布局网站的理解和交互性,使得信息架构更为清晰,显著提升整体浏览体验。通过这种精准的滚动控制技术,Viewport.js成功地将网站内容分段管理和展示提升到了一个新的层次。 点我下载 文件大小:99.28 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-05-07 14:46:12
71
本站
JQuery插件下载
...rialDesign鼠标点击波特效jQuery插件“rippleria.js”是一款专为实现GoogleMaterialDesign视觉语言中标志性点击反馈效果而设计的高性能插件。这款插件利用了CSS3animation的强大功能,创造出流畅且引人注目的点击波纹效果,不仅增强了用户体验,还为网页元素(如按钮、图片等)带来了生动活泼的互动特性。开发者无需深入掌握复杂的动画制作技术,通过简单的jQuery调用和配置,即可将点击波特效轻松应用于各种项目场景中。该插件的一大亮点在于它的灵活性与自定义性,用户可以根据需求调整点击波的颜色、大小以及扩散速度等参数,确保点击反馈效果能够与整体界面风格完美融合,从而提升网站或应用的整体质感与用户体验。 点我下载 文件大小:133.39 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-08-20 16:39:23
368
本站
JQuery插件下载
...)的强大动画引擎,以实现流畅且引人入胜的全屏背景图片幻灯片效果。该插件的核心特性是其响应式布局,能够根据浏览器窗口尺寸的变化自动调整幻灯片内容,确保在任何设备上都能完美呈现。Wavescroll幻灯片不仅支持传统的导航方式,如鼠标点击或键盘操作,还特别引入了波浪滚动切换效果,用户可以通过鼠标拖拽、滚轮滚动,甚至是移动设备上的触摸滑动来实现图片之间的无缝过渡,这种动态交互方式大大提升了用户的浏览体验和视觉享受。总而言之,Wavescroll是一个专注于提供高质量、互动性全屏背景幻灯片解决方案的jQuery插件,无论是用于展示产品、讲述故事还是美化网站界面,都能以其独特且炫酷的波浪滚动切换特效脱颖而出,成为网页设计中的一大亮点。 点我下载 文件大小:691.67 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-07-30 20:44:27
81
本站
JQuery插件下载
...前一亮的是,当用户用鼠标点击这些飘落中的树叶时,将会触发一系列意想不到的交互效果,让浏览体验变得更加生动有趣。无论是用于节日庆典、特殊活动页面,还是仅仅为了给普通网站增添一抹灵动色彩,这款插件都能完美胜任。它不仅提升了网页的视觉吸引力,还增加了用户的参与感与互动乐趣,使得每一次访问都成为一次独特的探索之旅。通过这款插件,你可以轻松实现动画和飘落效果的融合,使你的网站或网页内容焕发新生,吸引更多访客的目光。 点我下载 文件大小:147.54 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-11-11 11:00:58
45
本站
JQuery插件下载
...easing),从而实现平滑且丰富的视觉体验。此外,插件还支持自定义触发翻转的事件,这意味着立方体的旋转可以通过鼠标点击、页面滚动或其他用户交互行为来启动。该插件兼容现代浏览器,不依赖于老旧的IE浏览器,确保了在跨平台和设备上的一致性和高性能表现。无论是用于产品展示、内容切换还是提升网站整体互动性,jQuery3D立方体翻转插件都能成为网页设计与开发中的一个亮点元素,有效增强用户的浏览体验。 点我下载 文件大小:45.52 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-02-28 18:02:50
99
本站
JQuery插件下载
...插件到他们的项目中,实现内容的动态轮播。无论是图像、文本、视频还是复杂的自定义组件,都可以作为幻灯片的内容元素,增强用户体验和视觉吸引力。此外,插件还提供了前后控制按钮以及鼠标点击放大等实用功能,进一步提升了用户与页面内容的互动性。总之,jquery-slidertv是适用于各类网站和Web应用的一款高效、灵活的幻灯片解决方案,可帮助开发者快速构建出媲美智能电视应用般专业而引人注目的滑动展示效果。 点我下载 文件大小:759.63 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2023-09-12 11:37:48
33
本站
JQuery插件下载
...式设计能力,无论用户使用手机、平板还是台式机浏览,都能获得流畅的体验。在移动设备上,用户可以轻松通过滑动屏幕来切换幻灯片;而在桌面端,则可以通过鼠标点击或拖动实现同样的操作。此外,swipeslider还支持无限循环播放功能,确保你的观众始终沉浸在连续不断的精彩内容之中。无论是构建个人博客、企业官网还是电子商务平台,swipeslider都是提升页面吸引力的理想选择。其简洁的代码结构使得集成过程变得异常简单,即使是没有深厚编程背景的用户也能快速上手。总之,swipeslider凭借其强大的功能、易用性和优秀的跨平台适应性,成为了一款不可多得的网页设计工具。 点我下载 文件大小:408.76 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2025-02-15 21:17:18
89
本站
JQuery插件下载
...vaScript炫酷鼠标滑过图片放大镜特效插件是一款旨在提升用户体验的轻量级JavaScript工具。它专为那些希望在网页上实现动态、美观且交互性极强的图片放大功能而设计。此插件提供了两种展现模式:一种是鼠标点击触发放大效果,另一种则是鼠标滑过时自动展现放大镜,两种模式均可独立使用或结合使用,以适应不同的设计需求和场景。插件的核心功能在于通过纯JavaScript代码实现,这意味着它不需要额外的依赖或库,使得集成过程更为简单高效。其简洁的设计确保了良好的性能表现,即使在资源受限的环境中也能流畅运行,从而保证用户获得一致的体验。在外观和互动性方面,该插件能够自定义放大镜的样式和动画效果,允许开发者根据自己的设计风格进行调整,创造出独一无二的视觉效果。无论是用于展示产品细节、提供图像注释还是增加用户互动性,此插件都能有效提升网站的吸引力和功能性。此外,该插件支持响应式设计,能够适应不同设备和屏幕尺寸,确保跨平台的一致性。通过集成此插件,开发者可以轻松地在网页上添加引人注目的图片放大功能,从而增强用户对内容的探索和理解,提高整体的网站体验。总之,纯JavaScript炫酷鼠标滑过图片放大镜特效插件是一个强大且灵活的工具,为网页设计师和开发者提供了实现高级视觉效果的手段,助力打造更加吸引人的在线体验。 点我下载 文件大小:570.59 KB 您将下载一个JQuery插件资源包,该资源包内部文件的目录结构如下: 本网站提供JQuery插件下载功能,旨在帮助广大用户在工作学习中提升效率、节约时间。 本网站的下载内容来自于互联网。如您发现任何侵犯您权益的内容,请立即告知我们,我们将迅速响应并删除相关内容。 免责声明:站内所有资源仅供个人学习研究及参考之用,严禁将这些资源应用于商业场景。 若擅自商用导致的一切后果,由使用者承担责任。
2024-08-11 21:06:00
110
本站
Python
Python是一种强大 - 有力的编程语言,它可以让程序员撰写 - 创作一些自动化 - 自动化的程序 - 脚本,比如可以通过Python模仿 - 模拟人 - 实体点击来完毕 - 结束多种任务。 引入 - 加载所需要的模块 - 库件 import time from selenium import webdriver from selenium.webdriver.common.keys import Keys 创建一个浏览器对象 driver = webdriver.Chrome() 打开需要模仿 - 模拟点击的站点 - 网页 driver.get('https://www.baidu.com') 在查找 - 寻找框中录入 - 输入Python并点击查找 - 寻找按键 - 按钮 elem = driver.find_element_by_name('wd') elem.send_keys('Python') elem.send_keys(Keys.RETURN) 停顿2秒暂停 - 停滞查找 - 寻找结果加载完毕 - 结束 time.sleep(2) 点击第一个查找 - 寻找结果的链接 link = driver.find_element_by_css_selector('content_left .result:nth-child(1) a') link.click() 关闭浏览器 driver.quit() 上面的代码通过使用Selenium模块 - 库件和Chrome浏览器来模仿 - 模拟人 - 实体的点击行为,实现了在百度查找 - 寻找Python后点击第一个查找 - 寻找结果的链接的功能。在实际应用中,这种模仿 - 模拟点击的方式可以用于各种自动化 - 自动化的操作,比如通过点击来实现站点 - 网页的自动登录,自动发送邮件等等。
2024-05-01 16:24:58
245
编程狂人
站内搜索
用于搜索本网站内部文章,支持栏目切换。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
tail -f /var/log/messages
- 实时监控日志文件的新内容。
推荐内容
推荐本栏目内的其它文章,看看还有哪些文章让你感兴趣。
2023-04-28
2023-08-09
2023-06-18
2023-04-14
2023-02-18
2023-04-17
2024-01-11
2023-10-03
2023-09-09
2023-06-13
2023-08-07
2023-03-11
历史内容
快速导航到对应月份的历史文章列表。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"