新用户注册入口 老用户登录入口

[转载]半自动化批量下载专利全文pdf傻瓜攻略

文章作者:转载 更新时间:2023-11-21 12:55:28 阅读数量:273
文章标签:专利全文批量下载键鼠记录器自动化脚本PDF注意事项
本文摘要:本文介绍了利用键鼠记录器实现半自动化批量下载专利全文PDF的详细攻略,适用于不具备爬虫技术基础但能理解Python基础知识的用户。通过Google Patent搜索引擎无需验证码即可下载全文的优势,结合按键精灵等键鼠记录器工具模拟人工操作流程,依次搜索并下载指定公开号或申请号对应的专利全文。在实施过程中需注意网页反馈与脚本运行问题,确保命令执行的延时合理,以提高脚本容错率。下载完成后,通过对比待下载清单与实际已下载文件的公开号,可使用提供的Python脚本检查缺失的专利并进行针对性解决,从而实现高效、便捷的专利全文批量下载。关键词涵盖:专利全文、批量下载、键鼠记录器、Google Patent、自动化脚本、PDF、注意事项、检查下载效果、公开号/申请号和脚本原理。
转载文章

本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_38688347/article/details/124000919。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

半自动化批量下载专利全文pdf傻瓜攻略

写在前面

整理专利的时候,在专利引擎上只能一条条的下载,很是烦人。我比较讨厌这种重复性劳动,所以每次碰上都得想想办法怎么自动化操作,虽然上每次研究自动化办法的时间把都足够把活干完了哈哈。可惜的是每次搞完都没有把文档保留下来,下次有点什么事情又得从头开始。因此准备开始写写文档记录一些思路,同时如果能帮到有需要的人就更好了!

适合人群

不会爬虫的都可以来看看!能大概看明白python就够了。

使用前提

  1. python环境配好
  2. 有梯子
  3. 不排斥键鼠记录器读取键鼠记录

基本思路

现在的专利搜索引擎大概都有批量下载库,如果只要摘要的话直接下载就可以了。但是下载全文的时候,大部分引擎都不支持批量下载,只能一个一个点,还得输验证码。

这里就不得不提到google patent了,这是我目前找到的唯一一个不需要验证码就能下载的专利引擎了(其实主要是还不会用python识别验证码)。那么有了google patent这个神器,就可以用自动办法来进行下载了。我这里使用的是按键精灵,傻瓜式操作。(没用python爬虫的原因是requests不能挂梯子。。。这里我不是很确定是什么问题,希望有大佬指点一下。anyway,主要思路就是用键鼠记录器点点点,我用的是按键精灵,理论上什么记录器都可以。

ps. 听说poxoq能批量下载,但是新版本只能下载前十页,因此我没有尝试,如果能直接下载全文的话请评论区告诉我。

键鼠记录器脚本

前期准备

  1. 按格式排好公开号或者申请号,在编辑器中打开;
  2. 把google patent搜索页面和文本编辑器分屏显示,便于操作。

脚本原理

以edge浏览器为例,按键精灵双击全选文本中第一行的公开号,ctrl+c复制,鼠标转到网页搜索框,ctrl+v粘贴,点搜索。等搜索完成右键download PDF,选链接另存为并确定,之后点击网页关闭下载栏,一次下载完成。返回编辑器,删除第一行的文本,把第二行提到第一行,完成复位。
这样就形成了完整的一次过程,只要重复运行脚本就可以把所有专利全文下载下来。
按键精灵工作区域

注意事项

实际操作中,可能遇到两大问题:

  1. 网页反馈问题
    这里指的是搜索后没有来到我们想象中的专利页,可能是没有搜索到专利,或该专利google patent没有pdf文档,这时如果脚本还在运行,那么显然就会错误运行。
  2. 脚本运行问题
    主要要考虑的是命令之间的延时。延时调小确实运行速度会变快,但是如果电脑运行速度不够或者网速/服务器慢了,就会错误执行命令。我的建议是文本操作可以适当删减延时,涉及网页的部分适量增加延时,保证脚本的容错率。

由此可以看出来这个脚本还是离不开人的,在跑的时候还是需要盯着点,如果有错误可以及时处理。

检查下载效果

看了上面的注意事项,想必你也知道这个脚本不太靠谱。那么解决这个问题的方法就是负反馈。下载完了检查一遍就好了。
由于google patent下载的文件是以公开号命名的,所以对照要下载的和已下载的公开号就能看出哪些专利没有下载成功。
我这里写了一个python小脚本。

import pandas as pd
import os
#读取待下载专利的公开号,地址修改成你自己存放的位置
df = pd.read_excel("target.xlsx",header= 0, usecols= "B").drop_duplicates()
#取前11位作为对比(以中国专利作为参考)
PublicNumber_tgt = list(map(lambda x: x[0:11],df["公开(公告)号"].to_list()))
#读取已下载专利的公开号,地址修改成你自己存放的位置
filelist=os.listdir(r'C:\Users\mornthx\Desktop\专利全文')
#取前11位作为对比
PublicNumber_dl = list(map(lambda x: x[0:11],filelist))
#比较两者差值
diff = set(PublicNumber_tgt).difference(set(PublicNumber_dl))
print(diff)

没下载的专利具体问题具体解决就好了。
希望能帮到大家!

本篇文章为转载内容。原文链接:https://blog.csdn.net/weixin_38688347/article/details/124000919。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

相关阅读
文章标题:[转载][洛谷P1082]同余方程

更新时间:2023-02-18
[转载][洛谷P1082]同余方程
文章标题:[转载]webpack优化之HappyPack实战

更新时间:2023-08-07
[转载]webpack优化之HappyPack实战
文章标题:[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法

更新时间:2023-09-10
[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法
文章标题:[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo

更新时间:2024-03-11
[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo
文章标题:[转载]程序员也分三六九等?等级差异,一个看不起一个!

更新时间:2024-05-10
[转载]程序员也分三六九等?等级差异,一个看不起一个!
文章标题:[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集

更新时间:2024-01-12
[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集
名词解释
作为当前文章的名词解释,仅对当前文章有效。
按键精灵按键精灵是一款模拟人工操作键盘和鼠标的自动化软件工具,通过录制用户的鼠标点击、键盘输入等操作,形成脚本后可以进行回放,实现批量重复执行相同操作的功能。在本文中,作者使用按键精灵作为半自动化下载专利全文PDF的辅助工具,通过记录搜索、复制公开号、粘贴至搜索框、点击搜索及下载PDF等步骤,形成脚本自动执行,从而批量下载多个专利全文。
Google PatentGoogle Patent是谷歌推出的一款专门针对全球专利信息检索的服务平台。用户可以通过该平台搜索到各国专利局公开的专利文献,包括专利标题、摘要、说明书以及专利权人等详细信息,并提供部分专利的全文PDF文件供用户免费下载。文中提到,Google Patent是目前唯一一个在无需验证码情况下支持全文PDF下载的专利搜索引擎,因此被作者选作自动化下载专利全文的重要途径。
自动化脚本自动化脚本是一种计算机程序或命令序列,旨在通过预先编写好的代码指令代替人工完成一系列重复性工作。在本文语境下,作者设计并实现了用于批量下载专利全文的自动化脚本,结合按键精灵工具模拟人类操作行为,通过读取文本编辑器中的公开号,依次搜索并下载对应的专利全文PDF。同时,还提供了检查下载效果的Python小脚本,用于对比待下载清单与实际已下载文件的公开号,确保所有需要的专利都已成功下载。
延伸阅读
作为当前文章的延伸阅读,仅对当前文章有效。
在自动化工具日益普及的今天,专利文献的大规模获取与分析已成为许多科研、法律和商业领域关注的重点。近日,知识产权信息服务商智慧芽(PatSnap)推出了一项全新的全球专利检索与下载功能,用户不仅能够一站式搜索到全球1.4亿余条专利数据,还可实现批量下载专利全文,大大提升了专利研究工作的效率。
同时,学术界也在探索更先进的自然语言处理(NLP)和计算机视觉(CV)技术在专利信息抽取和自动识别验证码方面的应用。例如,有研究人员利用深度学习模型对专利网站的验证码进行智能识别,并结合自动化脚本实现高效、无误的批量下载。这一进展预示着未来可能实现完全自动化的专利全文下载解决方案。
此外,针对专利数据的合法合规使用,国家知识产权局近期发布了新版《专利信息公共服务体系建设方案》,强调将加强专利数据开放共享和安全保障,鼓励社会各界充分利用专利信息资源,推动技术创新与产业发展。
综上所述,无论是从实际应用工具的更新迭代,还是前沿科技的研究突破,都显示了专利全文批量下载领域的快速发展与创新实践。对于广大需要频繁查阅和分析专利全文的专业人士来说,关注这些动态不仅能提升工作效率,还能更好地适应知识产权保护环境的变化,从而在各自的领域中取得竞争优势。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
lastlog - 显示每个用户最后一次成功登录的时间和相关信息。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
响应式抖音课程培训学院类企业前端模板下载 01-21 jQuery点击显示隐藏更多文字内容插件 01-15 黑色设计师简历响应式网页模板下载 01-14 [转载]Tomcat启动时卡在“ Deploying web application directory ”很久的解决方法 12-19 Saiku LDAP集成登录失效问题:排查配置错误、身份验证及解决方案实操 12-01 Spring Cloud微服务架构中注册中心的必要性与服务间通信实践:服务发现、API契约与高可用性考量 11-23 MahoutIllegalArgumentException在Apache Mahout中的应用场景:矩阵维度不匹配与向量索引异常解析及参数有效性的API调用实践 10-16 [转载]Docker 相关配置文件路径 09-08 蓝色精品美容整形机构网站模板 08-29 本次刷新还10个文章未展示,点击 更多查看。
Gradle在持续集成中的关键作用:自动化构建、依赖管理与多项目构建实践及CI服务器集成 07-06 化妆品购物商城通用网站模板下载 06-27 响应式建筑装饰设计类企业前端CMS模板下载 04-14 微服务架构下用户认证鉴权:网关层统一处理与服务内部处理的比较及选择考量 04-09 响应式会议活动主题着陆页网站模板 03-24 Tomcat内存泄漏问题在Web应用程序中的解决方案:Servlet上下文管理、全局变量引用与弱引用实践及监控工具应用 03-15 Kafka消费者消费偏移量设置:auto.offset.reset策略与手动控制方法详解 02-10 [转载]JavaScript中的时间与日期、正则表达式和Function类型 01-24 大气简洁手机电子产品展示柜台前端模板 01-22 项目案例展示设计公司企业网站模板 01-18 Bootstrap博客后台管理系统网站模板 01-08
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"