新用户注册入口 老用户登录入口

[转载]采集下拉词数据

文章作者:转载 更新时间:2023-06-21 12:59:26 阅读数量:489
文章标签:百度下拉词数据抓包操作网页分析动态数据JSON格式用户输入文件名
本文摘要:这篇文章介绍了通过抓包操作采集百度下拉词数据的方法。作者使用Python编程语言,结合requests库发起网络请求,并通过分析网页动态数据中的JSON格式响应,成功获取到所需下拉词信息。为了提高采集效率,文中采用线程池技术并发处理多个关键词。用户只需提供一个包含关键词的文件名,程序即可自动读取并执行采集流程,最终将获取的百度下拉词数据保存到文本文件中。整个过程详细记录了从网页分析、抓包操作到利用Python代码实现自动化采集的完整步骤。
转载文章

本篇文章为转载内容。原文链接:https://blog.csdn.net/Result_Sea/article/details/104201970。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

采集下拉词数据

闲来无事,采集一下百度下拉数据

1 进行对应的网页分析

下拉数据属于动态的数据,鼠标点击输入框出现,划出输入框消失
所以先找到对应的数据包 就要进行抓包操作

1.1 抓包操作

第一步
发现其中的关键词,并复制
打开浏览器的开发者模式(快捷键F12)并点击这个搜索按钮
在这里插入图片描述
打开这个搜索按钮以后,进行粘贴操作 并且按下回车!
在这里插入图片描述
由图可知,只搜索到一个包,在查看这个包内容之前,应该就有90%的把握就是这个包了 点开查看(没错 就是这个包了)
小细节:Preview是渲染之后的结果 Response是写代码请求的结果

接下来我们就上代码

# -*- coding: UTF-8 -*-
import json
import requests
from faker import Fakerdef get_aim(file_name):"""从文件里获取想要的关键词"""with open(file_name, mode='r', encoding='utf-8') as file:keys = file.read()return keysdef aim_letter(aim):"""获取到网页的json数据并保存到txt文件"""url = f'https://m.baidu.com/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=wise&from=wise_web&sugsid=128699,138809,114177,135846,141002,138945,140853,141677,138878,137978,141200,140173,131246,132552,137743,138165,107315,138883,140259,141754,140201,138585,141650,138253,140114,136196,140325,140579,133847,140793,140066,134046,131423,137703,110085,127969,140957,141581,140593,140865,139886,138426,138941,141190,140596&net=&os=&sp=null&rm_brand=0&callback=jsonp1&wd{aim}&sugmode=2&lid=12389568409845924354&sugid=1990018821100998871&preqy=java&_=1580993331416'headers = {'User-Agent': Faker().user_agent(),'Host': 'm.baidu.com','Referer': 'https://m.baidu.com/ssid=4348023d/s?word={aim}&ts=3254538&t_kt=0&ie=utf-8&rsv_iqid=2845402975&rsv_t=daabpEKSG2wGueEO%252FnXSVz2dj3oGTk5cF1suYK9xduVIBAnyA5yo&sa=ib&rsv_pq=2845402975&rsv_sug4=5130&tj=1&inputT=2405&sugid=1990018821100998871&ss=100'}res = requests.get(url, headers=headers)# 由于获取到的数据不是标准的json数据要进行字符串的删减result = json.loads(res.text.replace('jsonp1', '').strip('()'))# 保存到txt文件with open(f'百度下拉词.txt', mode='a', encoding='utf-8') as file:for key in result['g']:file.write(key + '\n')def main():"""进行整合,并捕捉错误"""name = input('请输入文件的名字:')start_time = time.time()try:letter = get_aim(name).split('\n')# 利用线程池加快爬取速度with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor:for l in letter:executor.submit(get_data, l)except:print('请检查文件名是否存在或者文件名是否错误!!')else:# 提示用户完成并打印运行时间时间print('*' * 30 + f'<{name}> 百度相关词 已完成' + '*' * 30)finally:print(time.time() - start_time)if __name__ == '__main__':main()

在此 要感谢我的晨哥!!!哈哈

本篇文章为转载内容。原文链接:https://blog.csdn.net/Result_Sea/article/details/104201970。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

相关阅读
文章标题:[转载][洛谷P1082]同余方程

更新时间:2023-02-18
[转载][洛谷P1082]同余方程
文章标题:[转载]webpack优化之HappyPack实战

更新时间:2023-08-07
[转载]webpack优化之HappyPack实战
文章标题:[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法

更新时间:2023-09-10
[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法
文章标题:[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo

更新时间:2024-03-11
[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo
文章标题:[转载]程序员也分三六九等?等级差异,一个看不起一个!

更新时间:2024-05-10
[转载]程序员也分三六九等?等级差异,一个看不起一个!
文章标题:[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集

更新时间:2024-01-12
[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集
名词解释
作为当前文章的名词解释,仅对当前文章有效。
动态数据在本文语境中,动态数据是指随着用户交互或系统状态变化而实时更新的数据。例如,在采集百度下拉词数据时,当用户在搜索框中输入关键词时出现的下拉推荐词列表就是一种动态数据,它随用户的输入行为实时生成并消失。
JSON格式JavaScript Object Notation(JSON)是一种轻量级的数据交换格式,易于人阅读和编写,也易于机器解析和生成。在文中,百度返回的下拉词数据即采用JSON格式,包含键值对结构,通过抓取并解析JSON响应内容,可以提取出具体的下拉推荐词信息。
线程池 (concurrent.futures.ThreadPoolExecutor)在Python编程中,线程池是一种多线程编程的高效解决方案,通过预先创建一定数量的线程并进行复用,能够减少线程频繁创建销毁带来的开销。文中使用了`concurrent.futures.ThreadPoolExecutor`来并发处理多个关键词的下拉词数据获取任务,每个关键词的请求作为一个独立的任务提交给线程池,线程池中的空闲线程会自动执行这些任务,从而提高了数据采集效率。
抓包操作在网络编程与数据分析领域中,抓包操作指的是利用网络封包分析软件(如Wireshark、Fiddler等,或浏览器开发者工具)捕获、记录网络传输过程中经过计算机网络接口的所有数据包的过程。在本文的具体情境下,作者通过浏览器开发者工具进行抓包操作,找到了包含百度下拉词数据的HTTP请求,进一步分析了该请求的相关参数和返回结果,以实现自动化数据采集的目标。
延伸阅读
作为当前文章的延伸阅读,仅对当前文章有效。
在采集百度下拉词数据的实际应用场景中,这种技术手段对于SEO优化、市场趋势分析以及关键词研究等领域具有重要意义。近日,随着互联网营销和搜索引擎算法的持续更新,精准获取并分析搜索下拉词成为了企业及个人用户洞察市场需求、制定有效网络营销策略的重要一环。
据《中国网络营销白皮书》最新数据显示,搜索引擎下拉词是用户搜索行为的真实反映,其中隐藏着丰富的行业热点与潜在需求信息。通过抓取并分析这些数据,企业能够更准确地定位目标受众,优化网站内容以提升关键词排名,从而增强品牌曝光度与流量转化率。
此外,值得注意的是,在实施此类数据采集时,务必遵守相关法律法规,尊重并保护用户隐私。近期,我国对大数据应用领域的监管趋严,《个人信息保护法》等法规对数据收集、使用提出了更为严格的要求。因此,在实际操作中,应当确保数据来源合法,遵循正当必要原则,并采取必要的脱敏措施。
综上所述,结合当下网络营销环境,合理合法地运用技术手段进行百度下拉词数据的采集与分析,不仅可以为企业提供宝贵的数据资源,还能助力其在瞬息万变的市场环境中抢占先机,实现可持续发展。同时,也应关注行业动态,紧跟政策导向,合规合法地开展数据采集工作,确保企业在数字化转型过程中行稳致远。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
ps aux | grep process - 查找正在运行的特定进程。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
纯js实用T恤衫花纹图案预览特效 01-26 基于Bootstrap仿Github样式下拉列表框插件 08-08 jQuery电子邮件地址填写自动完成插件 04-30 Superset 数据源连接配置:精细化自定义SQLAlchemy URI实现数据分析与可视化,含SSL加密连接实例 03-19 jquery可任意拖动排序的导航图片效果 02-23 侧边栏个人图文简历HTML模板 12-09 Beego框架升级中的Bee工具版本兼容性问题与迁移策略:结构变更、功能接口变动及社区解决方案 12-07 Kibana无法启动:针对服务器内部错误的Elasticsearch连接、配置文件、端口冲突与资源排查解决(注:由于字数限制,未能完全包含所有关键词,但包含了核心问题描述及几个关键排查点) 11-01 ClickHouse外部表使用中文件权限与不存在问题的解决方案:错误提示、查询操作与文件路径管理实务 09-29 本次刷新还10个文章未展示,点击 更多查看。
Apache Atlas UI无法正常加载与样式丢失问题排查及解决方案:关注网络连接、浏览器缓存与开发者工具应用 09-25 Greenplum数据库中数据插入操作详解:单行多行插入与gpfdist实现大批量导入 08-02 [转载]html5 footer header,html-5 --html5教程article、footer、header、nav、section使用 07-16 [转载][GCC for C]编译选项---IDE掩盖下的天空 06-29 简洁大方珠宝钻石收藏网站模板下载 06-20 黑色高端精致汽车4s店美容html5模板下载 06-01 蓝色互联网项目融资管理平台网站模板 05-16 响应式游戏开发类企业前端cms模板下载 05-02 Beego框架动态路由实现:重定向与命令行参数驱动的路由设计实践 04-05 .NET 中字典操作避免 KeyNotFoundException:TryGetValue、ContainsKey 与 GetOrAdd 实践详解 04-04 [转载]2021/4/23爬虫第五次课(爬虫网络请求模块下下) 03-01
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"