本文摘要：这篇文章介绍了通过抓包操作采集百度下拉词数据的方法。作者使用Python编程语言，结合requests库发起网络请求，并通过分析网页动态数据中的JSON格式响应，成功获取到所需下拉词信息。为了提高采集效率，文中采用线程池技术并发处理多个关键词。用户只需提供一个包含关键词的文件名，程序即可自动读取并执行采集流程，最终将获取的百度下拉词数据保存到文本文件中。整个过程详细记录了从网页分析、抓包操作到利用Python代码实现自动化采集的完整步骤。

转载文章

本篇文章为转载内容。原文链接：https://blog.csdn.net/Result_Sea/article/details/104201970。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

采集下拉词数据

闲来无事，采集一下百度下拉数据

1 进行对应的网页分析

下拉数据属于动态的数据，鼠标点击输入框出现，划出输入框消失
所以先找到对应的数据包就要进行抓包操作

1.1 抓包操作

第一步
发现其中的关键词，并复制
打开浏览器的开发者模式（快捷键F12）并点击这个搜索按钮
在这里插入图片描述
打开这个搜索按钮以后，进行粘贴操作并且按下回车！

由图可知，只搜索到一个包，在查看这个包内容之前，应该就有90%的把握就是这个包了点开查看（没错就是这个包了）
小细节：Preview是渲染之后的结果 Response是写代码请求的结果

接下来我们就上代码

# -*- coding: UTF-8 -*-
import json
import requests
from faker import Fakerdef get_aim(file_name):"""从文件里获取想要的关键词"""with open(file_name, mode='r', encoding='utf-8') as file:keys = file.read()return keysdef aim_letter(aim):"""获取到网页的json数据并保存到txt文件"""url = f'https://m.baidu.com/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=wise&from=wise_web&sugsid=128699,138809,114177,135846,141002,138945,140853,141677,138878,137978,141200,140173,131246,132552,137743,138165,107315,138883,140259,141754,140201,138585,141650,138253,140114,136196,140325,140579,133847,140793,140066,134046,131423,137703,110085,127969,140957,141581,140593,140865,139886,138426,138941,141190,140596&net=&os=&sp=null&rm_brand=0&callback=jsonp1&wd{aim}&sugmode=2&lid=12389568409845924354&sugid=1990018821100998871&preqy=java&_=1580993331416'headers = {'User-Agent': Faker().user_agent(),'Host': 'm.baidu.com','Referer': 'https://m.baidu.com/ssid=4348023d/s?word={aim}&ts=3254538&t_kt=0&ie=utf-8&rsv_iqid=2845402975&rsv_t=daabpEKSG2wGueEO%252FnXSVz2dj3oGTk5cF1suYK9xduVIBAnyA5yo&sa=ib&rsv_pq=2845402975&rsv_sug4=5130&tj=1&inputT=2405&sugid=1990018821100998871&ss=100'}res = requests.get(url, headers=headers)# 由于获取到的数据不是标准的json数据要进行字符串的删减result = json.loads(res.text.replace('jsonp1', '').strip('()'))# 保存到txt文件with open(f'百度下拉词.txt', mode='a', encoding='utf-8') as file:for key in result['g']:file.write(key + '\n')def main():"""进行整合，并捕捉错误"""name = input('请输入文件的名字：')start_time = time.time()try:letter = get_aim(name).split('\n')# 利用线程池加快爬取速度with concurrent.futures.ThreadPoolExecutor(max_workers=100) as executor:for l in letter:executor.submit(get_data, l)except:print('请检查文件名是否存在或者文件名是否错误！！')else:# 提示用户完成并打印运行时间时间print('*' * 30 + f'<{name}> 百度相关词 已完成' + '*' * 30)finally:print(time.time() - start_time)if __name__ == '__main__':main()

在此要感谢我的晨哥!!!哈哈

本篇文章为转载内容。原文链接：https://blog.csdn.net/Result_Sea/article/details/104201970。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

名词解释

作为当前文章的名词解释，仅对当前文章有效。

动态数据：在本文语境中，动态数据是指随着用户交互或系统状态变化而实时更新的数据。例如，在采集百度下拉词数据时，当用户在搜索框中输入关键词时出现的下拉推荐词列表就是一种动态数据，它随用户的输入行为实时生成并消失。

JSON格式：JavaScript Object Notation（JSON）是一种轻量级的数据交换格式，易于人阅读和编写，也易于机器解析和生成。在文中，百度返回的下拉词数据即采用JSON格式，包含键值对结构，通过抓取并解析JSON响应内容，可以提取出具体的下拉推荐词信息。

线程池 (concurrent.futures.ThreadPoolExecutor)：在Python编程中，线程池是一种多线程编程的高效解决方案，通过预先创建一定数量的线程并进行复用，能够减少线程频繁创建销毁带来的开销。文中使用了`concurrent.futures.ThreadPoolExecutor`来并发处理多个关键词的下拉词数据获取任务，每个关键词的请求作为一个独立的任务提交给线程池，线程池中的空闲线程会自动执行这些任务，从而提高了数据采集效率。

抓包操作：在网络编程与数据分析领域中，抓包操作指的是利用网络封包分析软件（如Wireshark、Fiddler等，或浏览器开发者工具）捕获、记录网络传输过程中经过计算机网络接口的所有数据包的过程。在本文的具体情境下，作者通过浏览器开发者工具进行抓包操作，找到了包含百度下拉词数据的HTTP请求，进一步分析了该请求的相关参数和返回结果，以实现自动化数据采集的目标。