太行山有Python爬取微博数据
发表于:2024-10-05 作者:千家信息网编辑
千家信息网最后更新 2024年10月05日,今天就跟大家聊聊有关太行山有Python爬取微博数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。爬虫的最大功能之一就是整合数据,能弄到更全面
千家信息网最后更新 2024年10月05日太行山有Python爬取微博数据
今天就跟大家聊聊有关太行山有Python爬取微博数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
爬虫的最大功能之一就是整合数据,能弄到更全面的信息,真正做好大数据的分析,在这个数据说话的年代,影响是决定性的。(注意别侵权)
♦思路流程
1、利用chrome浏览器,获取自己的cookie。
2、获取你要爬取的用户的微博User_id
3、将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。
♦完整代码
import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3): page = str(p) url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page data = requests.get(url) data_text = data.text data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text) num = len(data_num) for i in range(0,num): url_detail = "https://m.weibo.cn/detail/" + data_num[i] html = requests.get(url_detail) time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text) timedata.append(time.group(1)) tm.sleep(random.uniform(1,4)) #反爬间隔 print("采集第%d页第%d条微博数据"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')
用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。
看完上述内容,你们对太行山有Python爬取微博数据有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
数据
内容
代码
太行
太行山
信息
最大
关键
关键字
决定性
功能
大小
字体
就是
年代
思路
更多
权重
流程
浏览器
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
欧盟网络安全局英文缩写
济南软件开发有限公司
计算机数据库前提
空管局网络安全检查
军队关于网络安全的心得体会
网络安全企业反舞弊
服务器硬件登记表
笔记本连接服务器安装win系统
php数据库答辩问什么
网络技术主题大全
平安证券软件开发怎么样
数据库连接1251报错
网络安全小知识幼儿园
软件开发营改增
浪潮服务器nf5220
服务器cpu到哪买
服务器风扇的转速是多少
方舟生存进化xbox专用服务器
江苏计算机软件开发怎么样
安恒集团网络安全
yaoi免费同人志数据库中文
web操作监控远程服务器
福建定制网络技术开发项目
pcb板控制软件开发
网络安全为话题的征文800
数据库答辩课
河北新能源网络技术的技术开发
哪些数据库应用到了数据库技术
expdp导出数据库脚本
a股网络安全会涨吗