分布式爬虫怎么处理Redis里的数据
发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,这篇文章主要讲解了"分布式爬虫怎么处理Redis里的数据",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"分布式爬虫怎么处理Redis里的数据"吧!存入M
千家信息网最后更新 2025年01月22日分布式爬虫怎么处理Redis里的数据
这篇文章主要讲解了"分布式爬虫怎么处理Redis里的数据",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"分布式爬虫怎么处理Redis里的数据"吧!
存入MongoDB
1.启动MongoDB数据库:sudo mongod
2.执行下面程序:py2 process_youyuan_mongodb.py
# process_youyuan_mongodb.py# -*- coding: utf-8 -*-import jsonimport redisimport pymongodef main(): # 指定Redis数据库信息 rediscli = redis.StrictRedis(host='192.168.199.108', port=6379, db=0) # 指定MongoDB数据库信息 mongocli = pymongo.MongoClient(host='localhost', port=27017) # 创建数据库名 db = mongocli['youyuan'] # 创建表名 sheet = db['beijing_18_25'] while True: # FIFO模式为 blpop,LIFO模式为 brpop,获取键值 source, data = rediscli.blpop(["youyuan:items"]) item = json.loads(data) sheet.insert(item) try: print u"Processing: %(name)s <%(link)s>" % item except KeyError: print u"Error procesing: %r" % itemif __name__ == '__main__': main()
存入 MySQL
1.启动mysql:mysql.server start(更平台不一样)
2.登录到root用户:mysql -uroot -p
3.创建数据库youyuan:create database youyuan;
4.切换到指定数据库:use youyuan
5.创建表beijing_18_25以及所有字段的列名和数据类型。
6.执行下面程序:py2 process_youyuan_mysql.py
#process_youyuan_mysql.py# -*- coding: utf-8 -*-import jsonimport redisimport MySQLdbdef main(): # 指定redis数据库信息 rediscli = redis.StrictRedis(host='192.168.199.108', port = 6379, db = 0) # 指定mysql数据库 mysqlcli = MySQLdb.connect(host='127.0.0.1', user='power', passwd='xxxxxxx', db = 'youyuan', port=3306, use_unicode=True) while True: # FIFO模式为 blpop,LIFO模式为 brpop,获取键值 source, data = rediscli.blpop(["youyuan:items"]) item = json.loads(data) try: # 使用cursor()方法获取操作游标 cur = mysqlcli.cursor() # 使用execute方法执行SQL INSERT语句 cur.execute("INSERT INTO beijing_18_25 (username, crawled, age, spider, header_url, source, pic_urls, monologue, source_url) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s )", [item['username'], item['crawled'], item['age'], item['spider'], item['header_url'], item['source'], item['pic_urls'], item['monologue'], item['source_url']]) # 提交sql事务 mysqlcli.commit() #关闭本次操作 cur.close() print "inserted %s" % item['source_url'] except MySQLdb.Error,e: print "Mysql Error %d: %s" % (e.args[0], e.args[1])if __name__ == '__main__': main()
感谢各位的阅读,以上就是"分布式爬虫怎么处理Redis里的数据"的内容了,经过本文的学习后,相信大家对分布式爬虫怎么处理Redis里的数据这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!
数据
数据库
分布式
爬虫
处理
模式
信息
学习
内容
方法
程序
utf-8
事务
字段
就是
平台
思路
情况
文章
更多
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
pg数据库集群就是主从吗
海岛奇兵在哪个服务器可以下载
tidb数据库查表空间
今朝网络安全众测
网络安全图文报告论文
网络安全法服务器管理
外国服务器网站
通化云服务器存储
山东单据外贸软件开发
网络安全态势感知类平台
国外cs服务器
福建计算机网络技术专业升本
高科技互联网公司是真的吗
服务器应用错误怎么办
网络安全工程师李华飚个人简历
无线网络技术考点
联通网络技术是中国最好的吗
云服务器链接网站
网络安全文章素材
丽水口碑好的网络技术有哪些
优炫数据库中央企业联合采购
数据库批量改表名
邮件服务器搭建和管理
最强蜗牛各渠道服服务器名字
丽江服务器云存储费用
维护网络安全基础的工作
国联质检是软件开发
数据库跟服务器
商通达网络安全知识
成都高新网络安全云计算ai