python如何采集百度搜索结果带有特定URL的链接
发表于:2025-01-18 作者:千家信息网编辑
千家信息网最后更新 2025年01月18日,这篇文章主要介绍python如何采集百度搜索结果带有特定URL的链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!#coding utf-8import requestsfro
千家信息网最后更新 2025年01月18日python如何采集百度搜索结果带有特定URL的链接
这篇文章主要介绍python如何采集百度搜索结果带有特定URL的链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
#coding utf-8import requestsfrom bs4 import BeautifulSoup as bsimport refrom Queue import Queueimport threadingfrom argparse import ArgumentParserarg = ArgumentParser(description='baidu_url_collet py-script by xiaoye')arg.add_argument('keyword',help='keyword like inurl:?id=for searching sqli site')arg.add_argument('-p','--page',help='page count',dest='pagecount',type=int)arg.add_argument('-t','--thread',help='the thread_count',dest='thread_count',type=int,default=10)arg.add_argument('-o','--outfile',help='the file save result',dest='oufile',type=int,default='result.txt')result = arg.parse_args()headers = {'User-Agent':'Mozilla/5.0(windows NT 10.0 WX64;rv:50.0) Gecko/20100101 Firefox/50.0'}class Bg_url(threading.Thread): def __init__(self,que): threading.Thread.__init__(self) self._que = que def run(self): while not self._que.empty(): URL = self._que.get() try: self.bd_url_collet(URL) except Exception,e: print(e) pass def bd_url_collect(self, url): r = requests.get(url, headers=headers, timeout=3) soup = bs(r.content, 'lxml', from_encoding='utf-8') bqs = soup.find_all(name='a', attrs={'data-click':re.compile(r'.'), 'class':None})#获得从百度搜索出来的a标签的链接 for bq in bqs: r = requests.get(bq['href'], headers=headers, timeout=3)#获取真实链接 if r.status_code == 200:#如果状态码为200 print r.url with open(result.outfile, 'a') as f: f.write(r.url + '\n')def main(): thread = [] thread_count = result.thread_count que = Queue() for i in range(0,(result.pagecount-1)*10,10): que.put('https://www.baidu.com/s?wd=' + result.keyword + '&pn=' + str(i)) or i in range(thread_count): thread.append(Bd_url(que)) for i in thread: i.start() for i in thread: i.join() if __name__ == '__main__': main() #执行格式python aaaaa.py "inurl:asp?id=" -p 30 -t 30
以上是"python如何采集百度搜索结果带有特定URL的链接"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
链接
搜索
搜索结果
结果
内容
篇文章
价值
兴趣
小伙
小伙伴
更多
标签
格式
状态
知识
行业
资讯
资讯频道
频道
参考
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
平顶山erp软件开发
广州人力网络软件开发有限公司
阿里云数据库备份.tar
服务器被arp攻击
甘肃土地gis系统软件开发
软件开发人员 考核
网络技术管理安全
上海数据库三级
服务器 php tcp
软件开发财政预算
烟台服务器收费
网络安全法可以走简易程序吗
如何将表格导入数据库
重庆软件开发定制平台
阿里云服务器开通ftp
教育局网络安全培训记录
疆内手机软件开发公司
数据库左右链区别
数据库的四种不同功能
没有应用数据库技术的
泉州购物直播软件开发
个人电脑安装饥荒服务器
易语言写小程序服务器
服务器机房用电功率估算
网络安全大赛出名
寻仙卡号服务器
数据库语句显示月份
香港服务器那里靠谱
吴忠网络安全工程师信息
网络技术与应用2021春