Go语言如何实现并发爬虫
发表于:2025-01-16 作者:千家信息网编辑
千家信息网最后更新 2025年01月16日,这篇文章将为大家详细讲解有关Go语言如何实现并发爬虫,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1. 单线程爬虫定义一个用户var Client http.Cli
千家信息网最后更新 2025年01月16日Go语言如何实现并发爬虫
这篇文章将为大家详细讲解有关Go语言如何实现并发爬虫,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
1. 单线程爬虫
定义一个用户
var Client http.Client
主函数
func main() { url := "http://localhost:3000/api/v1/products" start := time.Now() for i := 0; i < 10; i++ { Spider(url, i) } elapsed := time.Since(start) fmt.Printf("Time %s", elapsed)}
爬取函数
func Spider(url string, i int) { reqSpider, err := http.NewRequest("GET", url, nil) if err != nil { log.Fatal(err) } reqSpider.Header.Set("content-length", "0") reqSpider.Header.Set("accept", "*/*") reqSpider.Header.Set("x-requested-with", "XMLHttpRequest") respSpider, err := Client.Do(reqSpider) if err != nil { log.Fatal(err) } bodyText, _ := ioutil.ReadAll(respSpider.Body) var result Result _ = json.Unmarshal(bodyText, &result) fmt.Println(i,result.Data)}
运行时间为:651.8207ms
2. 多线程爬虫
2.1 channel main函数
我们构造一个无缓冲的通道,来阻塞主进程,等待子进程的执行。
func main() { url := "http://localhost:3000/api/v1/products" ch := make(chan bool) start := time.Now() for i := 0; i < 10; i++ { go Spider(url, ch, i) } for i := 0; i < 10; i++ { <-ch } elapsed := time.Since(start) fmt.Printf("Time %s", elapsed)}
最后记得在爬虫的结束的时候,把值写入到通道中,不然会一直阻塞主进程
运行时间:187.7921ms
比之前快了非常多。
2.2 sync.WaitGroup
定义一个进程组并加10个进程
var wg sync.WaitGroup wg.Add(10)
开辟十个goruntime
for i := 0; i < 10; i++ { go func(i int) { defer wg.Done() SpiderWaitGroup(url,i) }(i) }
阻塞主进程
wg.Wait()
结果:64.5246ms
3. 源码地址
GitHub地址:https://github.com/CocaineCong/Go-Spider-Demo
NormalStart(url) // 单线程爬虫 ChannelStart(url) // Channel多线程爬虫 WaitGroupStart(url) // Wait 多线程爬虫
其实多线程的两种都差不多的,只是有时候会因为机器的原因而导致一些误差。
关于"Go语言如何实现并发爬虫"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。
爬虫
线程
进程
函数
篇文章
阻塞
语言
地址
时间
更多
通道
运行
不错
实用
差不多
内容
原因
只是
文章
时候
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
服务器批量管理
大数据的数据库技术
组织表达谱怎么分析数据库
数据库应用的技术路线
方舟私人服务器怎么管理
web浏览器和服务器有什么区别
详细软件开发的过程
web开发和网络安全
flask 数据库连接
自动同步数据库
服务器租用双线
杭州c语言软件开发多少钱
服务器连接数据库oracle
平顶山阜阳app软件开发
饥荒联机版云服务器管理员
数据库应用实践课程设计
lol服务器不稳定是什么原因
郑州青少年网络安全基地
上海语音网络技术基础
该网页因为无法找到服务器
保障网络安全的技术
关系数据库中的关键字是指()
汕头智能软件开发报价
网络安全审计工具下载
学了数据库可以做什么工作
暑期网络安全手抄报图片
教育培训机构数据库
怎么在一念逍遥创建服务器
软件开发岗位逻辑笔试题
神经网络技术研究与综述