导航：首页 > 互联网科技 >

怎么用.net core 实现简单爬虫

发表于：2025-02-13 作者：千家信息网编辑

千家信息网最后更新 2025年02月13日，本篇内容主要讲解"怎么用.net core 实现简单爬虫"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"怎么用.net core 实现简单爬虫"吧!一.介绍

千家信息网最后更新 2025年02月13日怎么用.net core 实现简单爬虫

本篇内容主要讲解"怎么用.net core 实现简单爬虫"，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习"怎么用.net core 实现简单爬虫"吧!

一.介绍一个Http请求框架HttpCode.Core

HttpCode.Core 源自于HttpCode（传送门），不同的是 HttpCode.Core是基于.net standard 2.0实现的，移除了HttpCode与windows相耦合的api，且修改了异步实现，其余特性完全与HttpCode相同，大家如果在使用中有什么问题可以查看在线文档（传送门）

HttpCode.Core完全开源，已传到github，地址：https://github.com/stulzq/HttpCode.Core

为了方便大家使用，也传到了nuget，地址：https://www.nuget.org/packages/HttpCode.Core/，在nuget中搜索 HttpCode.Core 或执行命令 Install-Package HttpCode.Core 就可以使用了。

具体的使用方法大家可以查阅在线文档，或者查看github。

简单、易用、高效一个有态度的开源.Net Http请求框架!

二.分析抓取地址

首先使用谷歌浏览器的开发者工具，抓取博客园首页获取博文列表的地址：

从中我们可以分析出：

1. 请求地址 https://www.cnblogs.com/mvc/AggSite/PostList.aspx

2.请求方式 Post

3.请求数据

{

"CategoryType":"SiteHome",

"ParentCategoryId":0,

"CategoryId":808,

"PageIndex":3,

"TotalPostCount":4000,

"ItemListActionName":"PostList"

}

请求数据中，我们应当关心的是 PageIndex 代表的是页数，我们可通过变换这个参数的值来获取不同页面的数据。

我们先使用HttpCode.Core来试一试获取数据：

int pageIndex = 1;//页数

HttpHelpers httpHelpers=new HttpHelpers();

HttpItems items=new HttpItems();

items.Url = "https://www.cnblogs.com/mvc/AggSite/PostList.aspx";//请求地址

items.Method = "Post";//请求方式 post

items.Postdata = "{\"CategoryType\":\"SiteHome\"," +

"\"ParentCategoryId\":0," +

"\"CategoryId\":808," +

"\"PageIndex\":"+ pageIndex + "," +

"\"TotalPostCount\":4000," +

"\"ItemListActionName\":\"PostList\"}";//请求数据

HttpResults hr = httpHelpers.GetHtml(items);

Console.WriteLine(hr.Html);

Console.ReadKey();

运行截图：

可以看到我们已经成功获取了数据，证明我们的分析是正确的。

三.解析返回的数据

刚刚我们测试接口返回的数据可以看出返回的是一堆html字符串。我们只想要博文的标题、作者、博文地址等等信息，我们不需要多余的html字符串，下面我们使用 HtmlAgilityPack 这个解析网页的组件来获得我们想要的数据。

关于这个组件的使用，博客园已经有不少介绍此组件的文档，大家可以搜索查看，使用此组件需具备xpath相关知识，我就不在此详细叙述了。

1.首先通过nuget安装 HtmlAgilityPack 组件

　　打开程序包控制台

　　执行命令 Install-Package HtmlAgilityPack -Version 1.5.2-beta6

2.　解析返回的数据

贴一下返回的部分数据：

关于跨平台的一些认识

前段时间看了周志明的那本《深入理解java虚拟机》。对于平台无关性问题，有了一些新的认识。所以特写一篇博客来进行总结。这是我的第一篇不针对具体技术，而只针对计算机系统和原理的博客文章，而这种话题，总是比较宽泛，而我本人的水平有限，所以我也只能泛泛的写写，思考的不对的地方，还望读者不吝批评。 ...

eleven_yw

发布于 2017-09-03 22:12

评论(2)阅读(210)

2017年9月3日实现网站的权限管理

现在各个企业管理网站对登录的账号都要进行权限管理，并且相当重要，每个账号登录进去所能看到的东西大不相同，下面是实现该功能的一个的一种方法。需求：权限：权限是使用者操作系统中功能模块的能力，如"角色管理"模块、"资费管理"模块和"账单管理"模块等。通过指定权限，可将使用者的操作限定在指定的范围 ...

Loseheart

发布于 2017-09-03 21:34

评论(0)阅读(354)

从中我们不难看出每一个数据是以class=post_item的div来进行区分的，我们想要的博文地址、标题等是在这个div里面的class=post_item_body的div里面，以此类推我们可以分析出：

博文标题
|
| h4 | a | Text
博文地址
|
| h4 | a | href
..以此类推

因为HtmlAgilityPack是通过xpath来解析网页的，所以现在我们要根据我们上面分析出的路径来写xpath，这里不明白xpath的可以去w3cschool学习一下，非常简单。

下面是我写好的解析博文标题、地址和作者的代码，抓取其他信息可以自己参考试一试：

//解析数据

HtmlDocument doc=new HtmlDocument();

//加载html

doc.LoadHtml(hr.Html);

//获取 class=post_item_body 的div列表

HtmlNodeCollection itemNodes = doc.DocumentNode.SelectNodes("div[@class='post_item']/div[@class='post_item_body']");

//循环根据每个div解析我们想要的数据

foreach (var item in itemNodes)

{

//获取包含博文标题和地址的 a 标签

var nodeA = item.SelectSingleNode("h4/a");

//获取博文标题

string title = nodeA.InnerText;

//获取博文地址 a标签的 href 属性

string url = nodeA.GetAttributeValue("href", "");

//获取包含作者名字的 a 标签

var nodeAuthor = item.SelectSingleNode("div[@class='post_item_foot']/a[@class='lightblue']");

string author = nodeAuthor.InnerText;

Console.WriteLine($"标题：{title} | 作者：{author} | 地址：{url}");

}

运行截图：

四.循环抓取多个分页

前面我们分析出请求参数中的 PageIndex 是页数，分析单个页面的代码我们也写出来来，那么我们可以通过循环递增页数，来达到抓取不同分页数据的要求。

贴一下完整的代码

int pageIndex = 1;//页数

int maxPageIndex = 10;//最大页数

HttpHelpers httpHelpers=new HttpHelpers();

for (int i = 0; i < maxPageIndex; i++)

{

HttpItems items = new HttpItems();

items.Url = "https://www.cnblogs.com/mvc/AggSite/PostList.aspx";//请求地址

items.Method = "Post";//请求方式 post

items.Postdata = "{\"CategoryType\":\"SiteHome\"," +

"\"ParentCategoryId\":0," +

"\"CategoryId\":808," +

"\"PageIndex\":" + (i+1) + "," + //因为i从0开始所以此处我们要加1

"\"TotalPostCount\":4000," +

"\"ItemListActionName\":\"PostList\"}";//请求数据

HttpResults hr = httpHelpers.GetHtml(items);

//解析数据

HtmlDocument doc = new HtmlDocument();

//加载html

doc.LoadHtml(hr.Html);

//获取 class=post_item_body 的div列表

HtmlNodeCollection itemNodes = doc.DocumentNode.SelectNodes("div[@class='post_item']/div[@class='post_item_body']");

Console.WriteLine($"第{i+1}页数据：");

//循环根据每个div解析我们想要的数据

foreach (var item in itemNodes)

{

//获取包含博文标题和地址的 a 标签

var nodeA = item.SelectSingleNode("h4/a");

//获取博文标题

string title = nodeA.InnerText;

//获取博文地址 a标签的 href 属性

string url = nodeA.GetAttributeValue("href", "");

//获取包含作者名字的 a 标签

var nodeAuthor = item.SelectSingleNode("div[@class='post_item_foot']/a[@class='lightblue']");

string author = nodeAuthor.InnerText;

//输出数据

Console.WriteLine($"标题：{title} | 作者：{author} | 地址：{url}");

}

//每抓取一页数据暂停三秒

Thread.Sleep(3000);

}

Console.ReadKey();

运行截图：

一个简单的.net core实现的简单爬虫就此完成！

到此，相信大家对"怎么用.net core 实现简单爬虫"有了更深的了解，不妨来实际操作一番吧！这里是网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

很赞哦！

数据地址标题分析作者标签页数权限组件管理爬虫博客模块循环不同代码截图文档方式方法数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全云台山岸上润达服务器菜鸟服务器管理员魔兽世界网通区服务器创新核心科技构建网络安全高级软件开发工程师招聘一个服务器可以做几个ip 腾讯云计算服务器在哪山西麻将软件开发信息推荐对于服务器安全风险 ie设置清除数据库公安机关网络安全技术试题机智云数据库软件开发虎丘区管理软件开发记录 aqq全国网络安全知识竞赛软件开发要会数据库吗隐私计算技术可以分为数据库安全复旦网络安全海报软件开发分类介绍带远程管理的二手服务器推荐赴日软件开发需要什么技术用友商贸通数据库表信息网络安全平台长沙招网络技术人负国内开放数据库网络技术级别 icq服务器鱼池中转服务器抽水如何发展网络安全战略简述宁晋县网络安全管理局

千家信息网

千家信息网

怎么用.net core 实现简单爬虫

一.介绍一个Http请求框架HttpCode.Core

二.分析抓取地址

三.解析返回的数据

关于跨平台的一些认识

2017年9月3日实现网站的权限管理

四.循环抓取多个分页

Solidity事件Event怎么使用

如何规划IIoT解决方案以实现长期可扩展性

相关文章

怎么用.net core 实现简单爬虫

一.介绍一个Http请求框架HttpCode.Core

二.分析抓取地址

三.解析返回的数据

关于跨平台的一些认识

2017年9月3日 实现网站的权限管理

四.循环抓取多个分页

Solidity事件Event怎么使用

如何规划IIoT解决方案以实现长期可扩展性

相关文章

2017年9月3日实现网站的权限管理