GoldData学习实例-采集官网新闻数据
发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,概述在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。news_site(新闻来源)字段类型说明idbigint主键,自动增长nameva
千家信息网最后更新 2025年01月22日GoldData学习实例-采集官网新闻数据
概述
在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。
news_site(新闻来源)
字段 | 类型 | 说明 |
---|---|---|
id | bigint | 主键,自动增长 |
name | varchar(128) | 来源名称 |
news(新闻)
字段 | 类型 | 说明 |
---|---|---|
id | bigint | 主键,自动增长 |
title | varchar(128) | 标题 |
site_id | bigint | 外键,指向表news_site的id字段 |
content | text | 内容 |
pub_date | datetime | 发布时间 |
date_created | datetime | 加入时间 |
我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将再此一一介绍。
定义站点、数据集
定义抓取和抽取规则
在这里我们需要填入口地址。入口地址如果有多个,那么要以英文逗号相隔。如下图所示:
接下来我们编写规则时,首先是匹配URL,这里需要填写正则表达式。旁边的"?"号,点击后就会弹出相应的帮助文档。如下图所示:
然后数据集选择则我们要注意,如果抓取的仅需要的是链接,那么是否数据集选择否,且数据集字段必须要有一个名为href的字段。如下图所示:
否则是否数据集应该选择是,且数据集字段必须要有一个名为sn的字段。sn字段存放的数据一般是唯一值,相当于数据表里的id字段。如下图所示:
完整的规则内容显示如下:
[ { __sample: http://sousuo.gov.cn/column/40520/0.htm match0: http\:\/\/sousuo\.gov\.cn\/column\/40520/\d+\.htm fields0: { __model: false __node: .news_box a href: { expr: a attr: abs:href js: "" __label: 链接 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } } } { __sample: http://www.gov.cn/xinwen/2019-02/26/content_5368539.htm match0: http\:\/\/www\.gov\.cn/xinwen/2019-\d{2}/\d{2}/content_\d+.htm fields0: { __model: true __dataset: news __node: ".article " sn: { expr: "" attr: "" js: ''' var xx=md5(baseUri) xx ''' __label: 编号 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } title: { expr: .article >h2 attr: "" js: "" __label: 标题 __showOnList: true __type: "" down: "0" accessPathJs: "" uploadConf: "" } pubdate: { expr: .pages-date:matchText attr: "" js: "" __label: 发布时间 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } source: { expr: .pages-date > span.font:contains(来源) attr: "" js: ''' var xx=source.replace("来源:",''); xx ''' __label: 来源 __showOnList: true __type: "" down: "0" accessPathJs: "" uploadConf: "" } content: { expr: .pages_content attr: "" js: "" __label: 新闻内容 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } } }]
配制和启动抓取器
一个抓取器可以配制抓取多个站点,一个站点也可以配制多个抓取器抓取。
然后点击"开始",则会启动抓取器。
查看和导出数据
可以按照搜索条件进行导出数据。选择"导出"按扭后,还将提示导出哪些数据段,最后导出文件。 如果数据少量,将会导出为excel文件,否则下载的打包之后的zip文件。如下图所示:
本节内容描述到这里,下一篇将讲述如何通过金色数据如何将数据融合到数据表当中去。
(注:本内容是根据培训视频整理而成,https://golddata.100shouhou.com/front/docs)
数据
字段
新闻
内容
来源
选择
多个
数据表
文件
时间
站点
规则
入口
地址
标题
类型
链接
关联
增长
接下来
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
星际蜗牛能当游戏服务器吗
nba球星数据库
物联网数据库的选择
不同数据库的表可以同名吗
2018江苏网络安全竞赛
如何做好数据库销售
mqtt服务器启动不了什么原因
虎年出来是王者服务器崩了吗
应该使用数据库锁还是分布式锁
天府园区网络安全产业园
ns会员开哪个服务器好
忻州软件开发解决方案
2016 网络安全
厦门软件开发公司设计
博山制造业管理软件开发
台州网络安全检查周
如何查询服务器的生产日期
数据库 游标 作用
网上咖啡店数据库
我的世界服务器战桥
梦幻西游手游江山如画服务器
连接到book数据库
数据库限定条件的分组查询
酒店要办网络安全许可证
网络安全应急指挥汇报
乡镇网络安全考核管理办法
网络安全的运维管理
数据库全备份和增量备份区别
网吧电脑显示网络安全为人民
工业园区网络技术转让市场价格