GoldData学习实例-采集官网新闻数据
发表于:2025-02-23 作者:千家信息网编辑
千家信息网最后更新 2025年02月23日,概述在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。news_site(新闻来源)字段类型说明idbigint主键,自动增长nameva
千家信息网最后更新 2025年02月23日GoldData学习实例-采集官网新闻数据
概述
在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。
news_site(新闻来源)
字段 | 类型 | 说明 |
---|---|---|
id | bigint | 主键,自动增长 |
name | varchar(128) | 来源名称 |
news(新闻)
字段 | 类型 | 说明 |
---|---|---|
id | bigint | 主键,自动增长 |
title | varchar(128) | 标题 |
site_id | bigint | 外键,指向表news_site的id字段 |
content | text | 内容 |
pub_date | datetime | 发布时间 |
date_created | datetime | 加入时间 |
我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将再此一一介绍。
定义站点、数据集
定义抓取和抽取规则
在这里我们需要填入口地址。入口地址如果有多个,那么要以英文逗号相隔。如下图所示:
接下来我们编写规则时,首先是匹配URL,这里需要填写正则表达式。旁边的"?"号,点击后就会弹出相应的帮助文档。如下图所示:
然后数据集选择则我们要注意,如果抓取的仅需要的是链接,那么是否数据集选择否,且数据集字段必须要有一个名为href的字段。如下图所示:
否则是否数据集应该选择是,且数据集字段必须要有一个名为sn的字段。sn字段存放的数据一般是唯一值,相当于数据表里的id字段。如下图所示:
完整的规则内容显示如下:
[ { __sample: http://sousuo.gov.cn/column/40520/0.htm match0: http\:\/\/sousuo\.gov\.cn\/column\/40520/\d+\.htm fields0: { __model: false __node: .news_box a href: { expr: a attr: abs:href js: "" __label: 链接 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } } } { __sample: http://www.gov.cn/xinwen/2019-02/26/content_5368539.htm match0: http\:\/\/www\.gov\.cn/xinwen/2019-\d{2}/\d{2}/content_\d+.htm fields0: { __model: true __dataset: news __node: ".article " sn: { expr: "" attr: "" js: ''' var xx=md5(baseUri) xx ''' __label: 编号 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } title: { expr: .article >h2 attr: "" js: "" __label: 标题 __showOnList: true __type: "" down: "0" accessPathJs: "" uploadConf: "" } pubdate: { expr: .pages-date:matchText attr: "" js: "" __label: 发布时间 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } source: { expr: .pages-date > span.font:contains(来源) attr: "" js: ''' var xx=source.replace("来源:",''); xx ''' __label: 来源 __showOnList: true __type: "" down: "0" accessPathJs: "" uploadConf: "" } content: { expr: .pages_content attr: "" js: "" __label: 新闻内容 __showOnList: false __type: "" down: "0" accessPathJs: "" uploadConf: "" } } }]
配制和启动抓取器
一个抓取器可以配制抓取多个站点,一个站点也可以配制多个抓取器抓取。
然后点击"开始",则会启动抓取器。
查看和导出数据
可以按照搜索条件进行导出数据。选择"导出"按扭后,还将提示导出哪些数据段,最后导出文件。 如果数据少量,将会导出为excel文件,否则下载的打包之后的zip文件。如下图所示:
本节内容描述到这里,下一篇将讲述如何通过金色数据如何将数据融合到数据表当中去。
(注:本内容是根据培训视频整理而成,https://golddata.100shouhou.com/front/docs)
数据
字段
新闻
内容
来源
选择
多个
数据表
文件
时间
站点
规则
入口
地址
标题
类型
链接
关联
增长
接下来
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
ctf网络安全大赛文件上传
零基础软件开发工作
村游网络技术有限公司电话
大学生软件开发团队简介
下列数据库不能进行备份的是
博客文章保存到数据库
网络安全组件是什么意思
fl数据库
数据库的安全特性指
凌源软件开发文档
什么是数据库的主键和候选码
通用云服务器
社会调查数据库都有哪些
zinc数据库介绍
mcpe服务器注册
企业如何开展网络安全教育
数据库表空间自增加
vip线路服务器验证怎么破解
电脑带网络安全模式不能联网
服务器安全日志清理软件
广州计算机网络技术职业学校
你的网络安全意识强不强
博山办公oa软件开发公司
unity本地数据库保存对象
我的世界服务器地狱门猪人
数据库系统的安全措施
数据库如何设置字段的标题
黑莓9900网络技术
动易数据库配置文件是哪个
数据库视图和中表