如何使用正则表达式实现网页爬虫
发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,这期内容当中小编将会给大家带来有关如何使用正则表达式实现网页爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。思路:1.为模拟网页爬虫,我们可以现在我们的tomca
千家信息网最后更新 2025年01月31日如何使用正则表达式实现网页爬虫
这期内容当中小编将会给大家带来有关如何使用正则表达式实现网页爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
思路:
1.为模拟网页爬虫,我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤:在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑,编辑内容为:
)
2.使用URL与网页建立联系
3.获取输入流,用于读取网页中的内容
4.建立正则规则,因为这里我们是爬去网页中的邮箱信息,所以建立匹配 邮箱的正则表达式:String regex="\w+@\w+(\.\w+)+";
5.将提取到的数据放到集合中。
代码:
import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/* * 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据 * * */public class RegexDemo { public static void main(String[] args) throws Exception { Listlist=getMailByWeb(); for(String str:list){ System.out.println(str); } } private static List getMailByWeb() throws Exception { //1.与网页建立联系。使用URL String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义 URL url=new URL(path); //2.获取输入流 InputStream is=url.openStream(); //加缓冲 BufferedReader br=new BufferedReader(new InputStreamReader(is)); //3.提取符合邮箱的数据 String regex="\\w+@\\w+(\\.\\w+)+"; //进行匹配 //将正则规则封装成对象 Pattern p=Pattern.compile(regex); //将提取到的数据放到一个集合中 List list=new ArrayList (); String line=null; while((line=br.readLine())!=null){ //匹配器 Matcher m=p.matcher(line); while(m.find()){ //3.将符合规则的数据存储到集合中 list.add(m.group()); } } return list; }}
注意:在执行前需要先开启tomcat服务器
运行结果:
上述就是小编为大家分享的如何使用正则表达式实现网页爬虫了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
网页
正则
数据
爬虫
内容
规则
表达式
目录
邮箱
就是
服务器
分析
服务
联系
输入
专业
中小
互联网
代码
信息
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全存在风险几年评估
分布式数据库切割
数据库对象中不包括
网络安全和运营安全
sql数据库导出一张表
莱芜app软件开发公司电话
腾讯通服务器下载
我的世界无规则自由服务器推荐
核对sci数据库中的数据
服务器防护重要吗
全国优抚信息管理系统服务器地址
眼镜行业软件开发哪个好用
常用的数据库不包括
数据库和系统核心是
实战网络技术丛书
末日方舟手游服务器
客户端主服务器
济南app软件开发怎么样
维护中国网络安全的人
一亿条数据插入数据库面试题
互联网推动科技发展的好处
高可用数据库mysql部署
不动产登记数据库标准
tbc怀旧服装备数据库
安恒软件开发
服务器配置高的单机游戏
姑苏区运营网络技术咨询热线
云服务器登录千牛后台
河北工业大学网络安全学院
底栖生物数据库
- 上一篇
springboot启动报错LifecycleException: Failed to start component NonLoginAuthenticator Standard怎么解决
这篇文章主要介绍"springboot启动报错LifecycleException: Failed to start component NonLoginAuthenticator Standard怎
- 下一篇
vscode设置代码自动换行的方法
这篇文章给大家分享的是有关vscode设置代码自动换行的方法的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。文本超出显示时会溢出,如图:进入文件>首选项>设置,打开设置界面,