如何使用正则表达式实现网页爬虫
发表于:2024-11-29 作者:千家信息网编辑
千家信息网最后更新 2024年11月29日,这期内容当中小编将会给大家带来有关如何使用正则表达式实现网页爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。思路:1.为模拟网页爬虫,我们可以现在我们的tomca
千家信息网最后更新 2024年11月29日如何使用正则表达式实现网页爬虫
这期内容当中小编将会给大家带来有关如何使用正则表达式实现网页爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
思路:
1.为模拟网页爬虫,我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤:在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑,编辑内容为:
)
2.使用URL与网页建立联系
3.获取输入流,用于读取网页中的内容
4.建立正则规则,因为这里我们是爬去网页中的邮箱信息,所以建立匹配 邮箱的正则表达式:String regex="\w+@\w+(\.\w+)+";
5.将提取到的数据放到集合中。
代码:
import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/* * 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据 * * */public class RegexDemo { public static void main(String[] args) throws Exception { Listlist=getMailByWeb(); for(String str:list){ System.out.println(str); } } private static List getMailByWeb() throws Exception { //1.与网页建立联系。使用URL String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义 URL url=new URL(path); //2.获取输入流 InputStream is=url.openStream(); //加缓冲 BufferedReader br=new BufferedReader(new InputStreamReader(is)); //3.提取符合邮箱的数据 String regex="\\w+@\\w+(\\.\\w+)+"; //进行匹配 //将正则规则封装成对象 Pattern p=Pattern.compile(regex); //将提取到的数据放到一个集合中 List list=new ArrayList (); String line=null; while((line=br.readLine())!=null){ //匹配器 Matcher m=p.matcher(line); while(m.find()){ //3.将符合规则的数据存储到集合中 list.add(m.group()); } } return list; }}
注意:在执行前需要先开启tomcat服务器
运行结果:
上述就是小编为大家分享的如何使用正则表达式实现网页爬虫了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
网页
正则
数据
爬虫
内容
规则
表达式
目录
邮箱
就是
服务器
分析
服务
联系
输入
专业
中小
互联网
代码
信息
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发供应与成本
数据库系统的五部分组成
mysql误删数据库恢复
网络安全与攻防试题及答案
服务器连接器
从数据库表里读取记录的语句是
软件开发学习要求
清如许在哪个服务器
华为服务器维修费
NCRE网络技术拥有量
数据库设计的规划阶段
软件开发企业资质要求
国家一流网络安全学院排名
红色警戒电脑版哪个服务器好
nite软件开发
数据库名怎么填写
传感器数据库 工艺优化
oa办公系统服务器规模
网络安全隐患电台版
常州微型软件开发价格优惠
针对期货的数据库
网络安全读研学费
安卓软件开发商有哪些
单核最强的服务器cpu
唯荣阁网络技术工作室
宁波网络安全准入控制系统售价
重庆云服务器托管虚拟主机
省市区数据库
集群服务器解决方案
上海智能软件开发质量保障
- 上一篇
springboot启动报错LifecycleException: Failed to start component NonLoginAuthenticator Standard怎么解决
这篇文章主要介绍"springboot启动报错LifecycleException: Failed to start component NonLoginAuthenticator Standard怎
- 下一篇
vscode设置代码自动换行的方法
这篇文章给大家分享的是有关vscode设置代码自动换行的方法的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。文本超出显示时会溢出,如图:进入文件>首选项>设置,打开设置界面,