如何使用正则表达式实现网页爬虫
发表于:2024-11-29 作者:千家信息网编辑
千家信息网最后更新 2024年11月29日,这期内容当中小编将会给大家带来有关如何使用正则表达式实现网页爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。思路:1.为模拟网页爬虫,我们可以现在我们的tomca
千家信息网最后更新 2024年11月29日如何使用正则表达式实现网页爬虫
这期内容当中小编将会给大家带来有关如何使用正则表达式实现网页爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
思路:
1.为模拟网页爬虫,我们可以现在我们的tomcat服务器端部署一个1.html网页。(部署的步骤:在tomcat目录的webapps目录的ROOTS目录下新建一个1.html。使用notepad++进行编辑,编辑内容为:
)
2.使用URL与网页建立联系
3.获取输入流,用于读取网页中的内容
4.建立正则规则,因为这里我们是爬去网页中的邮箱信息,所以建立匹配 邮箱的正则表达式:String regex="\w+@\w+(\.\w+)+";
5.将提取到的数据放到集合中。
代码:
import java.io.BufferedReader;import java.io.InputStream;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/* * 网页爬虫:就是一个程序用于在互联网中获取指定规则的数据 * * */public class RegexDemo { public static void main(String[] args) throws Exception { Listlist=getMailByWeb(); for(String str:list){ System.out.println(str); } } private static List getMailByWeb() throws Exception { //1.与网页建立联系。使用URL String path="http://localhost:8080//1.html";//后面写双斜杠是用于转义 URL url=new URL(path); //2.获取输入流 InputStream is=url.openStream(); //加缓冲 BufferedReader br=new BufferedReader(new InputStreamReader(is)); //3.提取符合邮箱的数据 String regex="\\w+@\\w+(\\.\\w+)+"; //进行匹配 //将正则规则封装成对象 Pattern p=Pattern.compile(regex); //将提取到的数据放到一个集合中 List list=new ArrayList (); String line=null; while((line=br.readLine())!=null){ //匹配器 Matcher m=p.matcher(line); while(m.find()){ //3.将符合规则的数据存储到集合中 list.add(m.group()); } } return list; }}
注意:在执行前需要先开启tomcat服务器
运行结果:
上述就是小编为大家分享的如何使用正则表达式实现网页爬虫了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
网页
正则
数据
爬虫
内容
规则
表达式
目录
邮箱
就是
服务器
分析
服务
联系
输入
专业
中小
互联网
代码
信息
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
沈阳程软件开发
数字巷道数据库
软件测试笔试题数据库查询
软件开发开票大类选哪个
软件开发技术的提升空间
模块化软件开发方法和准则
电信的网络技术工程师是干嘛的
服务器认证系统算法
任之行在中国网络安全行业占有率
工程构件计算软件开发
石景山区咨询软件开发概况
上海服务器散热风扇供应商
电视台网络安全事件应急预案方案
抖音俗话直播的恐龙那个服务器
读软件开发有前景
重庆网络技术方面怎么样
服务器添加开机启动依赖
修改服务器账户的密码
网络安全法七十五条案例
杭州鲲鹏服务器批发
美国 数据库 证书
金融软件开发是干嘛的
备忘录软件开发源码
软件开发方法分几大类
选哪个服务器最好
成都市信息网络安全专业
简单好用的数据库
关于网络安全知识英文
从事软件开发的公司介绍
中经名气网络技术有限公司
- 上一篇
springboot启动报错LifecycleException: Failed to start component NonLoginAuthenticator Standard怎么解决
这篇文章主要介绍"springboot启动报错LifecycleException: Failed to start component NonLoginAuthenticator Standard怎
- 下一篇
vscode设置代码自动换行的方法
这篇文章给大家分享的是有关vscode设置代码自动换行的方法的内容。小编觉得挺实用的,因此分享给大家做个参考。一起跟随小编过来看看吧。文本超出显示时会溢出,如图:进入文件>首选项>设置,打开设置界面,