Java如何实现爬虫
发表于:2025-01-19 作者:千家信息网编辑
千家信息网最后更新 2025年01月19日,这篇文章主要介绍了Java如何实现爬虫,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、代码爬虫的实质就是打开网页源代码进行匹配查找,
千家信息网最后更新 2025年01月19日Java如何实现爬虫
这篇文章主要介绍了Java如何实现爬虫,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
一、代码
爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。
打开网页:
URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html");
读取网页内容:
BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream()));
正则表达式进行匹配:
tring mail_regex = "\\w+@\\w+(\\.\\w+)+";
储存结果:
Listlist = new ArrayList ();
/*
* 获取
* 将正则规则进行对象的封装。
* Pattern p = Pattern.compile("a*b");
* //通过正则对象的matcher方法字符串相关联。获取要对字符串操作的匹配器对象Matcher .
* Matcher m = p.matcher("aaaaab");
* //通过Matcher匹配器对象的方法对字符串进行操作。
* boolean b = m.matches();
*/
import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.URL;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern; public class Spider { public static void main(String[] args) throws IOException {// Listlist = getMails();// for(String mail : list){// System.out.println(mail);// } List list = getMailsByWeb(); for(String mail : list){ System.out.println(mail); } } public static List getMailsByWeb() throws IOException{ //1,读取源文件。 //URL url = new URL("http://192.168.1.100:8080/myweb/mail.html"); //URL url = new URL("http://localhost:8080/SecondWeb/index.jsp"); URL url = new URL("http://www.cnblogs.com/Renyi-Fan/p/6896901.html"); BufferedReader bufr = new BufferedReader(new InputStreamReader(url.openStream())); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List list = new ArrayList (); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; } public static List getMails() throws IOException{ //1,读取源文件。 BufferedReader bufr = new BufferedReader(new FileReader("c:\\mail.html")); //2,对读取的数据进行规则的匹配。从中获取符合规则的数据. String mail_regex = "\\w+@\\w+(\\.\\w+)+"; List list = new ArrayList (); Pattern p = Pattern.compile(mail_regex); String line = null; while((line=bufr.readLine())!=null){ Matcher m = p.matcher(line); while(m.find()){ //3,将符合规则的数据存储到集合中。 list.add(m.group()); } } return list; }}
二、运行结果
abc1@sina.com.cn1@1.1
感谢你能够认真阅读完这篇文章,希望小编分享的"Java如何实现爬虫"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!
规则
数据
对象
篇文章
爬虫
字符
字符串
正则
结果
网页
从中
方法
源文件
存储
代码
价值
兴趣
内容
同时
实质
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
互联网科技最新资讯
流放兽腹数据库
我的世界服务器攻击
泰拉瑞亚服务器插件翻译
铁路网络安全保障体系
易语言表格数据库
数据库表 主键重复
联想服务器硬盘盒亮黄灯
怀旧服开放战场哪个服务器好
mysql 自带数据库删了
gta连不上服务器
教师应该如何做好网络安全工作
杭州佳锦网络技术有限公司
正规的软件开发公司哪家好
嘉定区网络技术开发
erp服务器地址
河北人社内部服务器出错
u8服务器ip在哪看
成都网络安全工程师
网络安全学习美篇小学
wow与服务器断开连接
共享数据库英语翻译
江苏 软件开发
国开数据库应用技术自测答案
数据库安全环境
服务器怎么开放端口安全
残疾人软件开发
最新小白数据库
服务器三种管理
重庆口碑好的软件开发具体地址