怎么在Java中利用正则表达式获取网页内容
发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,这篇文章将为大家详细讲解有关怎么在Java中利用正则表达式获取网页内容,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。正则表达式,抓取网页并解析HTML
千家信息网最后更新 2025年01月23日怎么在Java中利用正则表达式获取网页内容
这篇文章将为大家详细讲解有关怎么在Java中利用正则表达式获取网页内容,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
正则表达式,抓取网页并解析HTML部分内容
package com.xiaofeng.picup;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;/** *//**** @抓取页面文章标题及内容(测试) 手动输入网址抓取,可进一步自动抓取整个页面的全部内容**/public class WebContent ...{ /** *//** * 读取一个网页全部内容 */ public String getOneHtml(String htmlurl) throws IOException...{ URL url; String temp; StringBuffer sb = new StringBuffer(); try ...{ url = new URL(htmlurl); BufferedReader in = new BufferedReader(new InputStreamReader(url .openStream(), "utf-8"));// 读取网页全部内容 while ((temp = in.readLine()) != null) ...{ sb.append(temp); } in.close(); }catch(MalformedURLException me)...{ System.out.println("你输入的URL格式有问题!请仔细输入"); me.getMessage(); throw me; }catch (IOException e) ...{ e.printStackTrace(); throw e; } return sb.toString(); } /** *//** * * @param s * @return 获得网页标题 */ public String getTitle(String s) ...{ String regex; String title = ""; Listlist = new ArrayList (); regex = " .*? "; Pattern pa = Pattern.compile(regex, Pattern.CANON_EQ); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } for (int i = 0; i < list.size(); i++) ...{ title = title + list.get(i); } return outTag(title); } /** *//** * * @param s * @return 获得链接 */ public ListgetLink(String s) ...{ String regex; List list = new ArrayList (); regex = "]*href=("([^"]*)"|'([^']*)'|([^s>]*))[^>]*>(.*?)"; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 获得脚本代码 */ public List getScript(String s) ...{ String regex; List list = new ArrayList (); regex = " "; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 获得CSS */ public List getCSS(String s) ...{ String regex; List list = new ArrayList (); regex = " "; Pattern pa = Pattern.compile(regex, Pattern.DOTALL); Matcher ma = pa.matcher(s); while (ma.find()) ...{ list.add(ma.group()); } return list; } /** *//** * * @param s * @return 去掉标记 */ public String outTag(String s) ...{ return s.replaceAll("<.*?>", ""); }
关于怎么在Java中利用正则表达式获取网页内容就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
内容
网页
正则
表达式
文章
输入
更多
标题
知识
篇文章
页面
不错
代码
手动
标记
格式
网址
脚本
质量
部分
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
违反网络安全法 通知
学软件开发都要学什么
软著的软件开发工具
猎人919人软件开发
如何数据库管理
甘肃电力时钟同步服务器
智联招聘网络安全吗
软件开发高端人才上班
服务器虚拟化技术有什么用
网络技术的发展未来
软件开发商需要什么
如何修改dz数据库密码
中国网络安全教育平台登录
怎么找代理服务器
数据库服务名有误
linux 数据库建立
java中删除数据库数据
怎么看明星数据库
远程取sql数据库
重庆综合软件开发流程标志
网络安全手稿
学联数据库
应用技术和网络技术有啥区别
网络安全宣传工作亮点汇报
增量抓取数据库
如何培养网络技术的大学生
数据库字符转换函数str
一年级网络安全标语大全
永州软件开发团队
第一页网络技术支持