如何使用JAVA来写个爬虫
发表于:2024-11-19 作者:千家信息网编辑
千家信息网最后更新 2024年11月19日,本篇文章为大家展示了如何使用JAVA来写个爬虫,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。这篇文章其实是我很早之前就写好了的,这次重新整理一下。Java写爬
千家信息网最后更新 2024年11月19日如何使用JAVA来写个爬虫我们的目标是抓取菜鸟笔记上的信息(文章标题和链接 )
本篇文章为大家展示了如何使用JAVA来写个爬虫,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
这篇文章其实是我很早之前就写好了的,这次重新整理一下。Java写爬虫可能很多朋友没有去试过,可能是由于这方面的资料比较少,也可能是Python写爬虫过于的方便。
基本概念
jsoup
is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.
上面是官方给的jsoup官方解释,中文意思是 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
总的来说,就是可以帮我们解析HTML页面,并且可以抓取html里面的内容。
开始写代码
public static void main(String[] args) { try { //下面这行代码是连接我们的目标站点,并且get到他的静态HTML代码 Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get(); //我们把获取到的document打印一下,看看里面到底是啥? System.out.println(document); } catch (IOException e) { e.printStackTrace(); } }
看我们代码运行后的结果:
你会发现我们通过这一句就获得了"菜鸟笔记"这个网站的HTML源码
我们来分析一下这串html源码
发现这两个正是我们所想要得到的数据,我们继续抓取
public static void main(String[] args) { try { Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get(); //底下一行代码是我们进一步抓取到具体的HTML模块,div表示标签, //后面的post-intro表示的是div的class //由于div.post-intro这个标签有多个(每个标题有一个),所以我们先获取到它的所有 Elements elements=document.select("div.post-intro"); //我们来遍历一下,因为div.post-intro有很多个 for(int i=0;i标签。后面的text(),就是获取中的内容 String title=elements.select("a").get(i).text(); //attr是获取里面的属性 String url=elements.select("a").get(i).attr("href"); //分别打印出来 System.out.println(title); System.out.println("http://www.runoob.com/"+url); } } catch (IOException e) { e.printStackTrace(); } }
上述内容就是如何使用JAVA来写个爬虫,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
代码 内容 爬虫 就是 文章 标签 标题 一行 官方 技能 数据 源码 目标 知识 笔记 篇文章 菜鸟 分析 简明 简明扼要 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 服务器ap联接失败啥原因 网络技术公司简介范文 北京聚峰网络技术发展 十八大保电网络安全 简介数据库技术BI 上海互联网络技术服务诚信服务 测试在软件开发什么过程开始 软件开发项目统计 深圳云深互联网科技有限公司 front怎么连接数据库 dell服务器换硬盘 软件开发活动如何申请专利 软件开发营收 英特尔服务器主板 剑网1服务器人数过多 石家庄广尚网络技术 泉州网络安全工程师人才缺口大 php服务器怎么管理 服务器密码四川移动 武汉网络安全技术培训工资高 剑灵服务器架设位置 cec网络安全创新大牌 数据库怎么查看表分区 多级菜单 数据库 创美软件开发 网络安全联接方案 sql多个数据库 多串口服务器扫描的速度 花生壳搭建邮件服务器 深圳鸿湾软件开发有限公司