为什么不能用Nutch编写分布式爬虫
发表于:2024-11-19 作者:千家信息网编辑
千家信息网最后更新 2024年11月19日,本篇内容介绍了"为什么不能用Nutch编写分布式爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1
千家信息网最后更新 2024年11月19日为什么不能用Nutch编写分布式爬虫
本篇内容介绍了"为什么不能用Nutch编写分布式爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1、Nutch依靠hadoop运行,hadoop本身就会花费大量的时间。
若集群机数量较少,爬行速度反而不如单机爬虫快。
2、Nutch是为搜索引擎设计的爬虫,不精确。
大多数用户需要一个爬虫来爬取准确的数据(提取精确)。在Nutch运行的一整套过程中,三分之二是为搜索引擎设计的,对精选没有多大意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。并且,通过二次开发Nutch,使其适用于精选业务,基本上破坏Nutch的框架,使Nutch的脸完全不同,具有修正Nutch的能力,与其自己重写分布式爬虫框架相比。
3、Nutch可以提供提取功能。
但开发Nutch插件的人都知道Nutch插件系统有多糟糕。使用反射机制装入和调用插件,使程序的编写和调试变得非常困难,更别提在上面开发一套复杂的精提取系统了。
4、用Nutch爬虫的编写和调试所需的时间长
通常是单机爬虫的十倍以上。学习Nutch源代码的成本很高,在调试过程中会出现各种问题,除了程序本身。
"为什么不能用Nutch编写分布式爬虫"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
爬虫
分布式
插件
时间
过程
开发
精确
内容
单机
引擎
搜索引擎
数据
更多
框架
知识
程序
系统
学习
搜索
设计
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发去深圳还是南京工作
昭衫网络技术
安卓手机怎么连接电脑数据库
阿里网络安全吴翰清年薪
服务器轨道
华为网络安全运营官
美信网络技术公司举报
添加时间服务器
查询长沙学软件开发的学校
中国与郑州网络安全
avast 服务器版
6G网络技术研发
三级网络技术题库激活码
文件共享服务器的安全防范
网络技术员称呼
北京定制网络技术服务机构
数据库主外键适用场景
手游工作室一般租什么服务器
怎么把本地文件用数据库保存
数据库所有范式证明过程
投屏器自带网络安全吗
c 文件服务器
支持8张显卡的服务器
如何竞选网络安全部
数据库连接本地配置
软件开发管理平台git
udal数据库和es的区别
防电信网络安全教案
北航网络安全学院夏令营
软件开发工作任务描述