如何实现generate.max.count的参数处理
发表于:2025-01-24 作者:千家信息网编辑
千家信息网最后更新 2025年01月24日,本篇文章为大家展示了如何实现generate.max.count的参数处理,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。对generate.max.count
千家信息网最后更新 2025年01月24日如何实现generate.max.count的参数处理
本篇文章为大家展示了如何实现generate.max.count的参数处理,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
对generate.max.count参数的处理在org.apache.nutch.crawl.Generator内部类Selector中
org.apache.nutch.crawl.Generator中相关变量声明情况
private HashMaphostCounts = new HashMap ();private int maxCount;
内部类Selector的config方法中
maxCount = job.getInt(GENERATOR_MAX_COUNT, -1);
reduce方法中的处理
/***1、获取 某一主机下的int[] ,如果为null,声明一个数组,放入map中,int数组第2个值+1;*///1int[] hostCount = hostCounts.get(hostordomain);if (hostCount == null) { hostCount = new int[] { 1, 0 }; hostCounts.put(hostordomain, hostCount);}hostCount[1]++;// increment hostCount//2、检查是否到了topN的数量,如果hostCount的第一个值大于limit// check if topN reached, select next segment if it iswhile (segCounts[hostCount[0] - 1] >= limit//segCounts : && hostCount[0] < maxNumSegments) { hostCount[0]++; hostCount[1] = 0;}// reached the limit of allowed URLs per host / domain// see if we can put it in the next segment?if (hostCount[1] >= maxCount) { if (hostCount[0] < maxNumSegments) { hostCount[0]++; hostCount[1] = 0; } else { if (hostCount[1] == maxCount + 1 && LOG.isInfoEnabled()) { LOG.info("Host or domain " + hostordomain + " has more than " + maxCount + " URLs for all " + maxNumSegments + " segments. Additional URLs won't be included in the fetchlist."); } // skip this entry continue; }}entry.segnum = new IntWritable(hostCount[0]);segCounts[hostCount[0] - 1]++;
上述内容就是如何实现generate.max.count的参数处理,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
处理
参数
内容
技能
数组
方法
知识
简明
简明扼要
主机
变量
就是
情况
数量
文章
更多
篇文章
行业
资讯
资讯频道
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
研究生嵌入式软件开发待遇
现有网络技术与设备调研
服务器返回代码300
万网的云服务器
查看目标网站的服务器类型
网络技术可以拓展哪些行业
慧享网络技术有限公司
松江区银联数据库服务商报价行情
读秀数据库的优点
江西省百万网名学法律网络安全法
wps中怎么找出差异数据库
项目 数据库 表之间的关系
t6版本号数据库
学软件开发去当兵
软件开发搞不定怎么办
打开核磁数据库
数据库技术三级内容
韶关市内货运软件开发
秘密世界手机版如何创建服务器
s2b2c商城软件开发的细节
浙江橙树网络技术
陕西防控码服务器异常
松江区银联数据库服务商报价行情
物理存储数据的数据库
读秀数据库的优点
普华永道软件开发好吗
手机如何连接云服务器
602网络安全教育班队
国家网络安全宣传周线上开幕式
七日杀linux服务器