怎么用Storm IPResolutionBolt写爬虫
发表于:2025-02-07 作者:千家信息网编辑
千家信息网最后更新 2025年02月07日,本篇内容介绍了"怎么用Storm IPResolutionBolt写爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅
千家信息网最后更新 2025年02月07日怎么用Storm IPResolutionBolt写爬虫
本篇内容介绍了"怎么用Storm IPResolutionBolt写爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
package com.digitalpebble.storm.crawler.bolt;import java.net.InetAddress;import java.net.MalformedURLException;import java.net.URL;import java.util.HashMap;import java.util.Map;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import backtype.storm.task.OutputCollector;import backtype.storm.task.TopologyContext;import backtype.storm.topology.OutputFieldsDeclarer;import backtype.storm.topology.base.BaseRichBolt;import backtype.storm.tuple.Fields;import backtype.storm.tuple.Tuple;import backtype.storm.tuple.Values;public class IPResolutionBolt extends BaseRichBolt { public static final Logger LOG = LoggerFactory .getLogger(IPResolutionBolt.class); OutputCollector _collector; @SuppressWarnings("unchecked") public void execute(Tuple tuple) { String url = tuple.getStringByField("url"); HashMapmetadata = null; //在这里判断我们的tuple是否包含着Meradata if (tuple.contains("metadata")) metadata = (HashMap ) tuple .getValueByField("metadata"); //这里的Metadata是一个HashMap,持有的是一个 的对象组合 String ip = null; String host = ""; URL u; try { u = new URL(url); host = u.getHost(); } catch (MalformedURLException e1) { LOG.warn("Invalid URL: " + url); // ack it so that it doesn't get replayed _collector.ack(tuple); return; } try { long start = System.currentTimeMillis(); final InetAddress addr = InetAddress.getByName(host); ip = addr.getHostAddress(); long end = System.currentTimeMillis(); LOG.info("IP for: " + host + " > " + ip + " in " + (end - start) + " msec"); //在这里我们发射 url,ip,metadata 并且针对tuple做一个Ack _collector.emit(tuple, new Values(url, ip, metadata)); _collector.ack(tuple); } catch (final Exception e) { LOG.warn("Unable to resolve IP for: " + host); _collector.fail(tuple); } } public void declareOutputFields(OutputFieldsDeclarer declarer) { declarer.declare(new Fields("url", "ip", "metadata")); } public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) { _collector = collector; }}
在这里我们需要关注, declareOutputFields在设定我们的Tuple records对象的时候,是传递的"url","ip","metadata", 而不是一个封装好的对象。
一旦我们传递的records的数量比较多。那么请宁务必将传递的值设置为对象。并且在接受方,getValues(0)的方式取得。
"怎么用Storm IPResolutionBolt写爬虫"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
对象
爬虫
内容
更多
知识
实用
学有所成
接下来
有的是
困境
实际
情况
接受方
数量
文章
方式
时候
案例
编带
网站
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
玩手机游戏需要服务器吗
飞行安全精准数据库需不需要更新
浙江通用软件开发市场报价
学软件开发一般需要科目
数据库返回码180
用c 桌面小软件开发
二手ibm服务器视频
dns服务器的检测方式
上海服务器防火墙多少钱
互联网大会科技成果发布会
数据库工程师考前串讲
软件开发人员实习期
数据库技术及应用思政
山西信息化软件开发检测中心
监护人哪方面网络安全
网络技术培训讲师前途
网站多个服务器
网络安全决策制度
数据库有没有界面化
四川省大学生网络安全技术大赛
招聘 嵌入式软件开发
手机代理服务器开热点
潮州无线软件开发厂家直销
nfs web文件服务器
影院订票系统数据库
服务器硬件监测软件
网络安全中爆破的意思
温哥华软件开发工程师
400 数据库
谷歌云服务器外网