由Word Count入门Apache Storm

2016-06-22 08:54:00

Storm是一个分布式流处理框架。

入门

Word count作为分布式的"hello world"，这里由word count引出Storm的topology概念。

问题

有一系列DNS查询，需要统计被查询最多次的域名

从函数式编程的角度来讲，可以把算法归纳为下图

即为
h ( g ( f (data) ) )

转换为Storm topology

概念

Topology：拓扑结构
Spout：spout作为整个拓扑的数据源，一个topology中可能存在多个数据源。上图中即为提供DNS查询的数据源
Bolt： bolt是topology中的基本数据处理单元。上图中，即为f,g,h三个函数。
Tuple: 基本数据单元。例（1.1.1.1， "foo.com"）
Stream: 无止境一串的tuple流 ... (2.2.2.2, “bar.net”)， (3.3.3.3, “foo.com”)， (4.4.4.4, “foo.com”) ...

Stream Grouping 常用分组方式

Shuffle grouping
随机分配tuple给后续节点
Fields grouping
根据定义的fields字段，将相同key值的字段分配给同一后续节点。常用于统计同一key值的数量
All grouping

Storm和Hadoop的区别

Hadoop主要用来处理batch（批处理）数据， Storm主要用来处理Stream（流式）数据。主要区别如下图所示：

big-data

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：业界

上一篇 > 解构C# 游戏框架uFrame兼谈游戏架构设计
下一篇 > 使用 ES2015 开发 Angular1. 应用指南

相关文章

大模型来了，我还用搜索吗？

AI搜索应该显示几条结论？

经营分析是什么？为什么大厂这么重视它

产品经理如何运用逻辑思维解决产品难题

小象超市，可能会成为下一个「美团打车」

做好小红书人群经营必须要了解的底层逻辑

互联网“情感导师”，正掏空年轻人钱包

重新认识PLM|一句话介绍十大主流PLM软件

ERP存货核算篇（二）｜先进先出法

0.53元服务费遭投诉，闲鱼冤吗？

什么是顶级的数据分析方法？

臭豆腐定价营销学（上）

轮到抖音追快手了

深度｜OpenAI Sam Altman 对话 YC 总裁：未来 1 个人+ 1 万块 GPU 就有机会创造年收入数十亿美元公司

这个双11，我们去了李佳琦直播间现场

从产品演进过程猜测AI产品趋势

拐点、创新与周期：再看「双11」新叙事

平等地想创si所有互联网嘴替

互联网增长瓶颈下，解决财务产品职业发展困惑的思考

生物识别技术如何重塑身份认证体验

普通人创业做电商，选品阶段要跨过的五重门

直播养鸵鸟、卖黄牛，这届年轻人流行回村赚钱

一单只挣几块钱，年轻人追捧的代炒是门好生意吗？

如何在竞争激烈的市场中找到产品定位

梁宁：下一个10年，拼的是关怀

用户分析，找到一份完整的攻略

9个快问快答，帮互联网创业个体立即开始

2024年国内外主流低代码平台可视化开发能力评测

小红书发布目前最严格的导流治理规则

为什么刷手机停不下来？来「上瘾模型」分分钟带你了解！

以史为镜，AI时代有哪些发展机遇（2/3）：人工智能当前的发展机遇

为什么互联网时代，你还有信息差？

微信公众账号

微信扫一扫加关注