基于Docker搭建Hadoop集群之升级版

2016-07-06 08:44:00

摘要: kiwenlau/hadoop-cluster-docker是去年参加Docker巨好玩比赛开发的，得了二等奖并赢了一块苹果手表，目前这个项目已经在GitHub上获得了236个Star，DockerHub的镜像下载次数2000+。总之，项目还算很受欢迎吧，这篇博客将介绍项目的升级版。

一. 项目介绍

将Hadoop打包到Docker镜像中，就可以快速地在单个机器上搭建Hadoop集群，这样可以方便新手测试和学习。

如下图所示，Hadoop的master和slave分别运行在不同的Docker容器中，其中hadoop-master容器中运行NameNode和ResourceManager，hadoop-slave容器中运行DataNode和NodeManager。NameNode和DataNode是Hadoop分布式文件系统HDFS的组件，负责储存输入以及输出数据，而ResourceManager和NodeManager是Hadoop集群资源管理系统YARN的组件，负责CPU和内存资源的调度。

之前的版本使用serf/dnsmasq为Hadoop集群提供DNS服务，由于Docker网络功能更新，现在并不需要了。更新的版本中，使用以下命令为Hadoop集群创建单独的网络:

sudo docker network create --driver=bridge hadoop

然后在运行Hadoop容器时，使用"--net=hadoop"选项，这时所有容器将运行在hadoop网络中，它们可以通过容器名称进行通信。

项目更新要点：

去除serf/dnsmasq
合并Master和Slave镜像
使用kiwenlau/compile-hadoop项目编译的Hadoo进行安装
优化Hadoop配置

二. 3节点Hadoop集群搭建步骤

1. 下载Docker镜像

sudo docker pull kiwenlau/hadoop:1.0

2. 下载GitHub仓库

git clone https://github.com/kiwenlau/hadoop-cluster-docker

3. 创建Hadoop网络

sudo docker network create --driver=bridge hadoop

4. 运行Docker容器

cd hadoop-cluster-docker./start-container.sh

运行结果

start hadoop-master container...start hadoop-slave1 container...start hadoop-slave2 container...root@hadoop-master:~#

启动了3个容器，1个master, 2个slave
运行后就进入了hadoop-master容器的/root目录

5. 启动hadoop

./start-hadoop.sh

6. 运行wordcount

./run-wordcount.sh

运行结果

input file1.txt:Hello Hadoopinput file2.txt:Hello Dockerwordcount output:Docker    1Hadoop    1Hello    2

Hadoop网页管理地址:

NameNode: http://192.168.59.1:50070/
ResourceManager: http://192.168.59.1:8088/

192.168.59.1为运行容器的主机的IP。

三. N节点Hadoop集群搭建步骤

1. 准备

参考第二部分1~3：下载Docker镜像，下载GitHub仓库，以及创建Hadoop网络

2. 重新构建Docker镜像

./resize-cluster.sh 5

可以指定任意N(N>1)

3. 启动Docker容器

./start-container.sh 5

与第2步中的N保持一致。

4. 运行Hadoop

参考第二部分5~6：启动Hadoop，并运行wordcount。

参考

基于Docker搭建多节点Hadoop集群
How to Install Hadoop on Ubuntu 13.10

版权声明
转载时请注明作者KiwenLau以及本文地址：
http://kiwenlau.com/2016/06/12/160612-hadoop-cluster-docker-update/

关键字：docker, hadoop

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：业界 docker hadoop

上一篇 > WWDC 观后感
下一篇 > 市长信箱邮件查询服务: 使用WebSocket实现增量抓取进度进度条的展示

Docker在Win10下的安装和配置

docker从入门到精通-入门篇PDF高清版免费下载

快速掌握dockerfile

如何打造100亿SDK累计覆盖量的大数据系统

Radio Dream流媒体直播平台基于Docker的应用

谈谈Pod在微服务中的运用

sonarqube的docker试用

把好最后一道关，Docker容器测试全探索

1.Hello world in a container

高质量 Node.js 微服务的编写和部署

云的难处——我们为什么需要 CloudEngine？

数人云CTO解读Docker 1.12和金融业容器化

在国内 docker build 的正确姿势

Docker commands和Dockerfile

Mesos大神Tim实录分享 | 解读Mesos 1.0 + 更长久的Mesos Containerier

我也谈谈微服务

Docker 和 Node.js 最佳实践

docker入门概览

第一时间 | 数人云总架构师解读Mesos1.0.0

OneOps: 自动化运维开发的管理平台

Kubernetes成为世界500强数字化转型基础的原因（以及云基础设施管理平台一览表）

记一次网络问题的排查

Docker和容器云落地一年后的反思

代码篇 | Docker1.12+Swarm构建动态微服务应用

应用容器env化实战

Docker Swarm新版本发布对Kubernetes的意义

视频笔记：Docker 特性及其相关工具 - Tom Verelst

Docker Swarm学习笔记

论微服务安全

sqoop学习总结

hadoop2.5.2+ookeeper环境搭建（二）

Docker(1.11.1)命令