spark

新手入门:Spark部署实战入门

Spark简介整体认识Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark在整个大数据系统中处于中间偏上层的地位,如下图,对hadoop起到了补充作用: 基本概念Fork/Join框架是Java7提供了的一个用于并行执行任务的框架, 是一

使用Zeppelin来实现大数据分析的可视化

Apache Zeppelin是ASF的一个孵化项目,实现了基于web的在线代码编辑与数据可视化。有点类似Spark-Shell的REPL。其结果可以直接用图表来展示,解决了前端白痴的苦逼。Zeppelin官网我们可以直接下载 zeppelin-0.5.6-incubating-bin-all.tgz ,然后部署到服务器上,个人感觉部署到Spark Master节点上会更好

spark 优化套路

spark整个api上手较为简单,scala表达起来比较顺畅,java根据spark官方文档,理解scala的几个特性即可。spark离线处理优化目的减少无效操作,io cpu的有效利用,直接查优化技巧,不如先搞明白spark处理过程。明白以下再对应代码可以解决很多问题。DAG图对应代码 明白过程stages tasks对应实现层shuff过程,如何减少shuff,必须sh

Spark 在 Windows 下的环境搭建

由于Spark是用Scala来写的,所以Spark对Scala肯定是原生态支持的,因此这里以Scala为主来介绍Spark环境的搭建,主要包括四个步骤,分别是:JDK的安装,Scala的安装,Spark的安装,Hadoop的下载和配置。为了突出"From Scratch"的特点(都是标题没选好的缘故),所以下面的步骤稍显有些啰嗦,老司机大可不必阅读,直接跳过就好。   一.