离线

spark 优化套路

spark整个api上手较为简单,scala表达起来比较顺畅,java根据spark官方文档,理解scala的几个特性即可。spark离线处理优化目的减少无效操作,io cpu的有效利用,直接查优化技巧,不如先搞明白spark处理过程。明白以下再对应代码可以解决很多问题。DAG图对应代码 明白过程stages tasks对应实现层shuff过程,如何减少shuff,必须sh