Datatist CMO 董飞：硅谷公司的大数据运营实践...

2017-03-31 10:21:00

以下是由数据猿精编整理发布的 Datatist CMO董飞的精彩分享：

我是Datatist（画龙科技）的CMO董飞，首先做一个自我介绍，我毕业于南开大学，曾经在北京工作过几年。在2010年，我来到美国杜克大学读了硕士，毕业以后留在硅谷工作，一开始是在亚马逊做云计算的平台，然后去了Coursera，他们是一家做在线教育的平台，之后又在LinkedIn从事大数据架构工作。去年9月，我回国来到了上海。

我们公司的中文名是上海画龙信息科技，提到“画龙”大家也许就会想到“画龙点睛”，我们也希望我们公司的运营可以起到画龙点睛之笔。

下面进入演讲正题：

硅谷公司排名

我认为，如果把公司按规模大小来区分的话，可以分为四类：

第一类，员工数量超过10万人以上的公司；

第二类，上市企业，员工数大概在5000~50000人左右；

第三类，预备IPO公司，员工数大概1000~5000人；

第四类，员工数大概在100~500人不等。

给大家看一些典型的公司，比如说苹果、微软、英特尔、Oracle，这些公司到目前为止也发展了40多年了，属于第一类里面。

这四家公司成立的时间都是很有特点的，他们的创始人，像乔布斯、比尔盖茨，都是同一年出生的，因此，可以说年龄跟时代的机遇是绑定在一起的。

再来看第二类公司，有谷歌、Facebook、Nvidia以及Salesforce，可能大家对于后面两个公司比较陌生。Nvidia是做显卡的，现在市值已经超过了100亿美金。可以说它也算是抓住了人工智能的风口，把GPU应用到了人工智能“三架马车”的应用当中。

而Salesforce则是做2B领域的。在国内，大家都说2B的风口来了，我个人觉得这里面的发展机会的确非常大，简单来说，Salesforce就是做SaaS版的CRM的。

接下来是Uber、Airbnb、Cloudera、Palantir。像Palantir这家公司，它是大数据领域的一个潜入者，它最新的估值已经超过了1000亿美金。其低调的原因是因为它做的是政府、金融机构的生意，所以，在隐私、技术方面会刻意保持低调，我也很少见到他们会做技术宣传的工作。Cloudera，这家公司已经成立了7、8年了，最近申请了IPO。希望它能够取得成功。

第四类的公司就有很多了，像Houzz，它的谐音是房屋的意思，它通过用户上传一些家具的照片，然后做电商的推荐工作；Stripe是做支付领域的，估值也在50亿美金以上；Wish是做跨境电商的，他的创始人也是华人，主要是跟沃尔玛和亚马逊抢生意。

这是《华尔街日报》的排名。Airbnb最近刚刚获到了33亿美元的融资，目前的估值已经达到了310亿美金。这份榜单的第一名是Uber、第二名是小米、第三名是滴滴出行、紧接着是Airbnb、Palantir，以及陆金所。在这个榜单上，中国也算是大展拳脚，前几名有多家都是中国企业。

新兴科技技术未来发展趋势

下面给大家看一张新兴科技技术最新的趋势图：

有一家市场调研公司叫Gartner，这就是他们发布的截止到2015年7月，最新的一个技术走向图。首先，可以看一下这个曲线，从一开始的井喷、爆发，然后到达一个顶点，经历一些泡沫破灭，再后面就步入成熟期了。

最最前沿的技术有哪些？智能微尘，就是把传感器做成像空气微粒那么小，然后是4D打印、通用机器智能以及情境代理。而目前又有哪些技术比较火呢？区块链、认知专业顾问、机器智能、软件定义安全、自动驾驶汽车，同时这些也是从去年到今年，国内最热门的几个话题了。后面还有一些，像自然语言问答系统、增强现实、虚拟现实，这些应该是全球技术发展的前沿。现在机器学习是最热的，其实也算是一个顶点，但它会不会变成一个泡沫呢？其实很多人也在讨论这个问题。

大数据架构

接下来进入第三部分，大数据架构。

这是一张截止到今年三月份的大数据公司分布图，到底是在基础架构层、分析层还是应用层，从上到下都可以找到自己的定位。

我今天想简单的给大家普及一些大数据技术的知识。刚才提到了“三架马车”，刚好也埋下了一个伏笔，“三驾马车”最开始是讲谷歌的，讲的是谷歌在业界大数据的领导地位，但是很可惜的是，谷歌并没有开源。很多业界的小伙伴们就开始研究，特别是雅虎这边有很多的工程师，也包括一些团队去做了类似的系统，这就是Hadoop的起源。现在的谷歌早就淘汰了第一代系统，已经到了第二代、第三代系统。

大家可能会觉得谷歌在业界至少领先了5年吧！它现在内部开发的那些系统，跟我们外部的开源还是不太一样。但是，毕竟开源也促进了信息的交流。我个人认为，可能也只是领先了一年（至少是在开源版本当中）。

Apache是一个很有生机的生态系统，这里面就会涉及到很多工具类的知识。他们搞了一个开源组，里面有形形色色，各种各样的Logo，有很多像动物似的，有河马、猪、蜜蜂跟大象的结合体，每个开源项目都有一个代号。

如果要做一个大数据的系统，这些数据平台里所需要的组件，大致都会涉及到数据存储、数据清洗，以及数据的管道跟加工的一些过程。

后面也有一系列的流程，包括数据如何分区、建立模型。其实建立模型这一块，说得简单一点，就是要把数据给规范化，变成数据库里的一些结构。把一些非结构化的，原始的类型变成一些结构化的，使其可以存储在数据库里。

在大数据的架构当中有一个算是硅谷比较流行的框架，叫Kafka，大家要关注一下。

通过上图可以看到，下面主要显示的是响应的时间，我们处理这个数据也有一定的要求。我举个例子，比如说支付宝，你付账之后必须立即确认，这个钱我有没有发出去，有没有账单。但对于微信朋友圈而言，你发了一个朋友圈之后，可以允许有几秒钟的更新时间，即使不能立刻看到也可以忍受。人们在不同的场景中对数据延迟的要求是不一样的，为了适应不同的需求，它也有不同架构的选型。

除了Hadoop之外，还有一些新兴的选型，在这里也是给大家抛砖引玉，比如说在框架里，还有实时计算的框架。

在平台级有一家是属于亚马逊旗下的，右边这张图是它基础的架构图。基本上可以通过这个架构，一方面更好的进行拓展，另外还可以做到非常快速的访问。

下面简单介绍一下Spark，它来源于Flexible实验室，这个实验室叫IMP。强调的是，它的速度是最快的，据说是Hadoop的100倍。右边的图想要说明的是如果通过Hadoop来做，需要100秒做一次迭代，但如果用Spark来做，除了第一次的磁盘读取以外，以后的迭代一次只要1秒以内。它内存的访问速度可以说高出了一个数量级。所以，本身就有一个很好的硬件基础，第一次要把数据从磁盘上读出来，这个时间是少不了的。不仅可以做到批量处理、及时查询，它还可以放在同样一个架构上去做。这也是它为什么深受欢迎的原因。

数据驱动运营

接下来向大家介绍一些关于硅谷公司数据运营方面的实战情况。

这个词叫Data-driven marketing。在我们机房里，会在屏幕上显示各种各样的报表，看起来也很震撼。硅谷的很多公司都是喜欢这么干，你去他们的办公室，至少每一层都会放两个这么大的电视，这上面也很枯燥，就是放一些数字，实时地去看用户的访问数、宕机时间以及各种服务的情况。

哥德巴赫说过一句话，我们在广告上的投资有一半是无用的，但问题是我不知道是哪一半。

这张图跟刚才那张比较类似，但是这个主要是放在营销领域的。现在比较流行什么？B2B的预测营销，这是市场营销的技术。Facebook现在为什么这么牛？他们广告端的80%以上都是来自于手机端原生态的广告，包括今日头条也是我们学习的最好的例子。

在国外，做B2B领域是很容易被收购的。除了大家熟悉的设计师用的软件之外，还有一个高收入来源，是来自于营销部门。在硅谷创业，如果是做2B领域的，其实也是很好的一个方向，你一旦做了，巨头就会盯上你，他也会采用收购的方式让你退出，其实这也是一种很好的退出手段。

这是某一个数据产品当中的报表，看起来比较枯燥。其中最核心的指标是：每天的收入、每天用户的增长量。这里面还有很多细分的东西，所以，每个组你都得制定好自己的KPI。

提到数据驱动的模式，我在这里也跟大家做一个方法论的介绍。你要是做用户运营的优化，第一步都得先去采集用户的数据。在这里是通过SDK潜入到对方的客户端当中，采集到你需要的数据，进行数据分析，再生成KPI的报表，后面你还会根据用户做多维度的分群和画像，然后进行AD测试。比如说你把促销的信息先放给A组的用户，然后做一些效果的对比，后面还会有活动的管理，与用户触达。比如说看用户有没有打开这个链接，他访问的频率到了哪一步，我们会做一些跟踪。最终的目的是为了实现ROI的提升、营销的优化。

我们公司希望通过机器学习做一些转化率的提升。时间有限，我就给大家看一个我们产品的逻辑图，