人工智能与设计（2）：面向用户的人工智能系统底层设计

2017-11-13 11:03:00

上一篇文章《人工智能与设计（1）：人工智能的发展和定义》介绍了人工智能的历史和基础，身为设计师最关心的是人工智能如何落地以及如何与用户打交道。由于网上相关资料较少，我尝试带着探索的心态去挖掘两者的联系。人工智能能怎么服务人类，关键还是要看它的底层设计和能力。所以在思考过程中，我首先考虑到了人工智能的底层问题-人工智能如何收集用户数据？用户数据如何才是完整的？以下内容是对这两个问题的分析与理解。

“去中心化”的互联网

互联网的前身叫做阿帕网，属于美国国防部60年代部署的一个中央控制型网络。阿帕网有一个明显的弱点：如果中央控制系统受到攻击，整个阿帕网就会瘫痪。为了解决这个问题，美国的Paul Baran开发了一套新型通信系统。该系统的主要特色是：如果部分系统被摧毁，整个通信系统仍能够保持运行。它的工作原理是这样的：中央控制系统不再简单地把数据直接传送到目的地，而是在网络的不同节点之间传送；如果其中某个节点损坏，则别的节点能够马上代替进来。阿帕网的相关实践和研究，催生出现代意义上的互联网。

互联网的起源就是为了去中心化，可以使信息更安全、更高效地传播。可惜在第一次互联网泡沫之后，人们开始意识到在互联网上创造价值的捷径是搭建中心化服务，收集信息并将之货币化。互联网上逐渐出现了不同领域的巨头，它们以中心化的形式影响着亿万用户，例如社交网络Facebook，搜索引擎Google等等。用户使用他们的产品进行社交或者搜索，而作为服务提供商的巨头们通过掌握和分析用户数据进而优化自己的产品并获得利益。为了给用户提供更好的服务，存储和分析用户数据本来无可厚非，但这也引起了一部分对自己的隐私安全敏感的用户的不满。但更重要的一点是，如果某个巨头突然垮了停止了相关服务，会给人类的生活带来极大的困扰。

貌似互联网又回到了60年代。很多老一辈互联网参与者重新开始讨论去中心化的互联网，他们认为互联网去中心化的核心概念是：服务的运行不再盲目依赖于单一的垄断企业，而是将服务运营的责任分散承担。

Tim Berners-Lee（万维网的发明者）提出了自己的见解：“将网络设计成去中心化的，每个人都可以参与进来，拥有自己的域名和网络服务器，只是目前还没有实现。目前的个人数据被垄断了。我们的想法是恢复去中心化网络的创意”。

我们再看看去中心化网络的三个核心优势：隐私性、数据可迁移性和安全性。

隐私性：去中心化对数据隐私性要求很高。数据分布在网络中，端到端加密技术可以保证授权用户的读写权限。数据获取权限用算法控制，而中心化网络则一般由网络所有者控制，包括消费者描述和广告定位。
数据可迁移性：在去中心化环境下，用户拥有个人数据，可以选择共享对象。而且不受服务供应商的限制（如果还存在服务供应商的概念）。这点很重要。如果你想换车，为什么不可以迁移自己的个人驾驶记录呢？聊天平台记录和医疗记录同此理。
安全性：最后我们的世界面临着越来越大的安全威胁。在中心化环境下，越孤立的优良环境越是吸引破坏者。去中心化环境的本质决定了其安全性，可以抵御黑客攻击、渗透、信息盗窃、系统奔溃等漏洞，因为从一开始它的设计就保证了公众的监督。

近几年很火的HBO《硅谷》以“互联网去中心化”这个理念开始了最新一季。怪人风投家 Russ Hanneman 询问陷入困境的 Pied Piper 创始人 Richard Hendricks，如果给予他无限的时间和资源，他想要构建什么？ Hendricks 回答“一个全新的互联网”，他随后解释说，现在每台手机的运算能力都比人类登月时的手机要强大得多，如果你能用所有的几十亿台手机构建一个巨大的网络，使用压缩算法将一切变得更小更高效，更方便的转移数据，那么我们将能构建一个完全去中心化的互联网，没有防火墙，没有过路费，没有政府监管，没有监视，信息将会完全的自由。

详细可以看以下视频：

在后面剧情中，Pied Piper在Hooli大会上将Dan Melcher的几千TB数据转移到25万手机上。虽然期间发生了一系列问题，但最后Dan Melcher的数据“神奇”地备份到3万台智能冰箱的巨型网络上。

互联网档案馆的创始人Brewster Kahle曾表示，互联网去中心化在实际中很难被执行，仍有很漫长的路要走。虽然《硅谷》只是一部电视剧，里面有部分技术纯属虚构，但是它也侧面证实了一个事实，每一台手机的运算能力和性能除了打打电话，聊聊天，玩玩游戏外，还能做到很多事情，例如成为新一代微型服务器和计算中心。

最合适的私人服务器

手机成为新一代微型服务器，这也符合Tim Berners-Lee“每个人都拥有自己的网络服务器”的观点。目前手机的性能和容量已经可以媲美一台台式计算机，更重要的是，为了减少对CPU的压力，手机拥有不同的协处理器。各协处理器各司其职，专门为手机提供不同的特色功能，例如iPhone从5s开始集成了运动协处理器，它能低功耗监测并记录用户的运动数据；MotoX搭载的协处理器可以识别你的语音/处理运动信息，从而在未唤醒状态下使用Google now功能。

手机上各种传感器可以从不同维度监测用户数据，如果手机成为下一代微型服务器，那么它需要承担着存储用户数据的责任。同时人工智能助手需要每个用户海量的数据作为基础才能更好地理解用户并实时提供帮助，成为“千人千面”的个人助理，所以手机存储和分析用户数据是人工智能助手的基础。

分析用户的非结构化数据需要大量的计算，为了降低对CPU和电池的压力，手机需要一块低功耗专门分析用户数据的协处理器。它能够低功耗地进行深度学习、迁移学习等机器学习方法，对用户的海量非结构化数据进行分析、建模和处理。

家庭也需要一个更大容量的服务器来减少手机容量的压力，例如24小时长期工作的冰箱、路由器或者智能音箱是一个很好地承载数据的容器。用户手机可以定期将时间较长远的数据备份到家里服务器，这样的方式有以下好处：

降低了手机里用户数据的使用空间
家庭服务器可以24小时稳定工作，可以承担更多更复杂的计算，并将结果反馈给移动端
用户手机等设备更换时，可以无缝使用现有功能

Google在2015年已经开始使用自家研发的TPU，它在深度学习的运算速度上比当前的CPU和GPU快15~30倍，性能功耗比高出约30~80倍。当手机、智能音箱等设备拥有与TPU类似的协处理器时，个人人工智能助理会到达新的顶峰。在17年9月份，华为发布了全球第一款AI移动芯片麒麟970，其AI性能密度大幅优于CPU和GPU。在处理同样的AI应用任务时，相较于四个Cortex-A73核心，麒麟970的新异构计算架构拥有大约50倍能效和25倍性能优势，这意味未来在手机上处理AI任务不再是难事。更厉害的是，iPhone X的A11仿生芯片拥有神经引擎，每秒运算次数最高可达 6000 亿次。它是专为机器学习而开发的硬件，它不仅能执行神经网络所需的高速运算，而且具有杰出的能效。

数据的进一步利用

人工智能的发展依赖于大数据、高性能的运算能力和实现框架，数据是人工智能的基础。在过去30年里，人类数据经历了两个阶段，孤岛阶段和集体阶段。

孤岛阶段

在没有互联网以及互联网前期，人类使用计算机基本处于单机状态，数据也只能存储在计算机本地。由于计算机性能较差，产品较为简单以及技术的不成熟，人类在计算机上产生的数据价值不大。

集体阶段

在互联网中后期和移动互联网时代，计算机行业开始往互联网发展并衍生出更多领域，例如网上社交、搜索等等，视频音乐等娱乐行业也开始互联网化；到了移动互联网时代，巨头们结合传统行业产生出更多的玩法。人类每天的活动逐渐创造出庞大的数据。

由于数据的庞大以及技术有限，个人没有能力对自己的数据进行存储和分析，个人数据对个人来讲仍然价值不大，但对于巨头来说就不一样了。巨头们有的是资金和技术，即使个人数据拥有太多特征，但放在一起成为群体数据时，巨头们可以通过数据清洗，建模等方法分析出相关群体的普遍特征，得出相关的用户画像，更了解自己的用户是谁，从而设计出更有针对性的功能和服务，探索出新的用户需求和衍生出新的产品。

随着近几年技术的成熟，巨头们可以做到一些相对简单的个人推荐。如亚马逊，它可以根据你的购买记录推荐相关商品给你，其背后的原理是通过分析大量的用户购买数据后得到的商品推荐。

由于服务器的普遍昂贵以及普通用户缺乏对数据处理的能力，而巨头们有能力使用户数据发挥更大价值，所以用户数据一直“默许”被Google、Facebook、苹果、腾讯、阿里、百度等巨头收集着，这是可以理解的。每个用户一天产生的数据涵括了社交、健康、购物、地理信息等等，但是巨头们的垄断和相互竞争，导致用户数据被各巨头分割和收集使用，再加上巨头们宁愿生产更多的产品进行竞争也不愿意使用户数据互通，导致用户数据发挥不出更大的价值。这也是人工智能发展道路上的一道很现实赤裸裸的门槛。

互通阶段

若要使人工智能得到更快发展，需要分析和了解更多完整数据；加上互联网去中心化的理念，应用厂商把数据“还给”用户将会是下一个趋势。把数据“还给”用户的意思不是指应用厂商不应该拥有该数据，而是指将数据共享出去，从而获得更多有用的数据。

为了人工智能的发展让各个应用厂商之间共享数据是不符合竞争和现实的，但用户有权把自己的数据给“拿”回来，因为这些本来就是用户自己的。这时候用户需要一个数据仓库，它能存储和整理不同应用厂商的数据，而人工智能可以利用数据进行自我优化和分析出该名用户的特征。

例如我们手机里的淘宝和京东，用户使用它们时的动机和场景不一样，所以它们所得的用户画像仅是该名用户的一部分，不能完全代表该名用户。如果淘宝和京东将各自的数据保存到个人数据仓库，人工智能将数据整理完后为淘宝和京东输出已授权的完整用户画像，那么淘宝和京东可以为该名用户提供更多的个性化服务，创造更多收益。这就是应用厂商为人工智能提供数据，人工智能反哺各应用厂商。

下一代人工智能助理

为了更了解你，人工智能需要了解更多数据。在日常生活中，一名用户的主要信息归纳为：身份信息、健康数据、兴趣爱好、工作信息、财产数据、信用度、消费信息、社交圈子、活动范围 9个大类。

身份信息：名字、性别、年龄、家乡、身份证（身份证包含前4项）、账号、现居住地址和家庭信息
健康数据：基础身体情况、医疗记录和运动数据
兴趣爱好：饮食、娱乐、运动等方面
工作信息：公司、职位、薪酬和同事通讯录
财产数据：薪酬、存款、股票、汽车、不动产和贵重物品
信用度：由信用机构提供的征信记录
消费信息：消费记录（含商品类型、购买时间、购买价格和收货地址）、消费水平和浏览记录
社交圈子：通讯录（含好友、同事、同学和亲戚）和社交动态（含线下和线上）
活动范围：出行记录、主要活动范围和旅游

以上方面都有相关产品提供服务和数据记录，例如社交应用微信和陌陌、购物应用京东和淘宝、运动健康Keep等等。如果各方面数据打通并提供给人工智能，人工智能拥有用户更多的数据和特征，更多应用和智能硬件可以通过连接人工智能了解用户信息，从而进行自我学习和优化。总体来说，人工智能能代表你，它也是最懂你的个人助理。

人工智能数据仓库设计

2015年堪称智能家居元年，但最后大众还是被忽悠了。通俗理解的话，智能家居的重点是智能，而人工智能没有发展起来，智能家居如何智能？

现在大部分智能电器就像一个孤岛，只能通过手机里的不同APP操控，相互之间没有任何联动，根本体现不出智能家居的概念，直至小米打破了现有状况。

小米通过MIUI、路由器和小米生态链布局智能家居生态，前期通过路由器掌控联网大权，小米电视占据家庭娱乐中心、Wifi插座使基础家电智能化、各种传感器使建筑智能化；中期通过与科技企业如美的的合作，以及小米生态链的各种产品如扫地机器人、空气净化器、电饭煲等，由小米控制的智能家居不断渗透到用户家里；近期推出299元的小米AI音箱使小米智能家居达到一个新的高潮，控制智能家居变得更为简单，用户可以通过AI音箱对各产品下达指令和操控。至今为止，在国内智能家居布局最出色的是小米。

目前小米的智能家居布局仍处于初期阶段，只是把不同电器互联化并连接一个终端。家居的智能不只是简简单单地通过命令操作就行，更多在于智能家居之间的联动以及更懂主人，这靠的是对用户数据的积累、理解和分享；但也带来隐私问题，用户会担心更多产品和人工智能接触到更多数据时，自己的生活被24小时监控着。人工智能将会是科学与伦理博弈中最激烈的一环，所以如何实现底层的数据仓库是关键。

未来的人工智能和数据仓库应该是一个平台，就像现在的操作系统Windows，iOS和Android，但数据仓库不应该被巨头们和政府掌控，因为它比现在的操作系统存储更多用户的隐私数据，所以数据仓库需要定制更多的隐私规则防止用户数据泄露，以及定制开放协议实现多元创新，避免被巨头垄断。

该仓库具有以下特性和功能：

数据仓库拥有该名用户的完整特征和数据，它可以代表该用户。
数据仓库最少包含身份信息、健康数据、兴趣爱好、工作信息、财产数据、信用度、消费信息、社交圈子、活动范围9个模块。每个模块相互独立，不耦合。
数据仓库包括用户特征、产品私有数据和共享数据。用户特征只有输出行为；私有数据只有输入行为；共享数据具有输入和输出行为。
模块间可以交换数据，模块具有规定的输入和输出接口格式。
每个模块内的机器学习算法可自行升级或替换成其他厂商提供的算法。
每个模块具有封闭性，算法不能向外发送用户数据。
每个模块拥有必选和非必须的固定数据字段。
产品可以向不同模块输入私有和共享数据。
产品提供的数据必须符合该模块的必选数据字段，可以额外提供非必选数据字段。
由模块内部的算法对该模块的共享、私有数据进行标注和建模，产出相关用户特征。
算法可以申请授权获取其他模块共享数据和用户特征。
在授权范围内，产品可以获取相关模块的用户特征和共享数据部分，无法访问私有数据。
数据仓库定期将数据加密备份至个人服务器。
数据仓库定期清理过期数据。
数据仓库容量不足时自动提醒用户备份数据并清理空间。
数据仓库自动加密用户数据，防止泄露。

不同厂商的数据仓库产品应该遵循以下协议：

不同数据仓库相同模块的必选数据字段需要一致。
数据仓库内部算法和数据仓应相互独立。
数据仓库可以沿用以往数据和用户特征。
数据仓库之间传输数据需要加密。
不允许设置后门。

数据仓库制定协议的好处：

企业可以根据规范制定数据仓库，降低被巨头控制的风险。
数据仓库内不同模块的机器学习算法可以由不同企业制定和替换。
有利于进行不同企业数据仓库之间的数据迁移和升级。
该用户名下的数据仓库进行数据同步时是加密的，降低隐私的曝光和风险。

人工智能需要考虑运算性能、电量、发热量、数据采集和人机交互等问题。在移动端，手机依然是人工智能助理的最好载体，可穿戴式设备更多成为辅助；在家或办公室里，最好的人工智能助手载体应该一分为二，一是可与用户对话交互的电器，例如现在流行的智能音箱，还有具有大屏展示的电视，甚至是24小时供电的路由器；另外一个是具有天生优势的冰箱：它也是24小时供电，它的自动降温能力能更好地解决复杂运算时所产生的热量问题，它的庞大体积可以容纳更多存储数据的硬盘和计算机部件。

可推测，冰箱将成为个人人工智能的运算中心，就像一台服务器；手机和智能音箱等将成为与用户打交道的人工智能助理。当运算中心处理完数据后，将结果同步至相关人工智能助理，数据仓库将成为连接它们的桥梁。只有完善底层的数据共享，人工智能才能发挥出最大价值。