隐形 AI 与设计

2017-10-10 10:18:00

文章从AI辅助设计过程、仿人类AI和隐形AI，三个角度描述三个设计与AI关联的方式。

作为一个设计师，我对现在的AI浪潮的态度起初是：

听起来很棒，但跟我这个设计师有什么关系呢？

我对所有的趋势保持谨慎态度，何况现在媒体鼓吹的人工智能，跟我们在科幻小说中读到的强人工智能相比还有很大差距。更重要的是，一直以来设计师关注的都是界面，职责是根据不同的交互方式设计不同的好用的界面，而AI似乎是一个底层的创新，和界面没有太多关系。

当然随着我对这个问题一步一步的了解，我发现自己之前的见解非常狭隘。

我对AI算法的了解

我对AI算法的接触并不多，只是在TU/e读硕士的一门课（Embodied Social Interaction）上接触过。在这门课上，导师教了我们一个叫做Neural Gas的神经网络机器学习算法（此为JavaScript写的Demo），并让我们自己去尝试使用这个算法，训练数据，并获得结果。

整堂课下来，教室里的大半学生都听得云里雾里（尤其是欧洲的设计学生，大部分数学不是特别好）。我虽然是理科上来的，但也是半懂不懂。

但是机器学习有趣的地方在于：你即使不懂算法，也有可能运用它得到很好的效果。

我们当时尝试了很多数据集，一开始我们对算法理解不深，训练的数据是RGB的，后来改成了灰度；后来误以为算法更容易识别非常不同的两组数据集，所以我们让算法识别不同颜色的衣服，结果失败等。

其实经过这么多的尝试，我们发现机器学习特别擅长的是那种很难用逻辑分析的问题。

这种很难用逻辑分析处理的问题有个例子是：用算法去识别手写的数字。

[Fig – 1] 一组不同手写方式写的数字

可以想象，如果不用机器学习，你可能要为每个数字编写不同的算法，你需要深入理解人的习惯、笔画的顺序、形状等，你需要编写一套逻辑，从一堆像素中获取到路径、特征点等等，你还要处理大量的规则以外的特殊情况……总之，不容易。而很多时候，根本不可能（比如识别图片里各种不同的的物体）。识别手写的数字这种问题属于那种对人脑很简单而对电脑很困难的问题。机器学习，或深度学习对于解决这类问题很擅长，甚至比人类更擅长，比如下围棋和股票等。当然，我对AI的技术理解十分粗浅，如有错误，请在评论区指出。

好了，技术方面先普及到这里。

听到这里，你可能跟我一样的态度：“AI听起来能解决很多之前解决的不好的问题，但这个对于我一个设计产品的设计师来说，有很大关系吗？” 这个态度很合理。搜索引擎早就用人工智能技术来帮助用户搜索了，但这些技术的改进一般是由工程师或是产品经理推进的，设计师好像就是把搜索框设计得好看一些、界面布局编排合理一些、让人多点一些广告即可（这些自然也非常重要）。

我认为有两个因素会影响你的观点：

我相信设计师应该为最终的体验负责。如果设计师仅仅是在产品经理和工程师想好功能和技术之后为其加一个好看的壳，我很怀疑这种合作方式能否成功（事实上，大部分公司设计师都要和产品经理深度沟通，尤其是交互设计师）。我也相信这些职位之间的区分比较模糊，尤其是产品经理和设计师之间。
未来人工智能技术可能会影响产品的方方面面，而且也不会仅限于那些听起来“很AI”的产品（搜索，语音交互），如果你不了解这些技术，你的产品可能在体验上就会落后。

我将在这篇文章中描述三个已经出现的设计与AI关联的方式。它们分别是AI辅助设计过程、仿人类AI和隐形AI。

AI 辅助设计过程

设计是我认为非常需要创造力的领域之一，也应该是最晚被AI取代的职业之一（据这个网站所述^_^）。但产业中有很多设计需求不需要特别有创造力，也正是这些需求最有可能被AI取代。

比如人们在很早之前就对简单的排版进行自动化了，这类需求十分旺盛（想象电商网站里面巨量的商品图片），而有时对创造性的要求没有那么高。随着AI技术的发展，这些自动化算法越来越有效。以下是一些例子：

[Fig – 2] 阿里鲁班的Banner自动化与个性化设计

[Fig – 3] Netflix根据照片内容自动裁切排版并生成多个版本

[Fig – 4] Wix人工设计智能

我看了非常多的例子，我觉得目前这里面并没有真正的设计和智能在里面。你在使用过程中就能明显感觉到里面模板的痕迹。诚然，对于一些需求来说，甚至简单的模板就够了。如果深挖行业需求，这里面还有不少的创新机会。但是对于大部分有一定追求的设计师来说，谈AI对设计师职业的威胁目前来看还甚早。

完全模仿人类交流的AI

打造一个2001太空漫游里面的能和人交流的HAL机器人是科技界的梦想。国际科技巨头如亚马逊、微软、Facebook、苹果都推出了聊天机器人或是智能音箱。用户可以以聊天的方式点菜、订机票，可以用智能音箱放音乐、设置闹钟、控制智能家居等。

这些产品我也使用了一些，总体来说，语音识别成功率挺高的，但是真正理解语言背后的含义，还不是特别好。更重要的是：这些交互形式本身有其自身的限制，因此有些时候并没有传统的GUI更有效率。

人工智能确实是很大的浪潮。这并不意味着手机会消失，并不是说语音助手会替代屏幕。人们有眼睛，而只要人们有眼睛，他们也会想要屏幕。我们有手指，我们喜欢触摸东西。但是从很早期的科幻中，人们就希望有一台能够用自然的方式对话的电脑。这个正在逐渐变为现实。
——亚马逊的CEO Jeff Bezos在问及人工智能的时候所说

曾经我也看到一些论点说VUI（Voice User Interface）和CUI（Conversational User Interface）将取代GUI，这个很显然也不对，它们各有所长。目前最大的设计问题是如何在有限的技术水平下打造合格的用户体验（如设计Alexa Skills）以及从产品角度提出技术需要提升的点。要深入谈这个需要另外再写一篇文章。

隐形的AI

这一部分是本文的重点，也是我认为在今天开始就需要关注的趋势。

所谓的隐形的AI（好吧，这是我自己的称呼）就是在传统UI中隐形地智能地将信息推荐给你。在传统UI中，UI是静止的，意味着UI不会根据用户的不同输入做出太多改变，不会帮助用户进行输入，不能理解用户的意图，也更加无法对不同用户给出针对性的建议。

我认为交互设计师们可以利用隐形AI来重新思考UI的方方面面，我觉得还有更多的创新方式等待发掘，在这里介绍两种：减少输入和更优的输出。

减少输入

人们都是懒惰的，我们其实并不愿意敲键盘来输入一些东西，尤其在移动平台上。首先移动平台上的文字输入本身效率就不高，二是移动平台上的许多用户（如老年人）其实非常不擅长输入，三是人们往往处于移动状态或是单手操作状态，四是人们很有可能很希望快速完成一个任务，如排队支付。

我个人认为锤子科技在这方面探索得比较好。很早开始，锤子科技就发现了验证码输入麻烦这一痛点，首次加入验证码自动识别并停留在通知栏的功能。之后各大ROM厂商也纷纷跟进，增加了更多功能如直接复制的按钮等。

我个人总结的减少输入的方式有Ambient推荐和Multi-modal输入。Ambient推荐是指不占据用户主要注意力的推荐方式，Multi-modal输入则是用图像识别和语音识别等来辅助或替代键盘输入。

Ambient推荐

我们可以现在就思考一下，我们平时使用产品的所有输入中，有哪些是可以自动化的或者用AI进行智能推荐的？

太多了，很多输入方案都可以用AI优化，我们只需转换一下思维，就能在现有产品中发现很多需要优化的点。

以在浏览器添加书签为例。之前我的书签都不会加标签或分组，因为懒。但当我需要找一个之前收藏过的网页的时候，这时候就发现没有合理的分类很难快速找到我收藏过的页面。我也使用过EverNote的网页剪藏工具，但是每次收藏都要输入一次标签，太过麻烦。

[Fig – 5] 使用Raindrop添加网页时，会自动添加标签，icon是创建文件夹时自动生成的

我正在使用的Raindrop就利用AI优化了这一流程。

它会自动分析网页的文本，并推荐一个我之前创建过的文件夹。并且它能够根据我每次收藏过的网页不断地学习和优化。当然，这个方法只有80%的准确率。但没关系，因为我可以很方便快速地对文件夹进行快速更改和创建。更有趣的是，它会自动对文件夹添加图标。如果我创建一个叫做游戏的文件夹，它就会自动添加一个游戏手柄的图标给我。

整个使用过程非常流畅，即使出错了你也可以很方便快速地修改。

当然，这里涉及到一个设计原则：当AI为我们做决策的时候，决策越精准，决策越不重要，就越不需要给用户方便的修改方式。

比如图标，它是基于单个词的分析给出，精度往往比较高；同时图标是一个Nice to have的功能，它不会特别影响我的正常使用。因此没必要给特别明显的更改图标的功能。

反之，如果决策相对重要，而AI不能给出完全正确的决策时，要么只是给出建议，要么就是能提供快速的修改方式。这里需要交互设计师在这个过程中找到合适的平衡点。

[Fig – 6] 谷歌Inbox的自动回复功能

[Fig – 7] Tribe app能自动识别语音聊天中的信息，并提取关键信息

在这里我在追加几个例子，谷歌邮箱服务中的Inbox的自动回复功能和Tribe在视频聊天中自动提取信息并生成卡片的功能。这些就像沟通流中默默观察并在适当时候提供帮助的助手一样，如果设计得当也能给人们生活带去便利。

Multi-modal输入

在过往的这些年图像识别和语音识别已经发展得相当完善，已经能够在一些日常功能中使用它替代一些输入了。比如

锤子科技在发布会试图推动的语音输入
各大地图和搜索应用中添加的语音输入
利用摄像头直接进行翻译的谷歌翻译

之后这些应用场景只会越来越多。

对于交互设计师或产品经理来说，如何巧妙地将这些新技术应用到现有的产品中，使得用户能够很方便的在他们需要的情况下调用这些功能，是我们真正应该关注的。这就需要找到非常有需求的应用场景。

在Smartisan OS的大爆炸功能中，当界面上的文字无法被直接提取时，系统会提示用户选择屏幕截图，然后针对所选区域实施OCR功能。这其实就是用图像识别这一巧妙的方式绕过系统的壁垒。

那下一步其实就是更深度地在算法上进行优化，针对图片和点击区域进行智能的裁切，用户根本就不需要进行裁剪这个操作（这个操作其实又是个操作成本比较高的、应该用AI优化的操作，我每次都不愿意使用，都是直接对整个截图进行OCR），整个体验不会被打断，用户可能根本没有意识到背后的一系列算法操作。这样用户体验又可以进一步提升。

更优的输出

除了在输入方面能够减少大家工作量，AI还有可能提供更加个性更加优化的输出。

这个趋势非常热门，比如说：

iPhone可以通过给用户的照片进行分析，直接生成一段可以分享的电影；
包括今日头条在内的各大资讯网站对不同用户进行智能的内容的分发；
YouTube自动生成的智能预览图；
各大国产ROM中对邮件和短信进行智能分析和重新排版等。

这种应用在算法上和用户分析上都相当有挑战性。

结语

这篇文章提到了很多AI在产品中的使用。我觉得最核心的是一个思维方式的转变，之前我们解决问题很多时候都是用创新的界面设计，使得用户可以更快地达到他们想要的目的；而在AI时代，我们可以重新思考所有问题能否在后端用AI尝试解决，并在前端以一个合理的方式呈现出来。比如：

我们总是被恼人的通知打扰，是否系统能通过判断我们取消通知的操作来推断我们从来不看某些应用的通知，并将其降低优先级或定时清理？
我们的屏幕亮度调节不准，是否系统能根据我每次在自动模式下人为干预亮度，对亮度调节算法进行优化？
系统有没可能检测到我经常进行的重复性操作（每天到公司打卡），为我自动创建IFTTT类似的快捷功能？
视频播放器能否在字幕和声音不匹配时自动匹配呢？（当这个发生时，要很好地对齐真的很困难）
能否智能分析如何取消邮件的订阅，使得我能有一个列表告诉我订阅了哪些邮件，我只需点击checkbox，后台自动为我取消或恢复订阅？或是想Smartisan OS那样，以智能屏蔽的方式取消订阅？
能否在我通话时提及电话号码时，自动识别数字并保存？录音也同时保存下来确保不发生识别错误。

下一次，当你遇到问题时，试试用AI的方式解决吧~