谷歌教 AI 画画：会让它像人类那样思考吗？

2017-06-13 23:22:00

导语：如今，计算机也在学习做同样的事情。要是谷歌教导AI去绘画，那会有助于它思考以及像人类那样思考吗？

《大西洋月刊》（The Atlantic）撰文称，人类最早在岩石上画图形的时候，实现了巨大的认知跃进——如今，计算机也在学习做同样的事情。要是谷歌教导AI去绘画，那会有助于它思考以及像人类那样思考吗？

以下是文章主要内容：

想象一下，有人叫你画一头猪和一辆卡车。你可能会画成这样：

这很简单。但接着，想象下你被要求画个猪卡车。作为人类，你会直观地想到如何将猪和卡车这两个物体的特征结合起来，也许你会画成下面这样：

看看那条小小的、弯曲的猪尾巴，看看驾驶室有点圆的窗口，该窗口也会让你想到眼睛。车轮变成了蹄状，又或者说猪脚变得像车轮。如果你这么画，同为人类的我会主观地认为这是对“猪卡车”很有创意的一种解读。

谷歌的AI 绘画系统SketchRNN

直到最近，只有人类能够完成这种概念转变，但现在并不只有人类能够做到了。该猪卡车实际上是极具吸引力的人工智能系统SketchRNN输出的作品，该系统是谷歌探究AI能否创作艺术的新项目的一部分。该项目名为Project Magenta，由道格·艾克（Doug Eck）领导。

上周，我在谷歌大脑（Google Brain）团队位于山景城的办公室拜访了艾克。该办公室也是Magenta项目的所在地。艾克非常聪明，也很谦逊。他于2000年在印第安纳大学获得计算机科学博士学位，后来专注于研究音乐和机器学习技术，一开始是在蒙特利尔大学（人工智能的温床）担任教授，后来到谷歌供职。在谷歌，他最初从事Google Music音乐服务项目，后来转到谷歌大脑团队参与Magenta项目。

据艾克说，他打造可创作艺术的AI工具的雄心最初只是夸夸其谈，“但经过几轮的反复思考后，我觉得，‘我们当然需要做这个，这非常重要。’”

正如他和他的同事大卫·哈（David Ha）所写到的，SketchRNN的意义不仅仅在于学习如何画画，而在于“用类似于人类的方式概括归纳抽象的概念。”他们并不想要打造一台能够画猪的机器。他们想要打造一台能够识别和输出“猪的特征”的机器，即便机器得到的是诸如卡车的提示性语言，它也能够不受影响，作出准确的判断。

隐含的观点是，当人的画画的时候，他们会对这个世界做抽象的概念。他们会去画“猪”的广义概念，而不是画特定的动物。也就是说，我们的大脑如何存储“猪的特征”信息和我们如何画猪之间存在关联性。学习如何画猪，你可能就能学到人脑合成猪的特征的能力。

这是谷歌的AI软件的运作模式。谷歌开发了一款名为“Quick, Draw!”的游戏，在人们玩该款游戏时，它会生成一个涵盖人类各种各样的绘图（如猪、雨、救火车、瑜伽动作、花园和猫头鹰）的庞大数据库。

当我们画的时候，我们是将丰富多彩、熙熙攘攘的世界压缩成少数的一些线条或者笔画。正是这些简单的笔画构成了SketchRNN底层的数据集。借助谷歌开源的TensorFlow软件库，每一种绘图——猫，瑜伽动作，雨——都能够用于训练一种特定的神经网络。这有别于引起媒体广泛报道的那种基于照片的绘图系统，比如机器能够渲染出梵高或者原来的DeepDream风格的照片，又或者能够画出任何的形状，然后给它填充“猫的特征”。

这些项目都让人类觉得很不可思议。它们相当有趣，因为它们所产生的图像看起来就像来自人类对现实世界的观察，尽管不完全像。

像人那样用绘图表达所看到的东西

然而，SketchRNN的输出作品一点都称不上不可思议。“它们感觉很真实，”艾克说，“我不想说‘很像人类的作品，’但它们感觉很真实，那些像素生成工具则不然。”

这是Magenta团队的核心洞见。“人类……并不是把世界当成一个像素网格去理解，而是发展出抽象的概念去表示我们所看到的东西。”艾克和大卫·哈在描述其工作的论文中写道，“我们从小时候就能够通过用铅笔或者蜡笔在纸上绘画来传达我们所看到的东西。”

如果人类能够做到这一点，那谷歌会希望机器也能够做到。去年，谷歌CEO桑达尔·皮查伊（Sundar Pichai）称他的公司“以人工智能为先”。对于谷歌来说，AI是其“将全世界的信息组织起来，使之随处可得，随处可用”初始使命的一种自然而然的延伸。现在不同的地方在于，信息由人工智能来组织，然后使得它们能为广大用户使用。Magenta是谷歌组织和理解一个特定的人类领域的疯狂尝试之一。

机器学习是谷歌所采用的各种工具最广泛的一个概念。它是通过编程让计算机自学如何执行各种不同的任务的一种方式，常见的方式是给计算机注入标签数据来进行“训练”。进行机器学习的一种热门方式是，借助以人脑的连接系统为原型的神经网络。不同的节点（人工神经元）会相互连接，它们有着不同的权重，会响应部分输入信息，但不响应其它的输入信息。

近年来，多层级神经网络被证明在解决棘手的问题上非常成功，尤其是在翻译和图像识别/操纵上。谷歌在这些新架构上重新构建了很多的核心服务。这些神经网络模拟人类大脑的运作过程，其互相连接的层可识别输入信息（比如图像）不同的模式。低级别的层可能含有响应光明与黑暗简单的像素级模式的神经元。高级别的层则可能会响应狗的脸、汽车或者蝴蝶。

构建带有这种架构和机制的网络会带来不可思议的成效。原本极其困难的计算难题变成了调整模型的训练，然后让一些图形处理单元运算一会的问题。正如吉迪恩·刘易斯-克劳斯（Gideon Lewis-Kraus）在《纽约时报》所描述的，谷歌翻译（Google Translate）曾是一个开发超过10年的复杂系统。该公司后来利用深度学习系统仅仅花了9个月就重新构造了一个谷歌翻译系统。“该AI系统一夜之间就有了巨大的提升，这种提升相当于老系统在整个生命周期积累的全部提升。”刘易斯-克劳斯写道。

正因为此，神经网络的使用量和类型呈现井喷式增长。SketchRNN方面，他们使用可处理输入序列的递归神经网络。他们用人们画各种不同的东西时连续画下的笔画来训练该网络。

用最简单的话来说，这种训练就是一个编码的过程。数据（绘图）输入之后，该网络会尝试想出它在处理的东西的一般性规则。那些概括是数据的模型，数据存储在描述网络中的神经元的倾向的数学计算当中。

那个结构被称作潜伏空间或者Z（zed），是猪的特征或者卡车的特征又或者瑜伽动作的特征方面的信息存储的地方。正如AI行业人士所说的，叫系统做个样本，即叫它画出它训练的东西来，SketchRNN就会画出猪或者卡车又或者瑜伽动作。它所画的东西，就是它所学到的东西。

SketchRNN 能够学到什么？

SketchRNN能够学到什么呢？下图是一个接受过消防车绘画训练的神经网络所生成的新消防车。在该模型中，有个名为“温度”的变量，它可让研究人员上下调整输出的随机性。在下图中，偏蓝色的图像是“温度”下调后的产物，偏红色的图像则是“温度”上调后的产物。

又或者，你可能更喜欢猫头鹰：

最好的一个例子就是瑜伽动作：

这些画看似人的作品，但它们并不是由人亲自绘画的。它们是对人类可能会如何画这种东西的一种重造。有的画画得很不错，有的则画得没那么好，但如果你是在跟AI玩看图说词游戏，那你应该不难看出它们是什么。

SketchRNN还能够接受以人工绘图为形式的输入。你传送某种绘图，然后它就会尝试去理解它。如果你给一个接受过猫数据训练的模型输入一张三眼猫绘图，那会发生什么呢？

看到没？看该模型在右边的各种输出图像（同样用蓝色和红色来表示不同的“温度”），它剔除了第三只眼睛！为什么呢？因为该模型已经通过学习知道，猫有两只三角形的耳朵，脸部左右两边都有胡须，脸圆圆的，只有两只眼睛。

当然，该模型完全不知道耳朵实际上是什么东西，不知道猫的胡须是否会动，甚至不知道脸是什么，也不知道我们的眼睛能够将图像传输到我们的大脑。它对于这些绘图指代的是什么一无所知。

但它确实知道人类是如何表示猫、猪、瑜伽动作或者帆船的。

“当我们开始生成帆船的绘图时，该模型会基于所输入的那张绘图得出数百张显示其它帆船模型的绘图。”谷歌的艾克表示，“我们都能看出它们画的是什么，因为该模型是利用所有的训练数据得出理想的帆船图像。它并不是画出特定的帆船，而是画出帆船的特征。”

成为人工智能运动的一份子是一件令人兴奋的事情，它是有史以来最令人兴奋的技术项目之一，至少对那些参与其中的人来说是如此，对于很多其他的人来说也是如此——它甚至能够击倒道格·艾克。

我是指训练神经网络画雨天。输入一副蓬松的云绘图，然后就会出现下面的情况：

雨从你给该模型传送的云下下来。那是因为很多人画雨天的时候都是先画出一朵云来，然后再在下面画雨。如果该神经网络看到云，那它就会在那个云的形状下面画出雨来。（有意思的是，那些数据是关于一连串的笔画，因此如果你先画的是雨，那该模型就不会先画云朵。）

这可以说是一项令人欣喜的工作，但在对人类如何思考实施逆向工程的漫长项目中，这算是一项巧妙的附带项目，还是很重要的一块拼图？

艾克认为绘图最吸引人的地方在于，它们用如此少的信息来包含如此多的意义。“你画一张笑脸，只需几个笔画就能画出来。”他说道。笔画看起来跟人脸以像素为基础的照片完全不一样。但3岁的小孩也能够分辨出人脸，也能分辨它开心与否。艾克认为这是一种信息压缩，对于这种编码，SketchRNN会解码，任何随心所欲地进行重新编码。

SketchRNN 覆盖范围有限

OpenAI研究者安德烈·卡帕锡（Andrej Karpathy）目前在AI研究成果传播上扮演着重要角色，他说，“我非常支持SketchRNN项目，它真的很酷。”但他也指出，他们就笔画的重要性给他们的模型引入了很强的假设，这意味着他们对于整个人工智能开发事业的贡献相对没那么大。

“我们开发的生成模型通常都会尝试尽可能全面地注重数据集的细节，不管你给它们注入什么数据，不管是图像、音频、文本还是别的东西，它们都适用。”他说，“除了图像以外，这些数据没有一样是由笔画组成的。”

他补充道，“对于人们作出很强的假设，将它们编码到模型中，在各自的特定领域取得更令人印象深刻的成果，我完全能够接受。”

艾克和大卫·哈正在打造的东西更接近于玩国际象棋的AI，而不是能够判断出任意游戏的规则，也能够玩这些游戏的AI。对于卡帕锡来说，两人当前项目覆盖的范围似乎比较有限。

理解人类的思考方式

不过，他们觉得线条画对于理解人类的思考方式至关重要，并不是没有原因的。除了这两位谷歌人员之外，也有别的研究者被笔画的力量所吸引。2012年，乔治亚理工大学的詹姆斯·海斯（James Hays）联手柏林工业大学的马赛厄斯·艾兹（Mathias Eitz）和马克·亚历克莎（Marc Alexa）打造了一个笔画数据集，以及一个识别笔画的机器学习系统。

对于他们而言，绘图是一种“通用的沟通”形式，是某种所有有标准认知功能的人都能够做和做过的事情。“自史前时代以来，人们都用绘图式的岩石画或者洞穴画来描绘视觉世界。”他们写道，“这种象形文字比语言要早几千年出现，如今人人都会绘画和识别绘图中的物体。”

他们提到了多伦多大学神经系统科学家德克·沃尔特（Dirk Walther）在《美国国家科学院院刊》上发表的论文，该论文说“简单抽象的绘图激活我们的大脑的方式与真实的刺激物相似。”沃尔特和该论文的合著者假定，线条画“可捕捉我们自然世界的本质，”尽管逐个像素来看，猫的线条画看上去一点都不像猫的照片。

如果说我们大脑中的神经元是在神经网络模拟的分层结构内运作，那绘图可能是掌握存储我们对于物体的简化概念（沃尔特所说的“本质”）的层级的一种方式。也就是说：它们可能能够让我们真正理解我们的祖先很久以前进化成现代形态的时候人类开始采用的那种新思考方式。绘图，不管是在洞穴的墙壁上还是在纸巾的背面上，或许描绘了从识别马到识别马的特征的进化，从画出日常经历到画出抽象的象征性思维的进化，这也是人类进化成现代形态的过程。

人类的现代生活大多数都源自那一转变：语言，金钱，数学计算，最后是电脑运算本身。因此，如果绘图最终在意义重大的人工智能的打造上扮演重要的角色，那就最好不过了。

然而，对于人类来说，绘图是对真实物品的一种描绘。我们能够轻易理解抽象的四线表示法和物品本身之间的关系。该概念对于我们来说有某种意义。对于SketchRNN来说，绘图就是一连串的笔画，是经过一定的时间形成的一个形状。机器的任务是抓住我们的绘图所描述的东西的本质，尝试利用它们来理解这个世界。

SketchRNN团队正在探索多个不同的方向。他们可能会开发一个尝试通过人类反馈提升绘画能力的系统。他们可能会在一种以上的绘图上训练模型。也许他们将会找到办法去判断他们受过绘图中的猪特征识别训练的模型能否推广到识别照片级图像中猪的特征。我个人很希望看到他们的模型能够接入其它在传统的猫图上训练过的模式。

SketchRNN 只是“第一步”

但他们自己也坦言，SketchRNN只是“第一步”，要学习的还有很多。这些解码绘图的机器要参与的人类艺术历史相当悠久。

在给《纽约客》（The New Yorker）撰写有关欧洲洞穴壁画的文章时，朱迪思·瑟曼（Judith Thurman）写道，旧石器时代的艺术在“长达2.5万年的时间里几乎没有变化，几乎没有任何的创新或者抵制活动。”她指出，那是“有记录的历史的四倍长”。

计算机，尤其是新的人工智能技术，正在动摇长久以来人类对于自己擅长做的事情的观念。人类在1990年代在西洋跳棋比赛中输给机器，之后下国际象棋也输给机器，近年则是在围棋比赛中输给AlphaGo。

但AI近年之所以取得显著的进步，并不是因为艺术发展的速度（尽管它确实发展得很快）。对于艾克来说，它更多地是因为他们奋力去研究人类思考方式的基本原理，以及我们究竟是谁。“艺术真正核心的部分是基本的人文素养，是我们平常相互沟通的方式。”艾克说。

纵观整个深度学习运动，各式各样的人都是在研究人类生活的基本机制——我们如何看东西，我们如何移动，我们如何说话，我们如何识别人脸，我们如何用言语编故事，我们如何奏乐——这看起来有点像人类特征的轮廓，而不是任意特定的人的轮廓。

现在，它分辨率低，是真实想法的漫画，是真实想法的人物线条画，但我们应该不难想到要从该绘图收集信息。

来源：网易科技报道

关键字：产品经理, 业界动态, 绘图

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！