人工智能的冷思考

2016-11-14 10:48:00

1、“奇点理论是最有欺骗性的”

“为什么这些非一线AI工作人员，总希望讲些摸不着看不见的东西？”

最让我感到愤怒的，是热火朝天的人工智能奇点论（机器超越并取代人类智慧）。

“第一，‘机器取代人类’很能吸引眼球，这是论述者的一厢情愿；第二，不用他们真的来做。‘奇点’是最具欺骗性的，它介于科幻与科学之间，有数学、有公式、有图表，看起来很专业，但其实所有预测都基于作者自己的YY……比如‘指数增长’，并不是所有东西都会指数增长，就说NLP（自然语言理解），我在过去没有看到任何指数增长的能力。奇点论所预测的东西，就是基于表象的外延推论，没有告诉你要达到奇点第一步干什么、第二步干什么、第三步干什么……没有执行路径。坦白说，真正一线的AI工作人员往往比较清醒甚至有点悲观，因为他负责产出，他知道自己是怎么回事，现在是什么方法，也知道缺陷在什么地方。他没有去做预测的能力，正如经济学家不见得炒股炒的好。”

也许，这反倒会造成一种行业门槛很低的幻觉，大家都来做，就蕴生了一些很不成熟的产品，然后——大众体验不好，就又对人工智能失望了。

自然语言是人类智慧的结晶，有了自然语言理解能力，才有后面的推理、意识、情感、社会协作等各种各样的文明。

而自然语言处理，是人工智能最困难的问题之一。

为什么难？

“第一，你得知道怎么建模，才能计算执行。比如下围棋，你知道规则，可以去设计模型。但是，自然语言是经过几千年、几百年慢慢进化过来的。一个小孩子，一生下来啥都不会，突然某一天蹦出一些词‘爸爸妈妈’——人们不知道这是怎么回事。当工程师或科学家都不知道怎么去解释时，你是很难去教计算机的。你别听现在深度学习多牛逼，计算机能做的，就是你定好一个模型，设一个目标函数，让计算机自己不停地去试，找到一个方案使目标函数值最大，它就认为这是solution——但它没有真正‘理解’这个东西是为什么。”

第二，人的沟通不仅仅是算法。你现在能理解我说什么，是因为你对这个物理世界有很多知识积累，有人生阅历。如果现在我跟一个初中生来聊这个事，他可能知道我在说什么‘字’，但他并不理解——一个人要理解另一个人，除了字面上的意思外，还有背后的很多。什么叫理解？这是很微妙的一个东西。一个有效的、深层次的沟通，本身是很难的。”

“如果机器真要像人一样沟通，第一它要有语言能力，第二它要有对这个物理世界的知识积累——这两个机器都很难做到。我们对物理世界的探索，很多东西都是很微妙的，莫名其妙就发生了。并不是所有东西都能数字化，我们没法把一个人跟世界的交互全部都数字化然后fit到计算机里面去——我们做不到‘全’，也没有合理的知识表示方式。”

“所以，‘奇点’这种东西，目前看来没有现实可能性，自然语言理解都做不到，更别说让机器做到比人还要更有智慧、更有创意呀……没有任何道理。”2、深度学习之利与弊

随着人工智能行业近来大受关注，“深度学习”似乎承载了大众的格外期待：一个通用的办法去解决所有问题，一个统一世界的世外高人把所有的问题都解决了。

然而，在我的眼中，大众对于“深度学习”的鼓吹有利有弊：

深度学习虽好，却可能使研究界变得懒惰。

“拿语音识别来说，过去的研究者需要很认真地思考人们的语音信号到底应该提炼什么特征，可能几十年一直在琢磨声学，然后突然找到某个特征刚好最能解释现有训练数据，这样做出来的模型就很棒了。而深度学习的方法更加短平、粗暴。让所有人都不再关注问题本身，人们不会再去试图真正理解语言，而是去跑数据。”

“当媒体、非科研人员每天关注深度学习，对在专业领域默默琢磨事的人是很不公平的——现在好像语音识别的成功都是搞深度学习的人的功劳，这不扯吗？语音识别的成功，是那些在语音领域做了很多很多年，又懂深度学习，又刚好赶上大数据、云计算的机遇，结合起来才做好的。”

“以自然语言理解和翻译为例，在很早期，很多人研究语言到底怎么回事，规则是什么，很多人做基于语言规则的翻译，但后来发现规则是无穷无尽的；然后到了第二个阶段，是基于统计的，有很多数据，不在乎语言是怎么回事，不在乎规则，这些规则让机器自动学习过来，研究者本身对规则完全不懂；现在的第三代研究者就更不懂了，对所研究的专业领域可能都不太关注了，只关注机器学习（最极端的可能认为深度学习就是机器学习或AI的全部），甚至有人提出连数据的标识都不要，完全靠计算，完全结果导向……几乎所有领域的AI都经历了这样的过程。”

我一直以来把AI的应用分为3个阶段：

2004年之前，AI应用更多是学术界或政府的形象工程，但是Google Translate第一个把AI系统做成大规模的to C的产品，放到网上，上亿人每天去使用它，搞来很多数据；

后来到2010年，人们发现到了瓶颈：数据的红利、计算的红利没有了。“曾经Google做的Google翻译，基于大量数据去做，起初很嗨，准确率一下子从60%做到70%到80%，但是后来发现继续加数据的时候，可能又掉到78%了，因为数据既是信息也是噪音”；

再之后到2012年，深度学习起了作用，带来了更聪明的学习方法，AI又火了一阵子……

那么未来呢？

“我想说，学术界也好，工业界也好，你想做到极致，还是靠两者相结合。纯靠深度学习就像死记硬背一样，不是真正理解。我们不应该过度依赖深度学习，这种引导，会影响很多学生的技术价值观。”

如果假设是上帝创造了人，人又创造了机器人（或者AI），那如果机器人能逼近甚至超越人，那人是否也能逼近或超越上帝呢？

然而，人一定会有自己的瓶颈！

现在很多人关注AI，但理解很不一样。如按topic关注度来划分人群：最上面是普通用户（或凑热闹的）最关心产品或AI是否毁灭人类；中间是AI爱好者（如PM，记者），最关心技术成熟度，能做什么应用；最下面是一线AI工作者（科学家或工程师），最关心怎么把上面的牛皮用代码来填上。那么数学题来了，这三类人在中国分别有多大规模呢？

按我的观察估计万分之一都不到。程序员已经是小众了。程序员里懂AI的又是小众。（未完待续）

超级产品经理