智能时代,AI 芯片革命已悄然到来

还记得年初小米澎湃芯片发布会吗,一时间“中国芯”情愫让大众大大感动了一把。

当人们还在陶醉移动芯片技术的国产化突飞猛进的时,新一代AI芯片已经开始来势汹汹。而这浪声势,早已有中国公司的身影。

9月2号,华为在2017年德国柏林国际消费电子产品展览会上发布麒麟970芯片,定位为华为首款人工智能AI移动计算平台。这款芯片将在华为手机Mate 10上启用。

c15ba86d055143b3ada4b1958b427dc7.png

一晚上的时间,这条消息爆燃网络。大众对芯片的认识,开始准备接受一个新概念: 人工智能(AI)芯片。

上一篇文章《从机器人悠悠,来扒一扒人工智能的历史》扒过人工智能的发展历史,可知这一轮人工智能的革命是深度学习系统派。那么当前诞生的AI芯片,顾名思义就是能满足深度学习计算能力的电子集成处理器。

那么这个AI芯片到底有什么革命性呢?先来搞明白深度学习的需求点。

深度学习作为新一代计算模式,本质上是多层次的人工神经网络算法,即模仿人脑的神经网络,从最基本的单元上模拟了人类大脑的运行机制。由于人类大脑的运行机制与计算机有着鲜明的不同,深度学习与传统计算模式有非常大的差别。

5c9b18804c6447f0bfaf5b151244a229.png

深度学习的人工神经网络算法与传统计算模式不同,它能够从输入的大量数据中自发的总结出规律,从而举一反三,泛化至从未见过的案例中。因此,它不需要人为的提取所需解决问题的特征或者总结规律来进行编程。人工神经网络算法实际上是通过大量样本数据训练建立了输入数据和输出数据之间的映射关系,其最直接的应用是在分类识别方面。例如训练样本的输入是语音数据,训练后的神经网络实现的功能就是语音识别,如果训练样本输入是人脸图像数据,训练后实现的功能就是人脸识别。

深度学习与传统计算模式最大的区别就是不需要编程,但需要海量数据并行运算。

传统处理器架构(包括x86 和ARM 等),一般由中央运算器(执行指令计算)、中央控制器(让指令有序执行)、内存 (存储指令)、输入(输入编程指令)和输出(输出结果)五个部分构成,其中中央运算器和中央控制器集成一块芯片上构成了我们今天通常所讲的 CPU。这个架构往往需要数百甚至上千条指令才能完成一个神经元的处理,因此无法支撑深度学习的大规模并行计算需求。

那么现在有什么硬件可以满足深度学习的并行运算呢?

GPU和FPGA

GPU作为应对图像处理需求而出现的芯片,其海量数据并行运算的能力与深度学习需求不谋而合。因此,它被最先引入深度学习。2011 年斯坦福大学教授吴恩达率先将其应用于谷歌大脑中便取得惊人效果,结果表明12 颗NVIDIAD 的GPU 可以提供相当于2000 颗CPU 的深度学习性能,之后纽约大学、多伦多大学以及瑞士人工智能实验室的研究人员纷纷在GPU 上加速其深度神经网络。

FPGA全称现场可编程门阵列(Field-Programmable Gate Array),最初作为专用集成电路领域中的一种半定制电路而出现的,具有一定的可编程性,可同时进行数据并行和任务并行计算,在处理特定应用时有更加明显的效率。FPGA的应用领域主要是深度学习和神经网络算法,因为其可编程性,这让FPGA在深度学习领域拥有了得天独厚的优势。

然而,目前GPU和FPGA各自都有其局限性和优劣,比如GPU硬件结构固定不具备可编程性,无法像FPGA 一样可以灵活的配置硬件结构。 运行深度学习算法能效远低于FPGA。而FPGA基本单元的计算能力有限,但是每个单元的计算能力都远远低于CPU 和GPU。另外FPGA价格较为昂贵,在规模放量的情况下单块FPGA 的成本要远高于专用定制芯片。

以深度学习为代表的人工智能计算需求,发展早期,主要采用GPU、FPGA 等已有适合并行计算的通用芯片来实现加速。由于这类通用芯片设计初衷并非专门针对深度学习,因而,天然存在性能、功耗等方面的瓶颈。

而进入人工智能(AI)芯片发展阶段,就是专门满足深度学习并行运算能力的定制化芯片。其底层系统平台架构是从GPU或者FPGA发展而来,对其重新设计。

设计芯片的目的是从加速深度学习算法到希望从底层结构模拟人脑来更好实现智能。

目前人工智能芯片涵盖了 基于FPGA 的半定制、针对深度学习算法的全定制、类脑计算芯片 三个阶段。

3b6733d46455485f972736e8543d54ee.png

1、基于FPGA 的半定制人工智能芯片, 如国内初创公司深鉴科技,该公司设计了“深度学习处理单元”(Deep Processing Unit,DPU)的芯片,希望以ASIC 级别的功耗来达到优于GPU 的性能。

2、针对深度学习算法的全定制, 就是完全采用ASIC 设计方法全定制,性能、功耗和面积等指标面向深度学习算法都做到最优。谷歌的TPU 芯片、我国中科院计算所的寒武纪深度学习处理器芯片就是这类芯片的典型代表。 华为麒麟970的技术授权就是来自寒武纪。

![](http://upload-images.jianshu.io/upload_images/4779743-b230a573babbdf77.jpg?imageMogr2/auto-orient/strip%7CimageView2/2![ef01756bb05646b8b638bb37e145e119.png](https://img.imspm.com/file/2017/9/ef01756bb05646b8b638bb37e145e119.png)

谷歌的TPU 芯片

3、类脑计算芯片, 这是人工智能芯片的未来发展阶段,其设计目的不再局限于仅仅加速深度学习算法,而是在芯片基本结构甚至器件层面上希望能够开发出新的类脑计算机体系结构,比如会采用忆阻器和 ReRAM 等新器件来提高存储密度。这类芯片的研究离成为市场上可以大规模广泛使用的成熟技术还有很大的差距,甚至有很大的风险,但是长期来看类脑芯片有可能会带来计算体系的革命。这类芯片的典型代表是IBM 的TrueNorth 芯片。

类脑计算芯片市场空间巨大。据预测,包含消费终端的类脑计算芯片市场将在2022 年以前达到千亿美元的规模,其中消费终端是最大市场,占整体98.17%,其它需求包括工业检测、航空、军事与国防等领域。
6e8b79b0646d4f26b239631754cad65e.png

上面谈到华为刚发布的人工智能移动芯片麒麟970, AI 技术授权来源寒武纪(中科寒武纪科技有限公司)。公司由计算机体系结构国家重点实验室(依靠中国科学院计算技术所)孵化出的全球首个 AI 领域的独角兽。 这是一个国人将会引以为傲的伟大公司。 8月18日,寒武纪科技完成1亿美元A轮融资,寒武纪科技已经成为全球AI芯片领域第一家独角兽。

我们的目标是通过这个全新的完全自主的指令集,构建未来智能时代的 x86 生态。——寒武纪CEO 陈天石

2016 年 3 月份,寒武纪-1A(Cambricon-1A)问世,这也是全球首个商用深度神经网络处理器 IP(Intellectual Property)。寒武纪通过授权的方式推广 AI 指令集,来快速推动市场发展。寒武纪作为AI基础层厂商将IP授权给应用层企业,华为等IT企业作为基础层厂商的技术优势,利用这些技术,快速在手机AI芯片等前沿领域实现应用量产。其首款集成寒武纪芯片的商用产品就是麒麟 970。

麒麟970的发布,代表在手机移动市场,AI芯片的将会迎来大规模商业化应用。

而事实上,人工智能的市场空间将不仅仅局限于计算机、手机等传统计算平台。从无人驾驶汽车、无人机再到智能家居的各类家电,至少数十倍于智能手机体量的设备需要引入感知交互能力。而出于对实时性的要求以及训练数据隐私等考虑,这些能力不可能完全依赖云端,必须要有本地的软硬件基础平台支撑。 人工智能定制芯片需求量就将数十倍于智能手机。

在智能时代,人工智能将推动这一轮计算革命。而芯片也将是人工智能时代的开路先锋。正如英特尔X86 处理器芯片垄断所的PC时代,ARM 移动处理器芯片所垄断的移动互联时代,下一个智能时代,也将是AI芯片的天下。

未来代表AI芯片技术垄断地位的公司会不会属于中国,我们不妨期待!

-end-


作者:曹涛CT,产品经理,互联网追风人。

关键字:产品经理, 业界动态, 深度学习


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部