手机双镜头、眼睛与进化
不断地增大镜头光圈、增加镜片数目、增大CMOS面积、加入光学防抖等零部件等手段在空间受限的情况下将手机照相能力提高到了尽头,更准确地说,是单个镜头的成像能力的增长受限于边际效用递减定律。于是包括iPhone 7 Plus在内的多款手机开始采用双镜头设计。从单镜头到双镜头的过渡,意味着手机设计厂商越来越倾向于将镜头的功能视作不仅是“成像”工具,更是“数据”采集器。要使双镜头的优势充分发挥,关键已经不单单是光学,而是合成算法。在iPhone 7的发布会上,Apple的高管Phil Schiller指出,他们在iPhone 7的镜头里大量使用机器学习(Machine Learning)。因此,不少分析人士认为手机镜头正在步入影像算法和人工智能的新时代。
iPhone 7 的镜头里大量使用机器学习
镜头之于手机让人想起眼睛之于动物。不妨回顾下眼睛的进化史,看看镜头的设计与眼睛有何相通之处。
不同生物的眼睛发展出了不同的形状、不同的机制和各种各样的能力。昆虫有令人惊艳的复眼,能将多个光接收单元组合在一起生成一幅环境的合成图像。它们的复眼甚至在形状上也是多种多样的——从并置到叠加,从抛物线到多面体。作为哺乳动物,比起昆虫的复眼,我们更熟悉的是非复眼,非复眼的结构同样多得令人目不暇接:坑状眼(pit eyes)的构造宛如其名——一个简单的眼点置于一个“坑”中,也许类似于最早的非复眼。带有球形晶状体和多晶状体的眼睛可以生成更清晰的图像,这类眼睛存在于腹足纲动物(例如蜗牛)和头足纲动物(例如章鱼)身上。大多数陆生脊椎动物,包括哺乳动物、爬行动物和鸟类,则都有带着屈光角膜的晶状体眼睛,包括一个凹透镜,可以将投影在眼睛后部图像放大到视网膜上处理。视网膜由一片感光细胞组成,可以将光产生的信号通过视觉神经传入大脑。眼睛在生命的长河中至少独立演化了40次。也就是说,现在所有动物的眼睛并不是由某个共同祖先的眼睛演化而来,而是多条动物分支的多个祖先先后独立演化出了不同的眼睛。
多种多样的动物眼睛 图片来源:Wikimedia Commons
大多数脊椎动物,例如鱼类,鸟类和爬行动物,在视网膜上有着大量的视锥细胞,因此可以探测到广范围的颜色。然而哺乳动物拥有的视锥细胞则较少,取而代之的是大量的视杆细胞,因此颜色分辨能力被削弱,夜视能力却好得很。一般哺乳动物的色盲称为红色盲(protanopia),它们分不清光谱中红-黄-绿的部分。灵长类动物是少数拥有不错颜色视觉的哺乳动物之一,这多亏我们祖先产生了额外的视蛋白基因拷贝。视蛋白是视网膜上感光细胞中的感光蛋白,它们能把光线转化为电信号。我们祖先产生的这次基因重复使它们能够分辨颜色,这或许给他们提供了在森林环境中搜寻成熟果子的生存优势。
眼睛演化图示。图片来源:Matticus78/Wikimedia Commons
脊椎动物的光感细胞主要分为两类:视锥细胞和视杆细胞。视锥细胞对光线没那么敏感,但能够通过探测不同光线的峰值波长来帮助动物区分颜色。视杆细胞则在弱光环境中更为敏锐,但这是以欠佳的清晰度为代价的。动物世界中各种眼睛的视网膜上都含有不同数量的视杆细胞和视锥细胞。视锥细胞是眼睛中的光感受器,之所以你能够分辨种类繁多的颜色,而你的狗狗不能,就来自于视锥细胞的差异。你也许会觉得视杆细胞应该先出现,然后才演化成更复杂的能区分颜色的视锥细胞——就跟黑白照片早于彩色照片出现一样,但实际上并非如此:类似视锥细胞的光感受器先出现,然后才演化出了视杆细胞。视网膜上的视杆细胞,甚至还在利用视锥细胞的回路。在工业社会中的我们几乎用不到视杆细胞,它们只在低亮度下工作;大部分时间里我们的视觉完全基于视锥细胞所提供的信息。视网膜上的视锥细胞有三类,分别对红色、绿色和蓝色光敏感(这意味着我们的色觉与摄影机和计算机显示器类似),用过红色、绿色和蓝色像素的组合来探测形成多种颜色。需要特别指出的是,每种视锥细胞敏感的光谱比你想象的还要广,并且三者的敏感范围是互相重叠的;此外,这三类视锥细胞的敏感度相差非常大。
视网膜三类视锥细胞对光的敏感度(a),对比人造红色、绿色和蓝色光感受器对光的敏感度(b) 来源:《认知与设计》
对于大脑而言,综合处理感光细胞传递的信号才能在意识层面“正确”呈现各种颜色。在大脑后部视皮层上的神经元将通过视神经传递来的中频和低频视锥细胞的新报去掉,得到一个“红-绿”减影信号通道。其他神经元将来自高频和低频视锥细胞的信号去掉,得到一个“黄-蓝”减影信号通道。第三组神经元将来自低频和中频视锥细胞的信号相加产生一个整体的亮度(或者叫“黑-白”)信号通道。这三个通道叫做颜色对抗通道。接下来大脑对所有颜色对抗通道做更多的减法处理:来自视网膜上的某个区域的信号将被从来自其附近区域的类似信号中减掉。
看起来一切构造似乎都很精密完美对吗?然而生物学家指出,脊椎动物的眼睛存在一个非常糟糕的“设计”:视网膜内的神经元其实朝向后方,光线必须绕过好几层神经元和一片毛细管网最后才抵达能够感光的神经末梢。光线照在视网膜朝向后方的光感受器上后,光感受器又必须将信号穿过视网膜的许多层结构,才能传回眼睛前方。传送期间,神经元会处理信号,把影像调清晰。视网膜神经元的最上层与位于视网膜顶端的视神经联结,视神经为了从眼睛到达脑后方,又必须汇聚到视网膜上的一个特定“孔洞”中、从这里钻过视网膜、穿越重重神经元与毛细管,形成了没有感光细胞的视觉盲区。这样的构造被进化生物学家威廉姆斯(George Williams)毫不客气地批评为“愚蠢的设计”。除此之外,眼睛的结构还有其他数条不合理之处。幸而眼睛在光学、构造等方面的欠缺在漫长的演化过程中不断得到修补,自然选择像修理工一样在视网膜初始的大型安装错误之后大力工作,最终将其修复成一台高品质的精密仪器。在《失控》第三章中Kevin Kelly说,“眼睛是最重要的感官,其本身就相当于半个大脑(塞满了神经细胞和生物芯片)”,最终在意识层面所察觉的视觉信息是由眼睛和大脑协同处理的结果。
说了一大通关于眼睛的演化、功能的内容,回过头来看一下目前较为常见的双镜头设计思路。目前的消费级设备上的双镜头运算,主要以两种方式为主,一是双目“叠加”,二是双目“视差”。手机的双镜头运算,目前主要以“叠加”来增强摄影功能。HTC One和iPhone 7一样,均以双镜头为手段,让手机在没有变得更厚的情况下,把两个影像数据对比,然后进行像素叠加,借此达至无损/低损的数码变焦功能。
而华为在双镜头的处理则有点不同:它们以一个黑白、一个彩色的镜头组合,利用黑白传感器有更佳光线感应能力的优势,再把彩色镜头的色彩信息叠加(下图),借此取得更好的低光拍摄能力。不过,两者都可以把不同焦距的效果叠加,然后让用户能在后期调整景深。
华为在双镜头上的处理方法
而目前不少非手机设备的双镜头运算,却是以“视差”来测距,借此进行3D建模。目前的体感游戏设备、VR设备、以致无人机和无人驾驶汽车的自动避障功能,均过双镜头摄影机透过镜头之间的距离,使影像出现“视差”,然后再把两个不同的影像数据对比,用三角算法计算出镜头与对像之间的距离,并即时绘画立体影像,借此渲染虚拟影像、或计划安全的行驶路线。
“双目叠加”和“双目视差”的设计,在目前的科技下存在较强的冲突:双镜头的两个影像的差距愈少愈好,系统才能更准确的把影像无瑕叠加,故此,两个镜头必须尽量靠拢在一起;但VR/AR所用的双目视差,两个影像必须有够差距,两者之间的夹角才能增加,运算精度才能提高,所以两个镜头之间的距离必须愈远愈好。而且,目前使用双目视差来进行3D建模,所需要的计算能力远远比影像叠加要高。
考察眼睛的演化、生理构造、功能实现,对比双镜头的发展,或许有这样一些启发:
(1)出色的成像结果有赖于计算元件对于原始数据的处理。把计算能力和影像处理深度整合可以使手机拍照体验大幅提升。
(2)多个镜头的成像可以大大弥补单个镜头在色彩、对比度、边缘成像等方面的缺陷,而处理多重图像的算法是实现该功能的核心。部分型号手机由于在机器学习算法处理图像尚不尽如人意招致无尽吐槽。
华为双镜头处理效果招致吐槽
(3)尽管目前对于图像合成所采用的技术部分依靠于机器学习的研究,随着IBM造出人工神经元等技术实现突破和脑科学、神经科学的前沿进展,模仿人脑的人工智能研究路径应该会受到越来越多的重视,这个路径对于计算资源的消耗相对于机器学习来说要小很多,应用于移动设备值得期待。
(4)上述讨论大多集中于脊椎动物的非复眼结构,而昆虫等生物的复眼结构同样精巧到让人赞叹,是否可以从复眼的结构中得到成像新元件的灵感?
谢宏声在《图像与观看》一书开篇指称:“观看,知悉现实的首要途径。没有目光的朗照,万物没入黑暗,归于死寂”,并指出“马丁·杰将整个西方文化特征归结为视觉中心主义;罗蒂也认信视觉隐喻贯穿并支配西方思想史;以德博尔的研判,这一景观社会秉承西方哲学的观看传统,它基于技术理性(precise technical rationality),企图以观看理解全部人类活动”。在技术时代,作为视觉动物的人部分让渡了观看能力于视觉机器,视觉焦点从周围环境转到智能产品和智能产品处理后的影像。“人类在创造复杂机械的进程中,一次又一次地回归自然去寻求指引”,Kevin Kelly在《失控》如是说。如何将对眼睛的进化、视觉的哲学理解融入到智能产品中,值得创造者们去深入思考。
部分内容综合爱范儿、环球科学的报道,特此致谢。
参考:
Jeff Johnson.Designing with the Mind in Mind: Simple Guide to Understanding User Interface Design Guidelines,Second Edition, 2014(中译本为《认知与设计:理解UI设计准则》(第二版),人民邮电出版社,2015)
Kevin Kelly. Out of Control: The New Biology of Machines, Social Systems, and the Economic World(中译本为《失控:全人类的最终命运和结局》,新星出版社,2010)
谢宏声《图像与观看:现代性视觉制度的诞生》,广西师范大学出版社,2012
卡尔·齐默《演化:跨越40亿年的生命记录》,上海人民出版社,2011
理查德·道金斯《地球上最伟大的表演:进化的证据》,中信出版社,2013
2016.10.30
文/若愚若昏
关键字:产品经理, 视锥
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!