文…安城发布…孪生安防安城在年8月8日参加了雷锋网在深圳举办的CCF-GAIR全球人工智能与机器人峰会,收获最大的莫过于听到了院士高文带来的主题演讲《城市大脑2.0–边端云合理分工的人工智能赋能系统》,高文同时也是鹏城实验室的主任,他所倡导的数字视网膜理论深入人心,安城曾多次聆听高院士关于数字视网膜的演讲,但这次院士带来了视网膜的成像原理和机理,让人眼界大开,于是便有了这篇文章。高文院士在演讲视网膜(Retina)为眼球壁的内层,分为视网膜盲部和视部。图片来源:百度百科视网膜盲部包括视网膜虹膜部和视网膜睫状体部,各贴附于虹膜和睫状体内面,是虹膜和睫状体的组成部分。视网膜视部常简称视网膜,为一层柔软而透明的膜,紧贴在脉络膜内面,有感受光刺激的作用。视网膜厚度不一,一般为0.4mm,视盘边缘最厚,约0.5mm,中央凹最薄,为0.1mm,至锯齿缘为0.15mm。视网膜自外向内分为10层:视网膜组成部分①色素上皮层:由单层色素上皮细胞构成;②视杆视锥层:由视杆细胞和视锥细胞的外突构成;③外界膜:由Muller细胞的外突末端连接而成;④外核层:由视杆细胞和视锥细胞的细胞体组成;⑤外网层:由视杆细胞和视锥细胞的内突及双极细胞的树突构成;⑥内核层:由双极细胞、水平细胞、无长突细胞和Muller细胞的胞体构成;⑦内网层:由双极细胞的轴突和无长突细胞及节细胞的树突构成;⑧节细胞层:由节细胞的胞体组成;⑨神经纤维层:由节细胞的轴突组成;⑩内界膜:为Müller细胞的内突末端连接而成。视网膜含有可以感受光的视杆细胞和视锥细胞。这些细胞将它们感受到的光转化为神经信号。这些信号被视网膜上的其它神经细胞处理后演化为视网膜神经节细胞的动作电位。视网膜神经节细胞的轴突组成视神经。视网膜不但有感光的作用,它在视觉中也有重要作用。在形态形成的过程中,视网膜和视神经是从脑中延伸出来的。(左)脊椎动物视网膜(右)头足纲动物视网膜来源:维基百科脊椎动物(如人)眼睛的视网膜是反向的,其感光细胞位于视网膜的反面。光要穿过整个视网膜才能到达感光细胞,使成像变得模糊。头足纲动物的视网膜是正向的,它们的感光细胞位于视网膜的正面,神经位于感光细胞后面,因此头足纲动物没有盲点。顺便说一句的是:年,乔治·沃尔德、哈尔丹·凯副·哈尔特林和拉格纳·格拉尼特因对视网膜的研究获得诺贝尔生理学或医学奖。视觉认知计算是城市大脑的核心,这是院士高文的观点。那么人类视觉系统带给我们什么样的启发?正是院士要表达的内容。动物视觉系统大多数动物都依赖于中枢神经系统来处理图像的,人也不例外,从眼球到视网膜、到中枢神经、到大脑,有一套完整的视觉体系。人的视觉系统是非常合理的、能效比非常高的系统,比如说我们每天只消耗相当于20瓦电灯泡的能耗就能完成很多的事情。人的视觉系统为何可以做到如此的低功耗、高效率?人的视觉系统主要由三部分组成:眼睛、视觉通路和大脑的视觉眼,这三部分分工非常严密。图像在视网膜中的编码比如说大脑有了一个刺激信号,通过神经通路传到大脑不同的视觉眼,不同的视觉眼分工做不同的响应,就可以完成很多事情,比如说感知、决策等。大脑对视觉图像的响应路径与延迟MaunsellandGibson;Raigueletal.;Nowaketal.;Schmoleskyetal.;Thorpe,FizeMarlot不同的感知路径或者不同任务的复杂度,人的反应速度是不一样的。上图是年一张研究的示意图,可以看到当你给一个人下了一个指令说“按一下绿色按钮”,这个响应是要经过一定延迟的,比如说视网膜有35ms的延迟,从视网膜到下一个环节又有45ms的延迟,最后到了肌肉、手指头动作下去,大概有ms的延迟,这个延迟告诉我们,对不同的任务,整个视觉通道和大脑的处理分工是非常严谨的,使得简单的任务可以响应很快,复杂的任务响应很慢,分工合作,这样的系统就能做到能量最优化。视网膜的构成视网膜结构(RetinaStructure)是非常复杂的。视觉系统最前端是视网膜,它的结构是由感光细胞(photoreceptorcell)、双极细胞(Bipolarcell)和神经节细胞(Ganglioncell)三类细胞组成的。而感光细胞中又包括锥状细胞(ConeCell)、杆状细胞(RodCell)。视觉通道与视觉特征编码MaunsellandGibson;Raigueletal.;Nowaketal.;Schmoleskyetal.;Thorpe,FizeMarlot视网膜里面,大概有1.2亿到1.26亿个感光细胞,其中锥状细胞有多万个(RGB各1/3),杆状细胞有1.2亿个,它们可以感知光线的强弱等等。这些感光细胞通过双极细胞,最后汇聚到神经节细胞,进到神经纤维、视觉通道,通过大脑进行传输。而人类大脑拥有亿(约10^11)个神经元(neurons)、亿个神经细胞。视神经网络拥有大约万个神经节细胞,换句话说从视网膜到视神经,它已经有一个差不多:1的减缩,这个减缩可以把它理解成视觉信号的压缩,或者特征压缩。听起来都好复杂,还有更烧脑的在后面,且听且看。当然它不仅仅是一个压缩,它和后面的感知是紧密相关的,比如根据任务的简单和复杂程度,它们提取的视觉特征也不一样,简单的任务就会优先采取相关的策略,复杂的任务,它就把相关的信息往后传。一个生物识别系统的简化模型,从视网膜到大脑,信息进来以后经过一个特征的编码压缩,特征提取出来以后向后传输,传到智能主体(大脑),所以在视网膜这一端是一个定制的轻量级的计算,通过视神经这样一个有限带宽的通信送到智能体。这样一个简化模型,对视觉通道是有很大作用的,所以大脑上有一个通用计算,这里可以把它整个特征的类别分为结构特征和行为特征,这个模型是经过自然进化,最后产生出这样一个优胜劣汰找到的答案。这个答案告诉我们仿生视网膜的架构,它有非常好的能量优化的特点,这个特点可以给我们提供一个很好的借鉴,如果我们想把整个城市大脑也做得能量优化或者能量高效化,就可以按照这样的构造来进行结构。生物视觉系统的简化模型所以从视网膜传到大脑之间,它是一个特征压缩,叫做特征编码,当然这个编码和现在传统的图像编码并不一样,它是一个特征压缩编码的东西送到大脑中去。当下流行的城市大脑不仅能传特征编码,也能传压缩图像,因为有时候还需要用人眼去确认一些内容,所以可见光的压缩图像也还是要传的,这就使得现在城市大脑里的架构和真人的视觉系统并不完全一样,就需要两个综合或者绑定的系统。院士高文年以第一作者的身份在《中国科学》上发表了一篇论文《数字视网膜:智慧城市系统演进的关键环节》,提出了基于边、端、云结合的技术数字视网膜,被高文院士认为是城市大脑的一个基本架构,也被称之为仿生视网膜的计算架构。现有视频监控系统中,采用的是自然形成的1-1模式监控技术架构,即一个摄像机输出一个视频流,面向一种功能或用途。在技术上,1-1模式采用的是“源端图像视频压缩→传输→后端特征提取与分析识别”的框架,这种模式的好处是设备的安装调试比较简单。然而,由于特征提取与分析识别需要在解码重构后的图像视频上完成,压缩将必定影响其性能。为了减少传输带宽和节省存储,部分视频监控系统甚至过度压缩,从而造成图像视频质量过低,视觉特征受损,严重影响分析识别精度。一种可能的解决方案是将多种不同的分析识别算法同时嵌入到摄像头端,例如一些智慧停车摄像头集成了车牌识别、车辆跟踪与违章检测等功能,一些人脸抓拍摄像头集成了“人脸检测与识别”功能。从1-1模式扩展到了1-m模式,是视频监控厂商研制智能摄像头时所采取的主要技术路线。1-m模式大大提升了摄像头的利用效率与智能化水平,但是这种单纯强调“边缘计算”的方案仍然无法解决“眼脑合一”的问题,,无法高效支撑云端的大规模监控视频分析与视觉搜索。数码相机的生物学原型是人类的视网膜。就像数码相机中能采集“像素”一样,视网膜能获取并编码大量的视觉数据。然而,生物学研究表明,除了能编码像素之外,视网膜还可以提取并编码场景或物体的特征,如纹理、轮廓等。因此,视网膜可以看作是一个并行图像处理器:利用感光器阵列获取图像或视频,使用其内部电路来计算场景的神经表征,再通过神经节细胞的轴突将其传送到更高层的视觉系统。从这个角度来看,传统的数码相机仅仅只模拟视网膜的一部分功能。因此,一个自然的问题就是,如何借鉴“人类视网膜同时具有影像编码与特征编码功能”这一生物特性来研究和设计一种更高效的摄像头。高文院士称之为数字视网膜摄像头(retina-likecamera),简称为数字视网膜(digitalretina)。院士高文所定义的数字视网膜必须满足如下条件:(a)使用全网统一的时间;(b)提供精确地理位置;(c)提供视频数据的高效编码功能;(d)提供视频数据的紧凑特征表达;(e)支持视频编码与特征表达的联合优化。与以往传统摄像头相比,数字视网膜的核心在于“单摄像机双数据流”,其中压缩视频流是为了存储和离线观看,而紧凑特征流则是为了大数据分析与搜索。数字视网膜成为连接城市大脑的“慧眼”.通过“特征实时汇聚+视频按需调取”来支撑城市视频大数据分析和搜索以上都是高文院士在论文中描述的数字视网膜技术。其实在演讲中,院士还做了一些补充:数字视网膜的8个特征:UnifiedtimestampThegeographicallocationHighefficientvideocodingHighefficientfeaturecodingJointoptimizationbetweenvideocodingandfeaturecodingHighefficientmodelupdatingTop-downattentionSoftwaredefinedfunctionX数字视网膜现在形成了有8个特征的定义,这8个特征原则上分成三大组。第一组特征的定义是和时空有关的,一个数字视网膜的终端必须要有全局统一的时空ID,包括全网统一的时间和精确的地理位置,比如说GPS或者北斗的位置。第二组特征简单来说是视频编码+特征编码+联合优化,这是所有的摄像头都应该支持的一个工作,当前绝大部分摄像头只支持视频编码。视频编码就是为了存储和离线观看影像重构。特征编码是为了模式识别和场景理解的紧凑特征表达,联合优化是因为现在在城市大脑里面它有两个码流,一个是视频编码压缩流,一个是特征编码压缩流,这两个码流会捆绑到一起进行传输,所以我们要有一个优化策略,把这个带宽到底分多少给视频编码、分多少给特征编码,这样通过一个联合优化,使得整个系统是最优的。第三组特征就是模型可更新+注意可调节+软件可定义。模型可更新是指支持端/边深度学习模型的自适应迁移、压缩、更新与转换;注意可调节是指模拟视觉注意机制,在端设备、感知网络等层面实现动态注意调节;软件可定义是指支持端边云协同计算与推理,实现特征实时汇聚与视频按需调取。数字视网膜中有个很关键的技术就是特征编码,特征编码有两个核心:一个是CDVS,另一个是CDVA,这两个核心现在也是国际标准MPEG-7里面的两部分,对应第13部分和第15部分。CDVS,MPEG-7part13CDVA,MPEG-7part15[Makaretal,TIP,]传输视频、传输图像块以及传输特征对比为什么要做视觉特征的压缩?根据不同的特征,提取出来的特征数据可能很大,如不压缩,可能特征数据比图像本身都大,只有2种结果:要么传个图像过去、要么传特征的话数据太大,所以就要对它进行特征压缩。如何进行压缩?如果是先把图像编码传过去再提取特征再进行识别,和先把特征提取出来然后把特征传过去再识别,这两个其实有一个剪刀差,可能有时候识别率会先差百分之二三十。深度学习特征的压缩编码技术框架如果先压缩,可能有一些比较有用的特征丢了,所谓编码压缩是保留公共部分,把一些非公共的、非常见的东西压缩掉了,而非常见的部分恰恰可能是特征,识别率可能就下来了,所以要先提特征,再在云端识别这样一个技术策略。最好的选择是先提取特征,怎样提特征体量比较小,专门做了一个面向深度学习的编码压缩的框架,这个主要是给小视频来做的,有了这两个部分以后,基本上可以应对图像特征编码和视频特征编码这两个需求。CDVS就是图像特征编码,CDVA是视频特征编码。CDVS是手工特征,使用的是一个类SIFT的特征集,采用SIFT当你给的比特数据比较少的时候,它就给一些比较宏观的特征。基于这样的思路,用这种类SIFT,院士提出了一个特征表达的标准,然后来看它的性能,经过几年的时间,这个性能越提越高,最后把它固定下来。CDVS实际上是从年2月份就开始做,到了年6月份就做完了,就完全冻结掉了,最后成为国际标准,所以差不多花了4年的时间把它做出来。CDVA是在年做完以后,标准化组织团队就马上转向利用深度学习去做视频分析特征压缩的问题,也是花了差不多两年多、三年的时间慢慢把它做出来,这个是可以对深度网络的短视频,用它做特征的提取、做表达,后面每次这个特征的性能都会有所提高,对不同的网络,它的特征的检出和特征识别的效率也都在逐步提高,所以每次提高的趋势。而联合优化就是在视频编码和特征编码之间,要找到一个最优的结合点,使得这两个流捆绑到一起的时候,脑力分配是最优的,上面这个流是视频压缩流,下面这个流是特征压缩流,这样送到云里,它俩合起来是最优的。《神经网络模型表示与压缩》标准年6月获得AITISA团体标准立项年7月12日获得国家标准立项除了数字视网膜本身以外,配合人工智能技术的推进,也需要推动AI技术的国家标准,包括神经网络模型表示与压缩的标准、城市级大数据汇集关联的规范和标准。数字视网膜系统标准体系数字视网膜系统标准路线图数字视网膜简单来说是三个编码流合并的系统,前两个是最主要的,就是视频流和特征流,这两个流时时刻刻都是汇集到一起进行传输的,第三个是模型编码,只是在模型需要压缩的时候,从云端推到边缘端或者终端上,进行一些增量的更新。有了数字视网膜,就相当于城市大脑边缘或者是终端方面就可以做得更高效,效能比更高,这样就可以使得云端的算力不需要那么多,或者说云端的响应可以更精确、速度更快,这样就使得城市大脑可以做得更好一些。路远且长,安城提出的孪生安防理论中的孪生相机基本吻合了高文院士的数字视网膜,两种技术的结合,不知道可以产生多少火花。接下来让我们一起来欣赏一段视频(带声音):世界的真实颜色。视频来源:抖音号qlodbolp、机长、科学时光机参考资料:高文.城市大脑2.0边端云合理分工的人工智能赋能系统.CCF-GAIR高文,田永鸿,王坚.数字视网膜:智慧城市系统演进的关键环节[J].中国科学:信息科学,,48(08):-.张栋.高文院士:城市大脑的「痛点」与「突破」丨CCF-GAIR.雷锋网..08.08世界真实的颜色.抖音.qlodbolp科学时光机备注:若无特殊说明,文中配图均来自高文院士的演讲文稿。文章编号:gh_0ed8c2d10..58如需获取更多资料和信息,或者您想和安城进行交流,请在后台回复关键词:lsaf,平安!安城小编
转载请注明:http://www.shiwangmotuoluo.com/stjg/14977.html