您的位置  油气能源  非常规气

中科院自动化所副所长刘成林教授:模式识别,从初级感知到高级认知

  • 来源:互联网
  • |
  • 2021-11-27
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

中科院自动化所副所长刘成林教授:模式识别,从初级感知到高级认知

感知(模式识别)是从传感数据判断模式的存在、类别,给出结构描述和关系描述的过程。目前以深度神经网络为主的模式识别方法只解决了初级感知(检测、分类)问题,属于高级感知层面的结构和关系理解已有一些研究进展但还没有解决,而结合知识进行模式识别和理解并把结果用于决策规划则属于高级认知的范畴,是未来要加强研究的方向。

作者 | 杏花

编辑 | 青暮

以下是演讲全文,进行了不改变原意的整理。

  • 一类是狭义的,就是根据某种客观标准对目标进行分类和标记,这里主要是指分类。
  • 另一类是广义的,就是对数据中的目标、现象或事件进行分类或者描述。这个描述就是一个比较复杂的感知过程,因为描述实际上要对模式的结构进行理解。

如果要扩展到描述,就要对物体内部结构和图像中多个物体之间的关系进行分析,最后用自然语言句子描述出来。比如下图这个图像,它最后给出的结果可能是:“穿火箭队11号球衣的姚明与教练站在一起”,如果不知道这个人是谁,结果可能是“两个身高相差很大的人站在一起”,这就是一个比较复杂的模式理解过程。

比较初级的感知,如检测或者分类或者对纹理进行判断,需要比较少的知识,我们把它称为初级感知。比较高级的感知就是要对这个模式有比较深入的理解,而且可能需要用到一些先验知识。

认知一般是指基于知识进行逻辑推理,其范畴包括知识的获取、推理、语义理解等,很多时候认知与感知混在一起,比如我们与人交流时,眼睛同时在看,耳朵同时在听,并且脑子同时在思考。即使不看不听,闭眼思考时,也不是一个纯粹的逻辑推理过程,因为脑子在思考时也会浮现一些图像,所以感知与认知有很多交叉。这个交叉的部分可以看作是高级感知,因为它要用到一些知识对模式进行深入的理解。更进一步,如果到高级认知,则是一些跨模态或者跨任务的比较复杂的推理过程,或者基于语义的应用(如回答问题、人机交互、自动驾驶决策等)。

从模型学习的角度来说,有关学习方法又分为生成学习或者判别学习,判别学习是为了提高模型的分类能力,比如神经网络主要是判别学习,而生成学习是为了得到一类数据的表示模型。

1. 当前主流方法

最近这十几年神经网络方向提出了大量不同的模型结构和学习算法,包括各种卷积神经网络、循环神经网络、生成对抗网络、图神经网络,还有现在的 Transformer 等。

从模式分类角度说,大部分神经网络相当于一个映射函数,实现从输入到输出的一个映射。如果用于模式分类,输入一个图像,则把它直接映射到一个类别,或者映射到特征空间里面某个区域,实现分类。

图像分割问题过去也是很难的,这是一个像素分类问题,就是把每个像素分类到不同的物体或背景区域。根据不同的需求,现在提出了所谓的语义分割、实例分割、全景分割等多种有效的方法,都取得了很大进展。

图像描述,就是给定一幅图,用自然语言句子描述这个图像的内容。端到端的方法,就是底层用一个卷积神经网络去提取特征,然后上面加一个循环神经网络,即 LSTM 神经网络去生成语言。这两个网络进行联合训练,用大量图像和语言配对的数据去训练神经网络,就可以达到比较好的语言描述性能。最近也有一些可解释性更好的深度神经网络方法,把自底向上的物体检测与自顶向下的语言生成模型结合,先检测到很多候选物体区域,然后对它们进行关系分析的基础上生成句子。

像后面这个图像,神经网络描述为“一个小孩拿着棒球棒”,明显是错的,而且逻辑上也不通,这么小的孩子不可能拿一根棒球棒;右上角这个交通标志图上只是加了几个黑点,就把它判断成一个限速标志。还有下面这些图像描述结果也是不对的,倒数第二个是一个标志牌,上面贴了一些贴纸,就被认为是一台冰箱。因为深度神经网络没有可解释性,所以它的鲁棒性也很差。

基于图的方法,到现在为止还是一种主流方法。早在1973年,美国的两名科学家就在 IEEE Transaction on Computers上发表文章,提出Pictorial Structure(图形结构),就是一个物体由多个部件构成,不同部件之间的关系用一个弹簧表示,这与我们今天的图结构很相似。

到了2005年,芝加哥大学的Felzenszwalb等人用概率图模型实现这种图结构方法,用于人体姿态估计和人脸检测。后来又发展出判别性的基于部件的模型,这个部件模型表示了一个物体的多个部件,每个部件的形状、位置和物体整体形状都用一个概率模型表示。如果一个物体有不同视角,它的表观可能会有很大变化,这就用一个混合模型表示出来,用于物体检测,取得了非常好的效果。

十几年前还有一个叫做Image Parsing 的工作,就是把图像中不同的前景区域和背景区域,统一用一个图来描述。在分析时先采用检测器检测物体和文本区域,产生一些自底向上的假设,然后自顶向下的生成模型来分析它们的关系。这个工作还没有用到深度学习,所以它的分析精度是有限的。

现在的深度神经网络从数据学习的能力很强,但是可解释性不够,我们希望对于图像场景分析这样的问题,能够做到可解释同时精度又比较高,可以把传统的结构模型与深度神经网络结合,比如用卷积神经网络提取图像特征,做物体或部件检测,然后上层用一个结构模型来表示这些物体或部件之间的关系。

3. 一些最新进展

另一个是最近提出来的组合性神经网络(Compositional Network), 它是一个类似于两层的“与或”图表示,可以把一个物体的不同部件检测出来,而且在部分部件被遮挡的情况下也能检测到。这个模型可以从弱标注的数据学习,只要标注物体的位置,不需要标注部件。在有遮挡的情况下,它的性能明显优于常规的物体检测网络。

图匹配过去几十年一直都有研究,其中有两个关键难题,一个是组合优化,也就是如何克服指数复杂度的问题。另一个就是它的距离度量,过去是靠人工设计,现在深度神经网络可以把距离度量自动学习出来,但是需要大量有节点对应标记的图数据来训练,当然有时可以用合成数据来代替。

图像场景理解也有一些新进展。这个斯坦福大学李飞飞研究组的工作从图像与文本之间配准的角度训练一个语言生成模型用于图像描述。场景图的生成,就是把图像里的不同物体和背景区域用一个图表示出来,每个节点表示一个物体或者一个背景区域,边表示它们的关系,其结构一目了然。图像处理的底层用一个卷积神经网络提取特征,检测候选物体上传到图神经网络进行分析。

我们把类似的方法用到交通标志图解析。标志图上有很多符号和文字,在驾驶时要找到“我要往哪去”这样的信息,就要理解每个符号的意思及符号之间的关系。图像文本匹配现在也是一个比较复杂的问题,因为图像里的物体顺序与文本里的词顺序不一致,所以要学这个配准关系。我实验室同事提出的这是一个自底向上和自顶向下相结合的方法。

视觉问答现在是一个比较被关注的问题,就是让机器看一幅图,对给出的语言提问从图中找到答案,有些答案可以直接从图中找到,有些则可能要利用一些背景知识或常识。

早几年有些方法也是端到端的方法,比如这个模型有两个阶段,首先用一个神经网络分析问题的句子,生成一个解题策略(叫做layout policy),然后这个策略动态生成一些模块网络,动态地到图像里去找答案。最近中山大学研究组发表一个可解释性视觉问答方法,把问题句子表示成语义依存树,遍历树的节点从图像中动态寻找答案。

3 未来值得研究的方向

未来值得研究的方向包括:

  • (1)结构表示模型。目前主流的结构是神经网络+结构(如Graph或图神经网络),可以扩展到更多结构形式,如树、贝叶斯网等。跨模态学习(如视觉+语言)中往往需要用到结构表示,并且可结合符号知识。
  • (2)结构模型学习,包括图匹配度量学习、半监督学习、弱监督学习、开放环境增量学习、小样本学习、领域自适应、跨模态学习等。目前流行的自监督学习可以为结构学习提供预训练特征表示模型,从而大为简化结构模型的学习。
  • (3)语义理解应用。模式结构理解或语义理解很多时候要与应用结合起来,比如智能机器人或无人驾驶等,它的感知要与认知紧密结合、与决策结合,因为要把视觉信息结合背景知识才能做一个准确判断。

最后呼应一下今天讲的题目:从初级感知到高级认知。现在模式分类,也就是一种初级感知,已经做得非常好,但还有很多问题没有解决,它的鲁棒性、可靠性、自适应性、小样本学习泛化等方面还需要深入研究。到高级感知层面,就是要对模式进行结构理解,如物体结构理解、场景理解,相应的结构模型表示、学习、推理等有一系列研究问题;更高级的层次是感知和认知结合起来,就是高级认知,包括语义理解、语义推理、语义应用与决策等。

仕途天才 http://www.cityruyi.com/lm-4/lm-1/17715.html
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186