9-19 视觉识别（AGI基础理论）

2026-01-31 05:52:19 栏目：最新资讯 3 阅读

《智能的理论》全书转至目录

不同AGI的研究路线对比简化版：《AGI（具身智能）路线对比》，欢迎各位参与讨论、批评或建议。

一.视觉识别的困难-物体恒常性

为了应对变化的环境，我们必须拥有保持稳定知觉的能力，这种能力被称为物体恒常性。具体来说，具体而言，物体恒常性主要体现在以下四个方面：

（a）对于同一个物体，当处在不同的观察位置或者物体在不同形态时，其呈现在眼中的视觉信息就会不同。如一只狗，在离观察者很远的地方时，狗狗在视网膜的象就会很小，相反离你很近时在视网膜的象就会较大；观察者可以在它的正面观察它，这时能看到它的五官，而在背面则只能看到它的尾巴而看不到五官，观察者也可以俯视看它的背；当然，狗狗也可以各种姿势，它在奔跑，再蹲着、或者躺着时，其形态各异，在视网膜的象也不同。虽说狗狗在眼中的象各不相同，但我们知觉到的对象仍然是一只狗；

（b）遮挡的情况，比如图1中的猫粮罐子遮挡了梅狸猫的半边脸，但毫不影响对它的识别；

（c）混杂的情况。物体很少孤立的存在于视觉中，更经常的是互相混杂在一起，但我们的知觉系统可以很快的把场景中的各个客体分离；

（d）光照程度不同或者模糊程度不同，物体在视网膜的象也不同。当光源处在不同位置时，物体的表面的亮度分布可能非常不同。但是我们的视觉系统仍然能毫不费力的识别它们。模糊同理。

图1

二.视觉识别的神经学模型

1.Warrington（1985）的两阶段模型

1890，德国精神学家Heinrich Lissauer发现并首次提出了视觉失认证。与盲人缺乏视觉输入而看不见东西不同，视觉失认证的患者无任何盲点，并能区分亮度和颜色的细微区别。这种患者的症状在于存在视觉刺激与视觉记忆的联系的障碍。换句话说，即看得见但认不出。Lissauer将这种障碍称为“可视盲”或者“灵魂盲”。视觉失认证可以分为统觉性失认证和联络性失认证，前者主要是由于右脑后侧损伤引起的，后者主要是左半球损伤引起的。

（1）统觉性失认证

统觉性失认证主要是对一些“异常”图片的辨认困难。如图2，相比起完整的字母，该类患者在辨认不完整字母时存在更多困难；相比起完整的线条图，该类患者不能识别不完整的线条图。Warrington（1985）认为右脑损伤引起的失认证与物体恒常性有关，并设计了非常规的视角物体测试实验验证。实验对象包括80多个左脑或者右脑损伤的患者（不一定有失认证），另外还有正常人作为对照。这个实验有两个任务，第一个任务对被试呈现一些物体，每个物体有两种照片，一张是典型视角，如一只梅狸猫的正面，这时能看到猫的五官，另外一张是非典型视角，如梅狸猫的背面，这时猫的五官不在照片之中。被试的任务在于说出照片中物体的名称。对于典型视角的物体，右脑损伤患者的成绩与正常人相差不明显；对于非典型视角的物体，右脑损伤的患者辨认存在困难，而正常人没有。这说明了右脑损伤的患者处理非典型视角的照片更为困难。第二个任务，会对被试同时呈现两张图片，一张来自典型图片，另外一张是非典型图片（除了视角差异，这个实验还采用了物体恒常性的其方面来测试，如不同的光照模式）。被试要做的是判断两张图片是否属于同一个物体。其结果显示了右脑损伤患者的成绩比起正常人和左脑损伤患者的更差。这进一步右脑损伤患者说明对非典型视角图片的处理困难，并且右脑损伤的患者识别能力较差的原因在于失去了物体恒常性的能力，仅能利用物体最典型的特征来识别物体。

图2

（2）联络性失认证

患者FRA在一次事故中患有失读证（不能进行阅读）（McCarthy和Warrington，1986），去了当地的医院检查发现大脑左侧存在大量损伤。在对FRA的测试中，发现虽然他不能对图片中的物体进行命名，但他可以对图片上不同的物体涂上不同的颜色，如图3。这个涂色任务对于统觉性失认证的患者是很困难的。另外，他还能对画进行临摹，在别人说出名字后他也能指认出图片上的物体（但指向图上某个物体让他说出名字，他不能）。给他呈现两张图片，如老鼠和狗，让他指出那类动物更大，他的成绩勉强高于平均水平。从这些症状看，他能从图中分离各个物体也能画出它们，表明他处理纯视觉刺激没问题。但是他不能识别视觉物体的意义，这表面他缺乏将视觉刺激与其功能联系起来的能力。这种症状叫做联络性失认证。

图3

（3）两阶段模型

基于上述发现，Warrington（1985）提出了物体识别的两阶段模型，如图4。在第一阶段，视觉刺激与右脑中的物体视觉表征匹配，这个过程为知觉分类。当右脑对应脑区损伤时，被试无法辨认物体的视觉信息或者进行形状匹配（统觉性失认证）。在第二阶段，通过被匹配的视觉表征在左脑中提取物体的功能和知识，这个过程为语义分类。当左脑对应脑区损伤时，被试无法提取物体的知识（联络性失认证）。

图4

2.整合性失认证

两阶段模型简单的刻画了识别物体的过程，但是这个模型也有一些现象不能解释，如整合性失认证。整合性失认证是Humphreys和Riddoch（1987）在患者HJA中发现并研究中提出的。HJA的症状与联络性失认证类似，对于形状匹配、临摹、匹配不常见视角的物体等，他的能力均没问题。他的命名物体的能力受到损害，识别家具照片的准确率约为80%，而识别线条图像时准确率下降到40%。研究者发现，他在命名时速度很慢，并且他对物体的分类是使用物体突出的特征或者部分，如他识别狗不是通过整个狗的形状进行识别，而是独立的识别每条腿，身体还有头的特有形状。HJA还有一个很异常的地方，他可以识别独立呈现的物体，但是当物体重叠时，他的识别出了很大问题。另外，他可以对画进行临摹，但是画的每一部分他都是单独画的，在画下一部分时会反复检测前一部分。Humphreys和Riddoch提出，HJA存在的问题在于他不能将部分整合成为一个整体。在后续的研究中，Riddoch和Humphreys及其同事（1999）对比了HJA现在和以前的命名物体的能力，发现他识别物体的能力提高了。研究者将其归因于通过学习来使用物体的表面特征和深度特征进行分类。

整合性失认证的另一个案例来自Behrmann等人（Behrmann，Moscovitch和Winocur ，1994）的研究，实验者要求患者CK对图5（a）进行临摹，所画图画如图5（b）。令人惊讶的是，CK并不是一个个形状的画（如先画一个正方形，然后画一个圆形），而是一笔笔的画，笔画顺序标示在图5（b）中。即如他先画第1边，然后第2边，然后第3边而非第9边或者第8边...。

图5

3.范畴特异性

失认证具有范畴特异性，具体的说，患者对某些类型的物体识别能力比其他类型的识别能力更差。Satori和Job（1988）在研究中发现，患者JBR对剪刀和椅子等非生物物体进行命名时，正确率能达到90%；相反，对于生命图片只有6%的准确率。而在另外一项研究中，其患者对生命图片的识别准确率比非生命的更高。这两个研究为生物失认证与非生物失认证双分离提供证据。对于生物失认证的现象，Damasio（1990）指出非生命物与生命物相比，它们更能激活操作它的运动感觉，如与门把手联系的动作是开门或关门，与电话联系的动作是按按键。生物物失认证患者可能依靠这些运动感觉提供的信息进行分类，因为运动感觉仅有非生物物体有，因此非生物的识别准确率更高（试着联系“9-10：运动感知”）。相反，对生命物的识别则只能依赖视觉信息。

4.物体识别的双系统模型

为了弄清楚物体识别的一般理论，Farah（1990）从两种特异性识别系统的研究开始。“面孔神经元”是Rolls和Tovee（1995）在猴子的颞下皮层发现的，他们发现这些神经元对面孔有反应，而对其他刺激几乎没有。这些包含脸孔神经元的脑区称为猴子的脸孔区。2006年，Tsao等人对此进行了进一步的研究。在实验中他们给猴子展示了的96张图片，图片类型包括脸孔、水果、手、工具、躯干和不规则图形，同时还记录了脸孔区的神经元反应。结果显示，在面孔区中97%的神经元对脸孔的反应量至少为非脸孔的两倍。Kanwisher等人（Kanwisher，McDermott和Chun，1997）也在人脑底部的颞下皮层发现了人类的“脸孔区”，被称为梳状回脸孔区。另外，如果该区域受到了损伤，会导致脸孔失认证。患有这种病证的患者在识别熟人脸孔时存在障碍，他们可能认不出亲密的朋友、亲人甚至是自己。脸孔识别并不是大脑唯一的特异性功能，在大脑左半球，枕叶、颞叶和顶叶结合处的角回或腹侧枕颞沟是与阅读文字相关的脑区。如果该区域受损了，容易发生失读证。该类患者阅读非常吃力，容易在阅读中出现视觉混淆。但他们的书写和对话交流能力没问题。

为什么存在面孔识别的特异性呢？一个基于进化论的假设认为人的面孔特供了明显的情绪线索，可以帮助区分高兴、不高兴、对敌和友好等，从而获得更好的生存。但这种假说来解释文字阅读则显得不合理，因为文字是晚近文明才发展出来的。

Farach认为，识别一个物体基于两种不同的过程，称为双系统模型。第一种是整体分析，它依赖于客体各个部分及其整体结构。面孔识别正是使用这双系统模型的一个极端情况，仅使用整体分析。试想想，即使是你的熟人，你也很难仅仅通过单个鼻子、单个眼睛或者嘴巴就能辨认出他，识别一张脸是根据其整体结构的。第二种是部分分析，即将客体拆解成各部分用以分析。阅读是使用这双系统模型的另一个极端情况，仅使用部分分析。阅读必须将各个词分解出来形成部分，才能被阅读（要注意的是分析笔迹或者书写风格需要的是整体分析而不是局部分析）。物体识别处于面孔识别和单词识别两个极端之间，即物体即可以用整体分析，也用部分分析，如识别一只狗可以用其全身信息，也可仅利用其头部信息。

双系统模型的另外一个证据、来源于Farach所整理出的表格，表中列举了大量关于视觉失认证的患者，包括21例同时存在面孔、单词和物体失认证的患者，14例面孔和物体，15例单词和物体，35例只有脸孔失认证和大量只有失读证的患者。但是，就没找到一例明确患有面孔失认证和失读证但没物体失认证的患者，也没明确的单独的物体失认证。因此，从存在单独的面孔失认证和失读证看，可以看出面孔和文字分别由不同的系统执行。由于物体失认证均与面孔失认证或失读证存在关联性，而没单独存在的案例，因此可以看出物体失认证依赖于面孔所依赖的整体识别系统或者文字所依赖的部分识别。

三.视觉识别的心理学模型

统觉性失认证的一个主要问题是不能解决视点问题。视点问题是指，当观察视点变化时，虽然落在视网膜上的象会发生相应的变化，但观察者仍然能够识别出物体。我们是如何在视点发生变化的情况下实现物体恒常？根据解释这方面问题的不同方法，视觉识别的心理学模型可以分为两类，一种是视点不依赖模型，另外一类是视点依赖模型。

1.视点不依赖模型：Marr的计算模型

David Marr是英国的神经学家、心理学家和认知学家，同时他也是计算机视觉的开山鼻祖。1977年底Marr被确诊为白血症，在得知自己时间无多的情况下提前准备了他的遗作：《Vision: A computational investigation into the human representation and processing of visual information》。他于1980年逝世，时年35岁。《Vision》在他逝世后由其学生和同事整理后出版。

（1）视觉信息处理系统和表象

Marr认为，视觉就是一种信息处理过程，这与Newell和Simon提出的物理符号系统是一脉相承的（8-3：第一代认知：认知计算主义）。通过这个信息处理过程发现外部世界有什么东西，以及这些东西在那里。在该过程下，Marr将表征外部世界（什么东西在什么地方）的大脑信息称为表象。这类表象是一种能把某种实体或某几类信息表达清楚的形式化系统，以及该系统如何使其职能的若干规则。使用某一表象描述实体称为该实体在该表象的描述。不同实体的表象描述不同，如阿拉伯数制和二进制分别是不同实体数的表象（形式化系统），数是属于外部世界的东西，大脑为了表征数，便有了阿拉伯数制和二进制等表象。

图6

视觉处理过程可以分为三个阶段，这三个阶段分别得出三种表象，分别是初始简图、2.5维简图和3维模型，如图6所示。

（2）初始简图

外部世界投射到视网膜上的像实质上是一个二维亮度点阵，而该亮度点阵并不直接表达信息，需要进一步的处理。

一些素描画由边、线和点等符号构成，而符号表达的并不是图像的亮度而是亮度的变化。这些素描画与眼睛所看到的外部世界是非常不同的，但是人们可以毫不费力的识别它们。因此可以认为视觉的第一个运算就是将亮度图像转换为一些元素符号（边、线、点）构成的描述。初始简图就是这样一种表象，该表象由两部分构成，第一部分是一些边缘线、线和斑点等基元，它们对图像中的亮度变化（而非绝对亮度）作描述，这些描述也被称为未处理的初始简图。第二部分通过这些基元的关系构成，即通过聚类、选择等过程所构成的更大的标记。

边缘线、线和斑点等基元表达的是图像亮度变化，这些基元可以使用一种类似于边缘检测的技术来提取。下面大致说明这种技术的思想，不涉及细节。这种技术的效果如图7，图（a）经过边缘检测后转变为图（b），其中图（b）白边为图像的边缘处。其做法大致是利用相邻两点的像素值相减，如果相减后的值大于某一阈值，则认为是图像的边缘，否则认为不是边缘。

以一维的图像为例说明边缘提取的大致原理（图像是2维的，一维只是为了方便说明），如图8所示，图横向处表示图像的坐标，纵向处表示图像的亮度，可以看出图（a）点1处与点2处的亮度值之差很大，那么点1与点2之间形成边缘。而在图b中，点1和点2的亮度之差为0，因此不构成边缘。这种使用两像素点之差的方法一般能检测亮度变化很大的地方。但有些亮度变化不大的（变化小于阈值）地方，则无法检测出，如图（c）（如果点3处与点4处的像素之差仅仅为1，且如果阈值为5，那么两点像素差小于阈值因此它们之间就不为边缘）。为了检测出不同程度的亮度变化，需要使用不同尺度的算子。对于图（a）和图（b），仅仅使用两像素点之差，这属于小尺度的算子，这种算子专门寻找亮度变化大的地方。而为了检测出亮度变化小的地方，可以使用大尺度的算子。以图（c）为例，这种算子可以使用点1、点2和点3亮度值之和，减去点4、点5和点6亮度值之和，即6点像素之差。这个差值的大小，比点3亮度值减去点4的差值大（例如，假如点1、点2、点3、点4、点5和点6亮度值分别为1、2、3、4、5、6，那么6点像素点的亮度差值为9，而点3与点4两像素点的亮度差值为1）。最后，为了能检测出图像各种程度的亮度变化，需要使用一系列不同尺度的算子。

图7（a）图7（b）

图8（a）

图8（b）

图8（c）

通过这些算子，得到的是不同尺度下梯度变化的点（大尺度算子能得到梯度变化小的点，小尺度算子得到梯度变化大的点），把这些点称为过零点。在同一尺度下，相邻的过零点可以类聚成一起，变成一条线、团块等。图9展示了两种尺度下的亮度变化检测，图（a）为原图像，图（b）为小尺度下得到的过零点图，图（c）为大尺度下得到的过零点图。

那在不同尺度下的过零点如何整合呢？Marr认为决定图像亮度的物理因素主要有四个，几何关系、物体表面的反射、照明条件和观察点的方位。亮度的变化正是由其中一样或者几样因素引起的。Marr假设如果一组相邻尺度下的算子在图像的某一位置有共同的过零点边缘，那么这段过零点边缘所代表的亮度变化就是由上述某一物理因素引起的。该假设也被称为空间重合假设。通过这个假设，可以将相邻尺度下同一位置的过零点合并，形成边、线和斑点，即基元。图（b）和图（c）经过这个假设进行合并后，可以得到图（d）斑点、图（e）边和图（f）线。每个基元都有自己的属性，包括位置、方向、对比度、长度和宽度，如图10。

图9（a）图9（b）图9（c）

图9（d）图9（e）图9（f）

图10（这些基元标在箭头处）

得到以上基元只是完成了未处理的初始简图，还需要对这些基元进行聚类，才能得到初始简图。根据基元的属性（位置、方向、对比度、长宽度），利用接近性、相似性、连续性等格式塔原则，可以将小的基元组合成大的基元。另外，也可以通过纹理的类型及其密度类聚这些元素。聚类的过程是循环的，直到无法聚类为止。如下图11，图（a）先利用接近性组合成团，得到图（b）。然后根据连续性，团会连接成线，即图（c）。

图11（a）图11（b）图11（c）

（3）2.5维简图

要识别一个物体，需要先将物体从图像背景中提取出来，再进行识别。这种提取一般使用的是图像物体分割技术。传统的图像物体分割存在一个问题，即就是什么是“物体”？一方面，如果连接在一起的算物体（包括拥有一个连续的深度），一个骑着马的人还有马算什么呢？如果按照连接一起的算物体，那么无法单独分割出人，也无法分割出马。另外一方面，如果按照我们的概念系统来划定物体，虽然可以使用物体的图像记忆来分割出人和马，但图像记忆属于先验记忆。显然对于不熟悉或者没见过的物体（它们不存在先验知识），我们仍然能很容易的分割它们。基于这个问题，Marr认为，在物体分割前，应该先对表面进行充分描述，这个表面包含了深度信息和曲面的方向信息（曲面上的法向量），这就是2.5维简图。

在人类的视觉系统中，存在很多底层的功能模块可以为表面信息提供信息，包括双目立体视觉、运动、纹理等。在“9-3：深度”中已经详细的论述了如何从各种模块中提取深度。表面信息包括深度和曲面方向，通过双目视差，我们可以提取各种深度信息，又因为连续的位置（视网膜坐标加深度）就是连续的曲面，因此也很容易获得其曲面方向。而对于遮挡的情况，则可以在深度突变之处获得...。获得各点的深度信息和曲面方向信息后，便可构建2.5维图。图12展示了一个曲面方向图，其中小箭头方向为曲面的法线方向。

图12

（4）3维模型

2.5维简图会随着观察者的位置变化而变化，即视点依赖。Marr认为，2.5维图并不适合于识别，适合于物体识别的表象应该是建立在以物体为中心的坐标系，即视点不依赖。只有建立了以物体为中心的表象，才能不依赖于视点识别物体。如何建立以物体为中心的坐标系呢？

一般来说，如果可以从物体中提取出轴线，那么就可以将其作为局部坐标系的基础。而这种轴线可以从物体的广义锥中提取。广义锥指的是一种三维物体，这种体的横切面沿着某一轴滑动。轴不一定是直线，也可以是曲线。图13列举了几类广义锥及其轴线。很多物体都可以使用广义锥来表示，例如汽车就是由一个大的长方体上面再叠加一个小的长方体。也如图14中的各种动物，可以使用圆柱体的广义锥来表示，每个广义锥分别表示动物的头、躯干、尾巴和四肢等。

图13

图14

当计算出物体的广义锥，其轴线可作为物体坐标系的轴。事实上，物体的每一部分都可以单独的作为一个物体，因此坐标系也能在物体的各部分上构建。如图15，从左到右四个方块分别表示了人、手臂、前臂和手的坐标系的构建方式。在左边第一个方块中，左边圆柱表示为整个人体的广义锥，其圆柱体的轴线作为人体坐标系的轴线。右边表示人体各肢体相对于坐标系轴线的位置。其中的每个肢体又是一个广义锥；在第二个方块中，左边倾斜的圆柱表示左手臂的广义锥，广义锥内的轴线也是坐标系轴线，而右边表示前臂和后臂相对于该坐标系轴线的位置；...。

图15

2.视点不依赖模型：成分识别模型

成分识别模型（简称RBC模型）是Biederman（1987）在Marr理论的基础上提出的。该理论的中心假设是，物体由基本形状或被称为几何子的成分组成。几何子是一种广义锥，其例子有方块、圆柱体、球体、圆弧和楔形等立体形状，Biederman一共列出36种几何子。几何子类似于声音中的音素，在英语中大约只有44个音素，但也不妨碍大量英语单词的语音识别。原因是这些音素的几乎无穷无尽的各种组合和不同顺序的排列。视觉也是如此，视觉客体的描述之所以丰富，部分原因在于几何子的组合以及它们之间各种各样的空间关系，如图16。即使由同一组几何子构成，不同的物体有不同的几何子连接情况。例如，杯子和水筒都是由一个圆柱体和一个圆弧体构成，但杯子的圆弧体连接在圆柱体的侧面，而桶的圆弧体连接到圆柱体的顶部，如图17。

图16

图17

RBC模型首先需要提取图像中的边缘，这些边缘中包括了物体的轮廓。一般来说，每当出现几何子的连接时，就会出现成对的“凸凹”点。通过对边缘上“凹凸”点的切割，可以从物体中分割出一组几何子。图显示了飞机的分解过程，一个飞机模型一共可以分出9个几何子，图18显示了其中4个分解过程（图a为完整的飞机）。在得到一个物体的几何子之后，根据几何子的连接情况，并将其与记忆中的物体表征相匹配，就可以对其进行分类。因为无论从那个视点观察，最终使用的还是物体的几何子及几何子之间关系来识别，因此它是一种视点不依赖模型。

图18

Biederman发现，一个物体只需呈现少量的几何子，我们就能识别它。这与我们生活中的经验相符，即当物体发生遮挡时，我们仍然能够识别它。如图19，右方的图片即使缺少了部分几何子，但是仍然能被正确识别为左方的飞机和企鹅。

图19

RBC理论的一大贡献是提出了几何子的4种基本属性，并根据这4种基本属性的不同组合整理出36个基本几何子。这四种属性包括三种横截面属性：横截面的边的曲直情况（直边vs弯曲边），横截面的对称情况（镜像对称vs镜像对称且旋转90度后对称vs不对称），横截面面积的情况（面积恒定vs面积扩展vs面积扩展及收缩）；还一种轴线属性：轴线的曲直线情况（直线vs曲线）。4种属性的属性值组合起来，其数量为2*3*3*2=36。下面再用三个例子进行说明，图20（a）是一个长方体，其横切面为正方形，因此其横切面的边是直边，镜像对称且旋转90度后对称，面积为恒定，其轴线为直线；图（b）的横切面是椭圆形，因此其边是弯曲边，镜像对称（如果横切面为圆形，那么对称情况为镜像对称且旋转90度后对称），面积为扩展及收缩，其轴线为曲线；图（c）横切面（长方形）的边是直边，为镜像对称，面积为扩展，其轴线是曲线。

图20

通过边缘上“凹凸”点的分割可以得到几何子，然后根据几何子的四种不同属性，便可以判断各几何子的类型了。但一个问题是，几何子是3维的，而从图像中切割的是二维的，那如何从二维的图像转换为三维的几何子呢？Biederman论述了一种中心组织原则，它为二维图像中边缘的某些属性与三维视觉中边缘的某些属性相同提供证据。例如，不管视点如何，如果二维图像中有一条直线，那么视觉系统推断在三维世界中产生这条线的边缘也是直的。又如二维图像中的平滑曲线同样被推断为来自于三维世界的平滑曲线。另外，如果二维图像是对称的，我们假设投射到该图像的物体也是对称的...。这类属性被称为非偶然属性。通过非偶然属性，我们就能判断几何子属性了。例如，几何子横切面的边是曲线还是直线，可以通过图像中边的曲直情况判断。几何子轴线是曲线还是直线的情况同理。这里只简单介绍其思想，不作详细叙述。获得了这些几何子属性，就能获得几何子的类型。

上面讨论了三维几何子，而人还可以感知二维视觉的信息，那么二维几何子又如何表示呢？Biederman使用了横切面的两种属性来确定二维几何子的类型：形状的边的曲直情况和形状的对称情况。一共有7种几何子，如下表1所示。将这7种二维几何子加上上述36种一共就是43种。

表1

Biederman还讨论了几何子的参数情况，比如宽高比和曲率等。这些参数对识别是有影响的，比如火柴盒的宽高比大约为“1：1”，当一个几何子的宽高比为“10：1”时则不太可能被认为是属于火柴盒的。宽高比是作者的讨论对象，他的其中一种做法是将一组宽高比纳入到对几何子的说明中。

物体识别主要是依靠形状的，如即使椅子可以有不同的纹理和颜色，但是我们依然可以通过它的形状识别它。当然，颜色、纹理等特征对分类也能起到作用，尤其是对于一些没有形状的物质，如沙子和草丛等。

3.视点依赖模型

视点不依赖模型解释了为什么在视点变化时，物体在视网膜的象发生变化，但是我们仍然能将其识别，即物体恒常性。但也有研究得出了物体识别是视点依赖的结论（Hayward和Tarr，1997）。即一个物体的新异视图能够被成功识别，依赖于它和脑内对该物体的一系列不同视图的表征相似程度。该理论的主要依据是视点效应，即人从不同角度下识别物体的加工时间和识别成绩是不同的。比如，人们从某些角度观察一个杯子后，当再次以不同角度呈现杯子并需要被试识别该杯子是否被观察过时，发现不同角度需要耗费的加工资源不同，且呈现过的角度的识别成绩比未呈现过的角度的识别成绩更优。此外，人们在特定角度下反复观察一个物体（如杯子），另一个物体（如台灯）在该角度下出现时，其识别也会变快（Murray，Jolicoeur，Memulle和Ingleton，1993），从而证明物体识别中表现出角度依赖性。

如果视点依赖是正确的，那么对于新异角度的物体，我们是如何识别它呢？这里介绍心理旋转和视图插值两种方法。

（1）心理旋转

为了兼容视点效应和物体恒常性。Tarr和Pinker（1989）提出多视图模型，认为可以用一系列不同的视点图像对物体进行表征，每个视点图像描述了各自视点的物体表征（即物体不同的面），并存储于记忆之中。当观察者的视点的像与某视点图像相同时，视网膜的输入图像可以与对应视点图像进行直接匹配得到识别。当观察者的视点的像在记忆中没有对应的视点图像时，可以通过对输入刺激的心理旋转（9-27：视觉表象），并与最接近的视点图像进行匹配从而得到识别。

研究者使用了图21作为实验刺激，图（a）中7个刺激都设定为0度方向。在实验中会对每个刺激进行旋转，如图（a）中第一个刺激顺时针旋转90度变为图（b），这样做的目的是为了模拟不同的观察视点。在实验中，被试首先分别以一个或者多个方向学习刺激。在测试阶段（测试内容如，需被试即快又准的判断测试刺激是否为学习刺激的镜像，如果是按左键，反正按右键等），测试刺激可以以任意方向出现，包括被试没学习的方向。结果显示，如果测试刺激呈现的方向在学习刺激中出现过，那么被试在这些方向上识别物体的速度几乎相同。如果测试刺激的方向没有出现在学习刺激中，那么反应时间随着测试方向与学习方向夹角的增加而增加。从这些结果中可以得出两点结论，首先被试存储了学习刺激所有方向的表征，当测试刺激方向为学习方向时可以直接匹配，从而测试刺激在所有学习方向上时间相等；其次当测试过程中出现没有学习过的方向时，被试在心理上对刺激进行旋转，使其方向变为学习刺激的方向之一来判断，当偏离的角度越大，旋转所花的时间就越长。

图21（a）

图21（b）

（2）视图插值

除了心理旋转，其他研究者（Bülthoff和Edelman，1992）还提出一种在熟悉视点之间通过插值的方式对不熟悉视点进行识别的方法。为了说明插值的思想，这里用一个一维表面进行简单说明。如图22所示，“A”和“B”是两个熟悉的视点，其亮度值分别为0和1，而两点之间的视点是不熟悉的，插值是对这些不熟悉视点填入亮度值，使“A”点沿着该一维表面逐渐过渡到“B”。越接近“A”点，亮度值越小；越接近“B”点，亮度值越大。从而完成对“A”到“B”的一维连续表面模拟。

图22

在一项研究（Bilthof和Edelman，1992）中，在训练阶段给被试呈现0°和75°的两个角度的管状物体。接下来是测试阶段，以新异视图给被试呈现一个物体，新视角包括内插视图（0°~75°）以及外插视图（75°~360°），一半是之前看过的物体，一半是没看过的物体。被试要做的是判断呈现的物体是否之前看过。结果表明，外插视图的错误率要高于内插视图的，表现出内插优势效应。研究者认为这是由于大脑在两个学习视图之间通过线性内插的处理方式处理新视图。

Srinivas和Schwocbel（1998）采用知觉上不相似、对称、不对称的物体作为实验材料，分别考察了物体类别、物体对称性对新异视图识别的影响，结果表明不仅具体水平的物体（如茶杯和水杯）能进行新异视图识别，基本水平的物体（杯子和花瓶）也能进行新异视图识别；另外，实验还发现对称物体的新异视图识别程度要高于不对称物体的，这可能是由于不对称物体无法从一个角度预期另一个角度的结构特点。

4. 视点不依赖和视点依赖同时存在的证据

事实上，大脑也可能同时存在两种模型。重复抑制效应指的是如果某个神经元最近被某个刺激激活过，那么当这个刺激再次呈现时，该神经元的激活量会比刺激初次呈现时的低，表现为对该刺激拥有更快的神经反应。在一项脑成像的研究（Vuilleumier，Henson，Driver和Dolan，2002）中，实验者对被试呈现不同图片，且每张呈现过的图片都会重复出现。在第二次呈现时，图片的视点可能与第一次呈现的相同，也可能不同。实验结果发现，在左侧腹侧枕皮质中，第二次呈现的图片不论是视点相同还是视点不同，均出现了重复抑制效应，神经元对新出现的视点与第一次呈现的视点均产生了更快的反应，这是大脑存在视点不依赖的证明；而在右侧腹侧枕皮质中，第二次呈现的图片只有在视角相同的情况下才发生重复抑制效应，这是视点依赖的证明。

四.图形识别的参照系（Schiffman（著），李乐山等（译），2013）

识别刺激物图形涉及到许多因素，其中两个是图形的视觉方向和图形的周围背景。图形的视觉方向是指观察者感知到的图形的顶部、底部和两侧的方位。如果这些因素以某种方式改变，人们对其的感知会随之改变。图23中的左侧图形看起来与图中的右侧图形不同。实际上，它们在几何上是等同的，仅以不同的方向显示。因此，图形方向会明显影响对图形的感知。

图23

图形的方向对识别有重要影响。方向需要在参照系中进行讨论，那么影响图形识别的方向属于什么参照系呢？有研究认为，对感知起关键作用的并不是视网膜上形状的方向（但如果图形以视网膜为参照系定向，那么当图形在视网膜坐标上转动时对图形的知觉应该会改变（被规定好的顶部、底部和两侧的方位会重新根据视网膜定义）），而是形状相对于重力和周围背景如何定向，这被称之为环境定向（Rock，1973）。即如果一个图形的方向仅在视网膜坐标上被改变，那么这个图像不会出现识别或判断上的改变（被规定好的顶部、底部和两侧的方位不会随视网膜位置改变而改变）。图24表现的是方向与周围背景的另一个作用效果（周围背景），在上面和在下面的两个处于内部的小图形具有相同的视网膜方向，但它们的环境（外部矩形）方向不同，造成的结果是上面的图形被看成一个正方形，而底部的图形像一个菱形。如图25（a）的形状一旦被看作是直立的头像，顶部和其他位置就被规定好了，那么把头部向右侧倾斜90°，仍然被感知为一个有胡须的头部剖面图。同样地，看看图（b），如果把它看成是一副美国地图，其顶部等就被规定好，此时把它向左倾斜 90°，其结果仍然是感知到一幅美国轮廓地图。

图24（a）图24（b）

图25

对形状的感知依据它们的环境方向，而不是它们的视网膜方向。当它们相对于环境的方向确定了时，感知系统倾向于自动补偿它们在视网膜上的倾斜，使知觉中的它们与环境方向对齐（如美国地图旋转一定角度后，它们在大脑中的知觉会自动恢复相对于环境的方向）。对于一个生物系统来说，依据环境定向有重要意义，这有利于维持环境的稳定感知（如果图形知觉依据视网膜定向，环境知觉将随视网膜的倾斜而变得倾斜）。

然而，这种规则也存在例外。有些图形通常只按照相对于视网膜的方向观看，例如文字或脸部倒过来看都不容易被识别（Farah，Tanaka和Drain，1995；Farah，Wilson，Drain和Tanaka，1998）。

五.识别的本质

1.结合需求和关注点的识别

需求影响着物体的分类，即它是什么东西取决于我们对它有什么需求。可供性理论是生态学家Gibson提出的，可供性表示为为人提供行为的物体的性质，如扫把的可供性是打扫卫生，本质上它是概念属性的一种。可供性影响着事物的意义，因为我们并不是单纯的为了知觉而知觉，为了分类而分类，而是为了更好的和世界交互。比如对于一只猫，不同的人有不同的可供性。对于宠物主而言，它具有陪伴的属性；对于宠物店而已，它具有挣钱的属性；对于生物学的人而已，它有生物分类学属性...。一盒月饼，它有可食用性、赠品性等，因为它既可以吃，又可以作赠礼送人。一个物体同时拥有很多属性，那意味着它可能有很多可供性，很多时候这些可供性甚至会超出它们的常规用法，比如石头，当需要的时候它可以变成“锤子”或者“椅子”，一个看起来没用的树枝也可以作为登山的拐杖。因此，从这些例子可以看出，即便是同一个物体，也无一成不变的分类，分类需要依据其需求而定，这是分类的基础。除了用途，对物体分类的还依赖于人们对其的兴趣或关注点。当客体中某个属性符合我们的兴趣点或者关注点，那么它就被分到相应的类别。比如一个榴莲或者一碗螺蛳粉，同样作为食物，喜欢它的人会觉得它是“好吃的食物”（也是一个类别），不喜欢的人会觉得它是“难吃的食物”。

这里有一种特殊分类需求。之所以会有各种事物的名称，并不一定是它们对我们有多有用。而是因为我们学会这些名称后，我们为了交流或者为了区分它与其他类型事物的区别，而对其的一种标注。比如大象和猴子等，这些类别的作用，对于普通人而言可能在动物园浏览中会有一些指引观看的作用。但是在日常，主要还是为了当我们说出“大象”或者“猴子”等词的时候，能让对方听懂我们在说什么。

2.按场景进行识别

场景也是影响物体分类的一个重要因素。比如在菜市场的一场买卖，商家会被定义为卖家，而购物者会买定义为买家，但是这只在买卖的场景中有效。如果这位买家第二天去他孩子学校开家长会，在开家长会的场景下他便不能被分类为买家了，这时他的身份是家长。一个女人，对孩子她只是母亲，对这个男人她是妻子，对公司老板她是员工。

按照场景分类需要使用到一些场景图式或框架（19-7：框架语义）。图式或框架是在与世界不断互动中抽象出来的概念结构（也是概念），场景图式则是在某个场景下抽象出来的概念结构。它包括各个场景客体，还有各客体之间的关系。买卖场景图式中的几个场景客体包括买家、卖家、交易金钱、交易地点、交易商品等，而客体之间的关系包括，买家向卖家是“买关系”，买家向交易金钱是“使用关系”等等。因此根据场景的分类，本质就是看待分类事物处于图式的哪个客体或者哪个关系中。

六.视觉匹配

上面提及了分类需要依据需求、兴趣和场景等因素，因此分类是一个认知问题。但一个事实是，无论是需求如何、兴趣如何、场景如何，它们的视觉形象都是不变的。一个人不论是买家、卖家、家长、老板等等不同的身份，这个人的外表特征或者感知属性是相同的。因此，在视觉分类之前，需要有一个视觉匹配的感知过程。视觉刺激先与视觉记忆匹配，然后通过视觉记忆获取其概念，此时物体才会在不同的需求或者情景下得到分类，如图26。

图26

要进行匹配，需要有它的视觉记忆是必然的。如果没见过秦始皇或者说没有他的视觉记忆，那么即使他从古代穿越到现代，你就无法从认出他是谁。又比如很多人对苏丹这个国家的版图没什么印象，因此让他看到了下图27（苏丹的版图）也无法判断这是哪个国家。

当输入一个视觉刺激，该刺激会与视觉记忆相匹配。如果它们之间达到一定的相似性，则匹配成功，否则则失败。想象一个场景，在熙熙攘攘的大街上突然出现了一个熟悉的身影和熟悉的脸孔。这时这个视觉刺激会与大脑中某个熟人的视觉记忆相匹配，并达到了比较高的相似度。你可能会想：“这不是她吗？”并加快了步伐向前确认。而当走到面前，你会发现认错了人，这时视觉刺激与视觉记忆相似度太低不匹配，然后又会因为认错人感觉到失礼而向对方道歉。

图27

1.心理相似性

认知心理学上的相似性是指多个心理表征之间的心理相似性。不同的认知心理学家有不同的标准或者定义方式。

Shepard（1962）的心理距离方式将概念表征为心理空间中的点，概念表征之间的相似性就是它们在心理空间的距离，这种方式类似于空间坐标系。当距离越近，表示两个概念越相似，反之则越不相似。使用下面例子简单说一下这类型相似性的思想。图28（a）中三个正方形具有两种对比属性，一种是灰度值，另外一种是大小。这两种属性构成了心理空间的两个维度（类似于坐标系的x轴和y轴）。从灰度值维度看，图（a）的灰度值与图（b）的灰度值接近，与图（c）的不接近；从大小维度看，图（a）与图（b）更接近，而图（c）的不接近。因此，图（a）与图（b）相似，而与图（c）不相似。在这个心理空间中，表现为图（a）与图（b）的距离更近（图（d））。

图28（a）图28（b）图28（c）

图28（d）

Tversky（1977）的特征方式认为，概念是由一组属性构成，两个概念的共性是它们之间属性的交集。而差异取决于两方面，概念1有的属性而概念2没有的，概念2有的属性而概念1没有的。共性体现出它们之间的相似性，而差异则体现出两种概念之间的不同。举个例子，黑布林的特征是“[吃的、甜的、黑色的]”，黑板的特征是“[上课用的、黑色的]”。那么它们之间的共性是它们都是“黑色的”，而黑布林与黑板的差异是黑布林有属性“吃的”和“甜的”而黑板没，黑板与黑布林的差异是黑板有属性“上课用的”而黑布林没。特征方式的差异取决于两方面（如上例），因此特征方式表征的相似性具有方向性。这种方向性是心理距离方式没有的，因为距离是无向的，无论那个客体作为起点，它们计算后的距离都是相等的。在日常生活中，人们习惯说“99接近100”，但是基本不会说“100接近99”；会说“他像他爸”，但是不会说“他爸像他”。这说明了心理相似性中存在方向性。从这一点看，特征方式比心理距离方式更为优越。

Gentner和Markman（1997）进一步的发展了相似性理论：结构方式。研究者发现，在特征差异中可能也会存在一些共性。比如，汽车的一个特征是有4个轮子，而摩托车只有两个轮子。这属于它们之间的差异，但是这种差异中又存在它们都有轮子这个共性。他们把这种存在共性的差异称为可匹配差异，反之则称为不可匹配差异。比如汽车有安全带，而摩托车没有，那么这个“有安全带”的属性就属于不可匹配差异。比起不可匹配差异，可匹配差异对客体相似性的影响更大。

2.匹配的空间维度

匹配分为三类：二维匹配、三维匹配和运动匹配。首先，正如我们能辨认照片或者视频的二维人物或者动作，所以存在二维的匹配。其次，我们身处一个三维的空间，我们身边的物体全都是三维的。所以我们的视觉存在是三维匹配。当我们观察一个物体时，我们感觉到的是它的表面。但我们并不会认为这个物体与它表面是等价的，也不会认为这个物体就是它所见表面。我们感知到的似乎是一个立体结构。比如你看见一个人，虽然只能看到他其中的一个面（如正面或者背面），但是能感知到的似乎是他的整个身形（立体）；当你看到一座大夏，你看到的只有它的一个面，但同样感知到的是一个长方体或者圆柱体等。最后，我们能识别一些动作，比如坐下和站起来两个动作，这也说明了视觉匹配中存在运动匹配（空间+时间的匹配）。当然，我们既有二维的运动匹配，如二维视频中的运动；也有三维的运动匹配，如现实世界中的运动或者3D电影。

这里需要用一些现象来对三维匹配作进一步的说明。一些新奇的、出乎意料的事物通常会吸引我们注意，一些关于婴儿的认知心理学实验就是基于这个原理设计的。因为婴儿无法说话，一些实验就无法像成年人一样可以通过语言表述获取实验数据。能利用的就是婴儿对新奇事物的好奇心——婴儿通常会对这些新奇事物给予更多的注视时间。当然，成年人也有这种现象。现在假设，当我们看到物体的一个面时我们不能感知到物体的立体结构。但在运动过程中，物体的立体结构逐渐的被感知，这种被整合的结构是新奇的和出乎预料的，因此我们多少应该会因此感觉惊讶。而事实上，对于这种从运动中恢复的立体结构，我们内心毫无波澜，好像我们早就知道它是这样的。因此，这可以在一定程度上证明我们能感知到这种立体。另外一个例子是我们还能“挖空”。比如我们看到一个装鞋的盒子，虽然我们并没有看到其内部是空的，但是我们仍然能知觉到。因此我们也不会在打开盒子时因为它的空心而觉得惊讶。

这里所说的对立体结构的感知，并不是说我们能透视物体，将这些看不见的结构或其他表面看得一清二楚，我们能感知的只是这种结构的抽象。另外，这些立体结构实际上是至上而下通路赋予的，当物体表面的一些类别特征和结构特征被匹配时，长时记忆就会根据这些特征，将对应的立体结构赋予该物体，使我们能感知到它。

这三类匹配其实并不是互相独立的，而是彼此影响的。首先三维使二维的物体分割更加精确。因为在二维视觉中，对物体进行分割需要依靠图像的颜色和亮度等特征，也需要后天经验。这对于计算机来说并非易事，但是如果使用三维视觉就会变得很简单。这是因为相邻的像素点只能说明平面上也是相邻的，如二维图像上相邻的两点坐标（x,y）和（x+1,y），在三维空间中就能使用深度信息将其分开，如坐标（x,y,10）和坐标（x+1,y,100）。其次，即便在三维视觉中两个物体是相邻的（坐标的三个维度都是连接在一起），但是如果它们之间发生了相对运动，就能很好的将两个物体分割开。

3.特殊类型的匹配

（1）抽象匹配

当我们没有对应的视觉记忆（具体）时，我们如何进行匹配呢？当没有具体的视觉记忆时，我们可能可以使用抽象的视觉记忆。如“杨树、桑树、银杏树、松树、槐树、桃树、梨树”是具体的视觉记忆，而“树”是抽象的（当然，具体和抽象是相对的，比如相比起“植物”，“树”是具体的）。我们有“以有限应对无限”的能力，其中一个原因是因为我们有抽象的能力，并将这种抽象出来的知识用于解决新的具体的知识。这种能力在本书的多处都能发现，是智能的规律之一。比如一个只见过知更鸟、燕子、鸽子、麻雀的人，他会有关于鸟类的抽象记忆。要注意的是，这种抽象的视觉记忆是模糊的，不属于任何一个具体鸟类，并且可以将它与这些鸟类动物（知更鸟、燕子、鸽子、麻雀）匹配使它们得到鸟类的分类。当遇到了没见过的新喀裸鼻鸱和孟加拉鸨（它们属于珍惜鸟类，除非是这方面的专家或者爱好者几乎没人知道），就可以拿之前形成的抽象的鸟类视觉记忆与新喀裸鼻鸱和孟加拉鸨匹配。虽然不知道这两种鸟的具体类别，但是因为能与抽象的鸟类视觉记忆匹配，所以也能知道它们是鸟类。成功匹配后，大脑可以会用这两种新的鸟类记忆对鸟的抽象的视觉记忆进行更新。

（2）属性匹配

除了抽象匹配，还有另外一种匹配不熟悉实物的方法。事实上，我们一般很少有完全陌生的事物，即使没见过，我们也能或多或少的辨认出它的一些特征。在这些特征中，虽然有一些是我们不认识的，但也有一些是认识的，因此即使是不认识的事物，也不会完全陌生的。在视觉匹配的过程中，这种匹配并不需将物体的整体视觉记忆提取出来进行匹配，而只会用到其某些特征，并仅仅通过某部分特征完成匹配。因此，我们就能通过这些已知的特征（外观、可用等）推断出未知事物的可能类别。比如有一种物质（用于举例的虚构物），我们都不知道它是什么，只知道它很坚硬，大概一个杯子的大小，紫色的。因为没有对应的视觉记忆因此无法匹配，但我们并非对它一无所知，起码我们知道它的坚硬度、大小和颜色等属性。通过这些属性，我们可以把它归类为一个锤子或是一个收藏品。一种日本的野生乌鸦以坚果为食，但坚果有坚硬的外壳，如果想吃里面的肉就必须将壳打开。对于我们可以用开果器作为工具，而对于乌鸦它们的工具则是城市的车。它们会把坚果放在路上，然后经过的车会把坚果压碎并以此获取里面的肉。显然，乌鸦是无法将这些移动的“块体”分类为车的，但是它们可以提取出“重物”、“移动的”和“危险的”等特征，从而将其分类为它们的“开果器”或“需要躲避之物”等。

（3）局部匹配

局部匹配，顾名思义就是对客体的局部进行匹配。这可以解释为什么我们会在物体被遮挡的情况下仍然可以将其识别。一个客体是由多个部分组成的，当部分分别被匹配的时候（如人左手的记忆与人的左手匹配，人躯干的记忆与人的躯干进行匹配），可以通过这些部分推理出整个客体，如上所述，Biederman（1987）就证明了只需部分几何子就能对客体进行识别。

七.视觉推理（Goldstein和Brockmole，张明等译，2018）

1.无意识推理理论

Helmholtz（1855）的无意识推理理论认为，感知也和思考等一样，是依赖于过去经验的无意识推理。这个理论包含3个要点：（a）我们拥有大量与当前知觉类似的经验；（b）这些经验可以用于当前刺激中无法直接观察的部分，既推理这些无法直接观察的部分；（c）这个推理过程是无意识的。例子如下。

在视网膜上，特定的刺激图案可能能由环境中的众多不同的对象引起（如图29）。例如，图（a）中的刺激图案代表什么？这种视觉输入既可以由“一个蓝色矩形位于一个红色矩形之前”的知觉（如图（b））所产生；也可以由“一个蓝色矩形，加上一个位于蓝色矩形前面、后面或右面的红色六边”的知觉（如图（c））所产生。不同的可能对象产生相同的视觉输入，因此对对象的知觉需要通过大脑本身的推理机制才能发生。在这个例子中，由于我们过去有大量类似经验，既“这种视觉输入通常是由两个矩形的遮挡产生的”，因此我们会判断图（b）是问题的答案。这个推理过程是无意识的。

对某个物体的大小知觉与该物体的距离和该物体在视网膜上的大小有关，视网膜上大小相同但是距离不同，对物体大小的知觉也不同。为了得出对某个陌生物体大小的知觉，我们首先得运用深度线索得出该物体的距离知觉D，然后通过这个距离知觉和视网膜上的大小（R）推理物体的物理大小S，S=k（R*D）（9-4：大小）。在这一推理过程中，除了最终有关大小S的知觉外，其余都是无意识的。

图29

2.贝叶斯知觉推理

贝叶斯知觉推理是以Thomas Bayes命名的客体知觉推理方式。该理论认为，知觉的估计概率取决于两个因素：第一，似然估计，它表示当出现某种知觉结果时能观察到这种视觉输入的概率值大小；第二，先验概率，也即出现每种知觉结果的可能性大小。两者结合后可以得到在观察到这种视觉输入的前提下，出现某种知觉印象的概率、。以看书为例，当看一页书时，假设在视网膜上形成矩形，而矩形刺激对应客体的可能性是无穷多种的，它可能是一个长方形，也可能是一个梯形（根据眼球投射的原理，如图30），每种可能有其概率值，这些概率值的估计属于似然估计；“书是矩形的”是头脑中的一种先验概率，因为在生活中书都是矩形的。当这一先验概率与似然概率结合起来时（“似然估计”乘以“先验概率”），人们评估这一刺激是矩形的可能性就会很高。

图30

贝叶斯知觉推理这一思想也可以用在环境中的客体推理。环境客体推理同样包含两方面要素：第一，似然估计，即该刺激与某类客体的的匹配程度（与贝叶斯知觉推理的一致）。第二，环境因素，客体的可能类别与环境的一致程度，即在某种环境下出现这种知觉结果的可能性大小，环境因素实际上也是一种先验知识，它需要通过后天学习。以下图31为例，似然概率是单独判断图（a）所属类别及其概率，但是它的可能类别非常之多，判断非常困难；如果结合环境因素，则很容易判断它是来自桌子上的杯子（图（b））（在这种环境下，出现杯子的先验概率是很高的），弯腰人的鞋子（图（c）），街上的汽车（图（d））。

图31

八.目标识别与眼动（严艳梅，2006）

1.系列加工和平行加工

视觉识别是平行的还是系列的过程？格式塔学派的心理学家们主张，对象是作为整体被识别的，不需要分解为组成部分。这个论点意味着，每个对象是一个单一的整体，与对象的匹配是单次完成的。这是一种平行加工。而其他的心理学家提出（Noton和Stark（著），孙晔等（译），1981），内部的表象是零碎凑合的——是一些部分或特征的集合。当需要识别时，这些特征和对象的特征一步一步地逐次匹配。把所有这些特征成功地匹配起来就完成了再认。这是一种系列加工。

系列加工的假设得到一些实验的支持。这些实验主要是测量再认不同客体所用的时间。系列假设认为，当要求被试再认一个目标对象时，是对该对象一个特征接一个特征连续地检查，只有所有特征都匹配才能完成再认；而否认一个非目标对象时，也对该对象一个特征接一个特征连续地检査，但是在这一过程中，只要有一个特征不符，就可以停止检查，做出否认判断，所以再认目标对象时间比否认目标对象时间要长。而格式塔假设认为，整个内部表象与对象的匹配是一次性完成的。如果该假设成立，那么再认一个目标物体，与否认一个非目标物体的时间应该相同。实验结果支持系列加工的假设。

2.扫描路径

Noton和Stark（1971）提出了视觉模式知觉理论，该理论主张，视觉扫描的加工是一个系列过程，在学习和再认时，人们从视觉刺激中提取信息具有一定固定的顺序，并且记住了这个顺序。比如，当被试观看一幅图画时，他们的眼睛常常按着一个固定的路线间歇地、重复地去扫描它，从而形成一定的扫描路径，且在再认（识别）这幅画时，眼动也遵循这个路径。Noton和Stark又提出了所谓“特征环”的概念，它是记录客体的一个特征和为达到下一个特征所需要的眼睛运动，并建立了客体特征和眼动的一个固定顺序，相当于对物体的扫描路径。

视觉模式知觉理论还认为，当被试第一次扫描一个新的刺激时，就在记忆里储存了注视点的顺序形成一个空间模型，以便于建立扫描路径。当该刺激再次呈现时，眼睛就倾向于跟随之前的扫描路径，因为这有利于对刺激的再认（当第一次扫描和再认时的眼动模式一致时，会更容易辨认目标）。这个理论认为扫描路径是静态的，既同一被试观看同一图片的扫描路径是相对稳定的，是静态的。这种扫描路径一般在图片第一次呈现时形成，以后再看见该图片时很难再改变，至少在一星期之内不变（Stark，1994）。

Locher和Nodine（1974）使用了随机几何图形为实验材料，研究被试在学习和再认两个阶段中的眼动扫描路径。结果发现，无论随机几何图形的复杂程度如何，有半数以上的眼动记录结果表明，在再认阶段和学习阶段对同一张图形的扫描路径是一致的。Pieters等人（Pieters和Warlop，1999）曾用广告图片作为实验材料，研究被试重复浏览广告图片时的扫描路径。结果发现，注视时间会随着同一广告的呈现次数增多而显著减少，第三次是第一次的50%，但是扫描路径不随广告的重复而改变，扫描顺序保持相对稳定。

3.随机加工理论

尽管Noton和Start（1971）提出了视觉模式知觉理论，认为重复扫描同一图片时存在相似的扫描路径的。但是也有研究者反对这一主张。比如，扫描路径应该是一种完全随机加工、分层随机加工、或者是统计上的相依随机加工（严艳梅，2006）。完全随机加工认为，图片中的每个元素都有同等被注视的可能性。分层随机加工认为，图片中各元素被注视的可能性反映了元素本身吸引注意的程度，这种注视不依赖于之前的注视点。统计上的相依随机加工明确指出，当前注视点的位置依赖于之前的注视点，这种视觉的模式也称为Markov加工。研究还发现，从A点到B点的眼跳频率与从B点到A点的眼跳频率是一样的，这说明Markov加工的迁移可能性是对称的。David和Eileen（2001）提出了距离权重选择模型，该模型认为被试是根据离当前注视点的距离来确定下一个眼跳的目标，而不考虑这一目标是否被注视过。

本文地址：https://www.yitenyun.com/3856.html

上一篇：ARM架构服务器运行GLM-4.6V-Flash-WEB的兼容性测···

下一篇：SAP ECC6 ides 安装在vmware12这个版本的中的wi···

搜索文章

所有分类

香港服务器（0）美国服务器（0）香港站群服务器（1）美国站群服务器（0）

Tags

#远程工作 #服务器 #python #pip #conda #ios面试 #ios弱网 #断点续传 #ios开发 #objective-c #ios #ios缓存 #kubernetes #笔记 #平面 #容器 #linux #学习方法香港站群服务器多IP服务器香港站群站群服务器 #运维 #学习 #docker #后端 #数据库 #进程控制 #开发语言 #云原生 #iventoy #VmWare #OpenEuler #人工智能 #node.js #fastapi #html #css #MobaXterm #ubuntu #cpolar #Conda # 私有索引 # 包管理 #Trae #IDE #AI 原生集成开发环境 #Trae AI #物联网 #websocket #低代码 #爬虫 #音视频 #内网穿透 #网络 #github #git #算法 #大数据 #vscode #mobaxterm #深度学习 #计算机视觉 #vllm #大模型 #Streamlit #Qwen #本地部署 #AI聊天机器人 #开源 #RTP over RTSP #RTP over TCP #RTSP服务器 #RTP #TCP发送RTP #缓存 #数信院生信服务器 #Rstudio #生信入门 #生信云服务器 #安全 #nginx #tcp/ip #golang #java #redis #android #腾讯云 #c# #web安全 #unity #游戏引擎 #需求分析 #ssh #ide #华为 #ModelEngine #jvm #我的世界 #hadoop #hbase #hive #zookeeper #spark #kafka #flink #凤希AI伴侣 #udp #云计算 #c++ #json #jmeter #功能测试 #软件测试 #自动化测试 #职场和发展 #prometheus #gpu算力 #grafana #kylin #qt #ping通服务器 #读不了内网数据库 #bug菌问答团队 #Dell #PowerEdge620 #内存 #硬盘 #RAID5 #http #cpp #项目 #高并发 #华为云 #部署上线 #动静分离 #Nginx #新人首发 #企业开发 #ERP #项目实践 #.NET开发 #C#编程 #编程与数学 #gemini #gemini国内访问 #gemini api #gemini中转搭建 #Cloudflare #银河麒麟 #系统升级 #信创 #国产化 #多个客户端访问 #IO多路复用 #回显服务器 #TCP相关API #编辑器 #科技 #个人博客 #金融 #mcp #金融投资Agent #Agent #n8n #研发管理 #禅道 #禅道云端部署 #嵌入式编译 #ccache #distcc #windows #vue.js #前端 #C++ #oracle #我的世界服务器搭建 #minecraft #AI #大模型学习 #Spring AI #MCP服务器 #STDIO协议 #Streamable-HTTP #McpTool注解 #服务器能力 #javascript #银河麒麟高级服务器操作系统安装 #银河麒麟高级服务器V11配置 #设置基础软件仓库时出错 #银河麒高级服务器系统的实操教程 #生产级部署银河麒麟服务系统教程 #Linux系统的快速上手教程 #todesk #asp.net大文件上传 #asp.net大文件上传下载 #asp.net大文件上传源码 #ASP.NET断点续传 #asp.net上传文件夹 #分阶段策略 #模型协议 #flutter #数码相机 #jar #改行学it #创业创新 #程序员创富 #架构 #asp.net #sqlserver #centos #claude #面试 #arm开发 #cosmic #性能优化 #vue #阿里云 #php #fiddler #JumpServer #堡垒机 #远程桌面 #远程控制 #screen 命令 #振镜 #振镜焊接 #teamviewer #mysql #1024程序员节 #YOLO # Triton # 目标检测 #mvp #个人开发 #设计模式 #AI编程 #SRS #流媒体 #直播 #c语言 #数据结构 #elasticsearch #版本控制 #Git入门 #开发工具 #代码托管 #单元测试 #集成测试 #web server #请求处理流程 #网络安全 #DisM++ # GLM-4.6V # 系统维护 #京东云 #jenkins #自动化 #react.js #分布式 #制造 #守护进程 #复用 #screen #网络协议 #系统架构 #测试工具 #嵌入式硬件 #单片机 #DeepSeek #MCP #蓝耘智算 #AIGC #ida #深度优先 #DFS #SSH # 双因素认证 # TensorFlow #毕设 #微信小程序 #小程序 #源码 #闲置物品交易系统 #毕业设计 #pytorch #umeditor粘贴word #ueditor粘贴word #ueditor复制word #ueditor上传word图片 #RAID #RAID技术 #磁盘 #存储 #IPv6 #DNS #游戏 #智能路由器 #rustdesk #p2p #unity3d #服务器框架 #Fantasy #java-ee #transformer #prompt #django #计算机 #树莓派4b安装系统 #flask #web3.py #mamba #jupyter #ollama #ai #llm #RustDesk #IndexTTS 2.0 #本地化部署 #spring boot #时序数据库 #swagger #Android #Bluedroid #Ansible #Playbook #AI服务器 #课程设计 #AI论文写作工具 #学术写作辅助 #论文创作效率提升 #AI写论文实测 #智能手机 #journalctl #sql #电气工程 #C# #PLC #电脑 #ssl #stm32 #eBPF #压力测试 #vuejs #高级IO #select #计算机网络 #libosinfo #openlayers #bmap #tile #server #语音识别 #说话人验证 #声纹识别 #CAM++ #TCP #客户端 #嵌入式 #DIY机器人工房 #maven #gitlab #ansible #FTP服务器 #Windows #gitea #macos #网站 #截图工具 #批量处理图片 #图片格式转换 #图片裁剪 #X11转发 #Miniconda #mcu #算力一体机 #ai算力服务器 #debian #scala #测试用例 #聊天小程序 #微信 #健身房预约系统 #健身房管理系统 #健身管理系统 #tdengine #涛思数据 #tomcat #apache #Proxmox VE #虚拟化 #VMware #spring #交互 #NPU #CANN #1panel #vmware #PyTorch #CUDA #Triton #5G #pycharm #SSH公钥认证 # PyTorch # 安全加固 #C2000 #TI #实时控制MCU #AI服务器电源 #dify #leetcode #自然语言处理 #Llama-Factory # 树莓派 # ARM架构 #信号处理 #uni-app #H5 #跨域 #发布上线后跨域报错 #请求接口跨域问题解决 #跨域请求代理配置 #request浏览器跨域 #部署 #memcache #银河麒麟操作系统 #openssh #华为交换机 #信创终端 #UDP的API使用 #搜索引擎 #处理器 #microsoft #opencv #数据挖掘 #智能体来了 #智能体对传统行业冲击 #行业转型 #AI赋能 #运维开发 #bash #AutoDL #notepad++ #黑群晖 #虚拟机 #无U盘 #纯小白 #支付 #RAG #LLM #chat #东方仙盟 #lua #API限流 # 频率限制 # 令牌桶算法 #iBMC #UltraISO #经验分享 #YOLO26 #目标检测 #蓝湖 #Axure原型发布 #扩展屏应用开发 #android runtime #远程开发 #llama #神经网络 #语言模型 #milvus #springboot #知识库 #postman #媒体 #交通物流 #SAP #ebs #metaerp #oracle ebs #rocketmq #selenium #政务 #手机h5网页浏览器 #安卓app #苹果ios APP #手机电脑开启摄像头并排查 #910B #昇腾 #chrome #机器学习 #Clawdbot #个人助理 #数字员工 #aws #系统安全 #Anaconda配置云虚拟环境 #Nacos #web #微服务 #laravel #KMS #slmgr #密码学 #可信计算技术 #puppeteer #openHiTLS #TLCP #DTLCP #商用密码算法 #CPU #xlwings #Excel #测评 #CCE #Dify-LLM #Flexus #postgresql #连接数据库报错 #spring cloud #nfs #iscsi #cursor #统信UOS #服务器操作系统 #win10 #qemu #翻译 #前端框架 #负载均衡 #YOLOFuse # Base64编码 # 多模态检测 #硬件工程 #智能家居 #YOLOv8 # Docker镜像 #进程 #操作系统 #进程创建与终止 #shell #文件管理 #NAS #文件服务器 #jetty #SPA #单页应用 #scanf #printf #getchar #putchar #cin #cout #大语言模型 #程序员 #SA-PEKS # 关键词猜测攻击 # 盲签名 # 限速机制 #win11 #langchain #麒麟OS #安卓 #信息与通信 #tcpdump #visual studio code #车辆排放 #实时音视频 #业界资讯 #排序算法 #jdk #排序 #ms-swift # 大模型 # 模型训练 # 高并发部署 #ddos #vps #aiohttp #asyncio #异步 #企业级存储 #网络设备 #数据仓库 #软件 #本地生活 #电商系统 #商城 #Smokeping #pve #LoRA # lora-scripts # 模型微调 #大模型应用 #API调用 #PyInstaller打包运行 #服务端部署 #.netcore #https #sqlite #openEuler #欧拉 #epoll #intellij-idea #Go并发 #高并发架构 #Goroutine #系统设计 #Dify #ARM架构 #鲲鹏 #openresty #wordpress #雨云 #海外服务器安装宝塔面板 #chatgpt #EMC存储 #存储维护 #NetApp存储 #rdp #视频去字幕 #硬件架构 #Termux #Samba #Linux #数据分析 #SSH反向隧道 # Miniconda # Jupyter远程访问 #PTP_1588 #gPTP #codex #esp32教程 #rust #pdf #大模型教程 #AI大模型 #结构体 #信令服务器 #Janus #MediaSoup #rtsp #转发 #harmonyos #鸿蒙PC #进程等待 #wait #waitpid #CVE-2025-61686 #漏洞 #路径遍历高危漏洞 #Android16 #音频性能实战 #音频进阶 #webrtc #idm #H5网页 #网页白屏 #H5页面空白 #资源加载问题 #打包部署后网页打不开 #HBuilderX #deepseek #SSE # AI翻译机 # 实时翻译 #VMWare Tool #万悟 #联通元景 #智能体 #镜像 #无人机 #Deepoc #具身模型 #开发板 #未来 #MC #心理健康服务平台 #心理健康系统 #心理服务平台 #心理健康小程序 #web服务器 #链表 #链表的销毁 #链表的排序 #链表倒置 #判断链表是否有环 #鸭科夫 #逃离鸭科夫 #鸭科夫联机 #鸭科夫异地联机 #开服 #北京百思可瑞教育 #百思可瑞教育 #北京百思教育 #散列表 #哈希算法 #idea #intellij idea #risc-v #GATT服务器 #蓝牙低功耗 #GPU服务器 #8U #ui # ControlMaster #硬件 #ServBay #昇腾300I DUO #PowerBI #企业 #AI 推理 #NV #大剑师 #nodejs面试题 #VMware Workstation16 #word #ESP32 # OTA升级 # 黄山派 #ci/cd #ansys #ansys问题解决办法 #HeyGem # WebUI # 网络延迟 #Qwen3-14B # 大模型部署 # 私有化AI #ShaderGraph #图形 #ranger #MySQL8.0 #vnstat #监控 #游戏机 #文心一言 #AI智能体 #vp9 #MS #Materials #mariadb #攻防演练 #Java web #红队 #elk #Socket网络编程 #sql注入 #能源 #SSH跳板机 # Python3.11 #WT-2026-0001 #QVD-2026-4572 #smartermail #fpga开发 #LVDS #高速ADC #DDR #驱动开发 #飞牛nas #fnos #Modbus-TCP # 服务器配置 # GPU #ue5 #screen命令 #Gunicorn #WSGI #Flask #并发模型 #容器化 #Python #性能调优 #muduo #TcpServer #accept #高并发服务器 #系统管理 #服务 #Emby #视频 #机器人 #ambari #arm #bond #服务器链路聚合 #网卡绑定 #门禁 #梯控 #智能一卡通 #门禁一卡通 #消费一卡通 #智能梯控 #一卡通 #AI-native #超时设置 #客户端/服务器 #网络编程 #管道Pipe #system V #ai编程 #adb # TTS服务器 # 键鼠锁定 #远程连接 #学术论文创作 #论文效率提升 #MBA论文写作 #muduo库 #uv #uvx #uv pip #npx #Ruff #pytest #WinSCP 下载安装教程 #SFTP #FTP工具 #服务器文件传输 #excel # 高并发 # CosyVoice3 # 批量部署 #数据恢复 #视频恢复 #视频修复 #RAID5恢复 #流媒体服务器恢复 #copilot #scrapy #推荐算法 #AI写作 #Gateway #认证服务器集成详解 #tensorflow #框架搭建 #ArkUI #ArkTS #鸿蒙开发 #node #状态模式 #dba #Tokio #react native #vivado license #CVE-2025-68143 #CVE-2025-68144 #CVE-2025-68145 #html5 #蓝牙 #LE Audio #BAP #powerbi #计算几何 #斜率 #方向归一化 #叉积 #agi #go # 批量管理 #ASR #SenseVoice #星图GPU #中间件 #MQTT协议 #参数估计 #矩估计 #概率论 #C语言 #zabbix #svn #证书 #fabric #Node.js # child_process #winscp #ONLYOFFICE #MCP 服务器 #后端框架 #POC #问答 #交付 #动态规划 #dlms #dlms协议 #逻辑设备 #逻辑设置间权限 # 数字人系统 # 远程部署 #scikit-learn #随机森林 #安全威胁分析 #服务器繁忙 #仙盟创梦IDE #serverless #GLM-4.6V-Flash-WEB # AI视觉 # 本地部署 #3d #Minecraft #Minecraft服务器 #PaperMC #我的世界服务器 #spine #pyqt #mybatis #kong #Kong Audio #Kong Audio3 #KongAudio3 #空音3 #空音 #中国民乐 #ipmitool #BMC #C #小艺 #鸿蒙 #搜索 #STDIO传输 #SSE传输 #WebMVC #WebFlux #bootstrap #文件IO #输入输出流 #产品经理 #就业 #embedding #kmeans #聚类 #KMS激活 #代理模式 #Spring AOP #国产操作系统 #麒麟 #V11 #kylinos #Java #论文阅读 #软件工程 #paddleocr #Host #渗透测试 #SSRF #wsl #LangGraph #CLI #JavaScript #langgraph.json #CSDN #zotero #WebDAV #同步失败 #工具集 #raid #raid阵列 #webpack #numpy #分类 #Langchain-Chatchat # 国产化服务器 # 信创 #模型训练 #Tracker 服务器 #响应最快 #torrent 下载 #2026年 #Aria2 可用 #迅雷可用 #BT工具通用 # IndexTTS 2.0 # 自动化运维 #.net #net core #kestrel #web-server #asp.net-core #database #儿童AI #图像生成 #Zabbix #CosyVoice3 #语音合成 #FASTMCP #LobeChat #vLLM #GPU加速 #开源工具 #Puppet # IndexTTS2 # TTS #联机教程 #局域网联机 #局域网联机教程 #局域网游戏 #集成学习 #MC群组服务器 #ZooKeeper #ZooKeeper面试题 #面试宝典 #深入解析 #大模型部署 #mindie #大模型推理 #云服务器 #个人电脑 #大模型开发 #Harbor #简单数论 #埃氏筛法 #unix #CS2 #debian13 # 语音合成 #uip #x86_64 #数字人系统 #yum #信创国产化 #达梦数据库 #windows11 #系统修复 #三维 #3D #三维重建 #其他 #GPU ##租显卡 #树莓派 #温湿度监控 #WhatsApp通知 #IoT #MySQL #青少年编程 #SMTP # 内容安全 # Qwen3Guard #黑客技术 #文件上传漏洞 #RXT4090显卡 #RTX4090 #深度学习服务器 #硬件选型 #cesium #可视化 #Kylin-Server #服务器安装 # 大模型推理 #CTF #echarts #A2A #GenAI #平板 #零售 #智能硬件 #飞牛NAS #NVR #EasyNVR #LangFlow # 智能运维 # 性能瓶颈分析 # GPU租赁 # 自建服务器 #插件 #开源软件 #devops #FHSS #MinIO服务器启动与配置详解 #reactjs #web3 #代理 # 自动化部署 # VibeThinker #服务器解析漏洞 #nodejs #NFC #智能公交 #服务器计费 #FP-增长 #遛狗 #算力建设 #bug #AI技术 #练习 #基础练习 #数组 #循环 #九九乘法表 #计算机实现 #agent #ai大模型 #dynadot #域名 #ETL管道 #向量存储 #数据预处理 #DocumentReader #esb接口 #走处理类报异常 #ffmpeg #SSH密钥 # CUDA #DHCP # 一锤定音 # 大模型微调 #smtp #smtp服务器 #PHP #银河麒麟部署 #银河麒麟部署文档 #银河麒麟linux #银河麒麟linux部署教程 #firefox #safari # RTX 3090 #Docker #b树 #VibeVoice # 高温监控 #fs7TF # 远程访问 # 服务器IP #Fun-ASR # 语音识别 #ROS # 局域网访问 # 批量处理 #密码 #windbg分析蓝屏教程 #le audio #低功耗音频 #通信 #连接 #memory mcp #Cursor #nmodbus4类库使用教程 #docker-compose #目标跟踪 #npu #c++20 # 远程连接 #内网 # 跳板机 #Buck #NVIDIA #算力 #交错并联 #DGX #内存治理 #googlecloud #远程软件 #串口服务器 #Modbus #IFix #gerrit #opc ua #opc #代理服务器 #rsync # 数据同步 # 环境迁移 #blender #设计师 #图像处理 #游戏美术 #技术美术 #matplotlib #安全架构 #分布式数据库 #集中式数据库 #业务需求 #选型误 # Connection refused #跳槽 #工作 #odoo #指针 #anaconda #虚拟环境 #GB28181 #SIP信令 #SpringBoot #视频监控 #HarmonyOS # GLM-TTS # 数据安全 #Apple AI #Apple 人工智能 #FoundationModel #Summarize #SwiftUI #TTS私有化 # IndexTTS # 音色克隆 #多线程 #claudeCode #content7 #ip # ARM服务器 # 串口服务器 # NPort5630 #appche #编程助手 #azure # 轻量化镜像 # 边缘计算 #OpenHarmony #ceph #Python办公自动化 #Python办公 #源代码管理 #挖矿 #Linux病毒 #turn #网安应急响应 #ftp #sftp #微PE # GLM # 服务连通性 #YOLO识别 #YOLO环境搭建Windows #YOLO环境搭建Ubuntu #硬盘克隆 #DiskGenius #opc模拟服务器 #cpu #工程设计 #预混 #扩散 #燃烧知识 #层流 #湍流 #量子计算 #SSH跳转 #TTS # GPU集群 #AI部署 # ms-swift #服务器开启 TLS v1.2 #IISCrypto 使用教程 #TLS 协议配置 #IIS 安全设置 #服务器运维工具 #PN 结 #uniapp #合法域名校验出错 #服务器域名配置不生效 #request域名配置 #已经配置好了但还是报错 #uniapp微信小程序 #服务器线程 # SSL通信 # 动态结构体 #RWK35xx #语音流 #实时传输 #超算中心 #PBS #lsf #国产化OS #华为od #华为机试 #报表制作 #职场 #数据可视化 #信息可视化 #用数据讲故事 #语音生成 #IO #Socket #套接字 #I/O多路复用 #字节序 #数据迁移 #weston #x11 #x11显示服务器 #samba #RSO #机器人操作系统 #glibc #汽车 #lvs #adobe #宝塔面板部署RustDesk #RustDesk远程控制手机 #手机远程控制 #系统安装 #铁路桥梁 #DIC技术 #箱梁试验 #裂纹监测 #四点弯曲 #可再生能源 #绿色算力 #风电 #麦克风权限 #访问麦克风并录制音频 #麦克风录制音频后在线播放 #用户拒绝访问麦克风权限怎么办 #uniapp 安卓苹果ios #将音频保存本地或上传服务器 #express #cherry studio #gmssh #宝塔 #漏洞挖掘 #Exchange #JNI #pxe #AI应用编程 #Xshell #Finalshell #生信 #生物信息学 #组学 #SSH免密登录 #STUN # TURN # NAT穿透 #MCP服务器注解 #异步支持 #方法筛选 #声明式编程 #自动筛选机制 #若依 #EN4FE #自由表达演说平台 #演说 #程序人生 #ARM服务器 # 多模态推理 #AI Agent #开发者工具 #free #vmstat #sar #sentinel #前端开发 #范式 #计算机外设 #Karalon #AI Test #TRO #TRO侵权 #TRO和解 #视觉检测 #visual studio #运维工具 #网络攻击模型 #流程图 #论文笔记 #图论 #RK3576 #瑞芯微 #硬件设计 #Discord机器人 #云部署 #程序那些事 #国产开源制品管理工具 #Hadess #一文上手 #蓝桥杯 #okhttp #r语言 #健康医疗 #企业微信 #服务器IO模型 #非阻塞轮询模型 #多任务并发模型 #异步信号模型 #多路复用模型 #Reactor #ET模式 #非阻塞 # 黑屏模式 #领域驱动 #remote-ssh #移动端h5网页 #调用浏览器摄像头并拍照 #开启摄像头权限 #拍照后查看与上传服务器端 #摄像头黑屏打不开问题 #工程实践 #c #工业级串口服务器 #串口转以太网 #串口设备联网通讯模块 #串口服务器选型 #AI应用 #CMake #Make #C/C++ #IndexTTS2 # 阿里云安骑士 # 木马查杀 #图像识别 #入侵 #日志排查 #高考 #多模态 #微调 #超参 #LLamafactory #人大金仓 #Kingbase #gpt #API #taro #wps #Linux多线程 #Java程序员 #Java面试 #后端开发 #Spring源码 #Spring #Beidou #北斗 #SSR #gateway #多进程 #python技巧 #信息安全 #信息收集 #iot #poll #策略模式 #租显卡 #训练推理 #simulink #matlab #bigtop #hdp #hue #kerberos #pencil #pencil.dev #设计 #传统行业 #轻量化 #低配服务器 #Anything-LLM #IDC服务器 #私有化部署 #java大文件上传 #java大文件秒传 #java大文件上传下载 #java文件传输解决方案 # GLM-4.6V-Flash-WEB # AI部署 #材料工程 #智能电视 #PyCharm # 远程调试 # YOLOFuse #AB包 #VMware创建虚拟机 #远程更新 #缓存更新 #多指令适配 #物料关联计划 #es安装 #挖漏洞 #攻击溯源 #编程 #warp #docker安装seata #数字化转型 #实体经济 #商业模式 #软件开发 #数智红包 #商业变革 #创业干货 #Syslog #系统日志 #日志分析 #日志监控 #生产服务器问题查询 #日志过滤 #Autodl私有云 #深度服务器配置 # 水冷服务器 # 风冷服务器 #VoxCPM-1.5-TTS # 云端GPU # PyCharm宕机 #全链路优化 #实战教程 #m3u8 #HLS #移动端H5网页 #APP安卓苹果ios #监控画面直播视频流 #Prometheus #pjsip #DooTask #防毒面罩 #防尘面罩 #stl #漏洞修复 #IIS Crypto #UEFI #BIOS #Legacy BIOS #产品运营 # keep-alive #SSH保活 #everything #人脸识别sdk #视频编解码 #人脸识别 #高斯溅射 #AI生成 # outputs目录 # 自动化 #决策树 #HistoryServer #Spark #YARN #jobhistory #sglang #ComfyUI # 推理服务器 #n8n解惑 #身体实验室 #健康认知重构 #系统思维 #微行动 #NEAT效应 #亚健康自救 #ICT人 #云开发 #KMS 激活 #rabbitmq #AI智能棋盘 #Rock Pi S #边缘计算 #计算机毕业设计 #程序定制 #毕设代做 #课设 #Hadoop #c++高并发 #百万并发 #SSH别名 #SSH Agent Forwarding # 容器化 #BoringSSL #云计算运维 #内存接口 # 澜起科技 # 服务器主板 #asp.net上传大文件 # 显卡驱动备份 #模拟退火算法 # 鲲鹏 #开关电源 #热敏电阻 #PTC热敏电阻 #http头信息 #文件传输 #电脑文件传输 #电脑传输文件 #电脑怎么传输文件到另一台电脑 #电脑传输文件到另一台电脑 #eureka #k8s #性能 #优化 #RAM #mongodb #wireshark #广播 #组播 #并发服务器 #nacos #银河麒麟aarch64 #uvicorn #uvloop #asgi #event #ICE # 服务器迁移 # 回滚方案 #OPCUA #群晖 #大模型入门 #homelab #Lattepanda #Jellyfin #Plex #Kodi #yolov12 #研究生life #企业存储 #RustFS #对象存储 #高可用 #TCP服务器 #开发实战 #全文检索 #gpu #nvcc #cuda #nvidia #银河麒麟服务器系统 #TensorRT # 推理优化 # HiChatBox # 离线AI #log4j #Jetty # 嵌入式服务器 #模块 #可撤销IBE #服务器辅助 #私钥更新 #安全性证明 #双线性Diffie-Hellman #音乐 #diskinfo # 磁盘健康 #IntelliJ IDEA #Spring Boot #SQL注入主机 #neo4j #NoSQL #SQL #短剧 #短剧小程序 #短剧系统 #微剧 #Coturn #TURN #流量监控 #hibernate #nosql # 代理转发 # 端口7860 #CPU利用率 #建筑缺陷 #红外 #数据集 #SMARC #ARM #vncdotool #链接VNC服务器 #如何隐藏光标 # 公钥认证 #空间计算 #原型模式 # 云服务器 #网络安全大赛 #戴尔服务器 #戴尔730 #装系统 #r-tree #junit #CNAS #CMA #程序文件 #ThingsBoard MCP #I/O模型 #并发 #水平触发、边缘触发 #多路复用 #clickhouse #实时检测 #卷积神经网络 #DAG #数据访问 #Aluminium #Google # 服务器IP访问 # 端口映射 #云服务器选购 #Saas #线程 #Comate #outlook #错误代码2603 #无网络连接 #2603 #eclipse #servlet #HarmonyOS APP #arm64 #Ubuntu服务器 #硬盘扩容 #命令行操作 #SSH复用 # 远程开发 #磁盘配额 #存储管理 #形考作业 #国家开放大学 #系统运维 #自动化运维 #具身智能 #C++ UA Server #SDK #跨平台开发 #网路编程 #rtmp #机器视觉 #6D位姿 #UOS #海光K100 #统信 #声源定位 #MUSIC #mssql #数据安全 #注入漏洞 #wpf #AI电商客服 #MOXA #spring ai #oauth2 #lucene #模型上下文协议 #MultiServerMCPC #load_mcp_tools #load_mcp_prompt #文生视频 #WAN2.2 #AI视频生成 #雨云服务器 #教程 #MCSM面板 #xshell #host key #游戏策划 #游戏程序 #用户体验 #Ubuntu #TLS协议 #HTTPS #运维安全 #VS Code调试配置 #数学建模 #2026年美赛C题代码 #2026年美赛 #智能制造 #供应链管理 #工业工程 #库存管理 #反向代理 #WinDbg #Windows调试 #内存转储分析 #log #mtgsig #美团医药 #美团医药mtgsig #美团医药mtgsig1.2 #浏览器自动化 #python #claude code #code cli #ccusage #运维 #静脉曲张 #腿部健康 #运动 #Ascend #MindIE #MinIO #上下文工程 #langgraph #意图识别 #FRP #边缘AI # Kontron # SMARC-sAMX8 #WRF #WRFDA #gRPC #注册中心 #OpenAI #故障 #CA证书 #nas #测速 #iperf #iperf3 #二值化 #Canny边缘检测 #轮廓检测 #透视变换 # REST API #面向对象 #基础语法 #标识符 #常量与变量 #数据类型 #运算符与表达式 #交换机 #三层交换机 #session #esp32 arduino #主板 #总体设计 #电源树 #框图 #iphone #模版 #函数 #类 #笔试 # 权限修复 #WEB #阿里云RDS #coffeescript

最新资讯