人才强校 | 工学院农机装备智能化设计与制造创新团队在计算机视觉领域取得进展

8月19日,农机装备智能化设计与制造创新团队杜岳峰副教授在《先进科学》(Advanced Science,IF5years=15.6)在线发表了《认知启发的神经网络建模框架在计算机视觉中的潜力》(The Potential of Cognitive-Inspired Neural Network Modeling Framework for Computer Vision)的研究论文。

1.png

本研究立足于人工智能与认知科学,聚焦于认知启发的视觉深度神经网络建模方法和视觉模型的底层范式,将抽象的认知理论形式化为数学表示,同时实现了理论和概念映射到可扩展和训练的程序代理,这一范式展示了认知启发式人工智能的广泛潜力,有望改变我们设计和理解人工智能系统的方式由纯粹的工程优化(对数据分布的有效拟合)过渡到仿生设计(结合人类智能内涵的认知机制),同时推动机器人具身智能系统由单纯的感知驱动向认知驱动转变,为机器人具身智能的安全性与可控性奠定坚实基础。

2.png

长短时记忆网络(LSTM)和胶囊网络(CapsuleNet)通常被视为人工智能与认知科学交叉的起点。由于描述认知系统运行机制的理论通常由高度抽象的“方框-箭头”图描述,且这些理论缺乏明确的数学公式或计算过程,而视觉模型强调通过数值计算从大规模训练数据中自动学习潜在的逻辑和模式。视觉模型与认知理论在功能实现上的分歧反映了人工智能与认知科学之间的差距,现阶段的研究主要集中于在视觉模型中复制人类视觉注意力的信息筛选机制,而非模拟形成注意力的复杂认知系统(图a),导致视觉模型及其基础算子的性能过度依赖于训练数据的规模和质量。因此,融合认知理论指导视觉模型底层算子和架构的开发存在功能抽象、数值建模和规则约束等众多开放且具有挑战性的问题。

为解决上述问题,该研究提出了一个允许将抽象的认知理论转化为可计算表示的建模理论(CMF)(图b),CMF包含三个步骤:功能抽象(步骤一)、算子结构化(步骤二)和程序代理(步骤三)。同时,在CMF中引入了三个核心概念:功能泛函、计算图和代理程序。这些概念使得认知功能及其之间的因果逻辑能够被嵌入到模型的计算过程中,并作为算子计算原理和学习目标的明确约束。为了在视觉模型中模拟长时记忆,创新性地提出将视觉模型的长时记忆定义为由图像中的基本特征组成的先验信息,并开发了一种名为无偏映射算法(UMA)的长时记忆建模方法(图c),该方法使用快速傅立叶变换和统计方法从大规模数据中无监督地提取先验信息;最后,基于CMF和UMA开发了视觉认知神经单元(VCNU)和视觉认知模型(VCogM)(图d),并在自然场景识别任务上进行了性能测试。为了验证该方法在农业领域的潜力,开发了一个包含17万张农业图像的基准数据集(Agri170K),并在此数据集上对VCNU与VCogM进行了性能测试。实验结果表明,VCogM和VCNU在所有任务中均获得了较先进的性能。同时,发现VCogM的学习过程与数据分布和规模无关,充分证明了认知启发式视觉模型的先进性。

3.png

(a)人脑中视觉注意力形成过程(b)认知建模框架(c)无偏映射算法(d)实例化代理程序

该项研究得到农业科技重大项目、中国AV无码国产学科交融拓新计划—“智慧农业及智能装备数字孪生体构建理论与方法”等项目资助。中国AV无码国产为唯一单位,博士研究生李国润和博士后刘磊为共同第一作者,杜岳峰副教授为通讯作者,创新团队负责人宋正河教授以及团队成员武秀恒副教授、栗晓宇老师对研究工作给予了重要支持。

该项成果展示了团队在通用计算机视觉和人工智能的基础研究实力,团队将继续围绕“智能农机装备+AI”,在跨学科交叉、理论创新和工程实践持续投入,形成具有中国农大特色的研究和理论体系。为促进行业发展,团队一致同意将该研究成果开源,以实际行动践行“强国先强农,农大作先锋”的号召与使命。详细代码已发布至:http://github.com/CAU-COE-VEICLab/Vision-Cognitive-Neural-Networks

原文连接:http://doi.org/10.1002/advs.202507730 

供稿:工学院

供图:工学院

编辑:孟祥慈

责编:武慧媛

分享