摘要:视觉是人类观察和认知世界的重要手段。据统计,人类从外部世界获得的信息约有80%通过视觉系统完成。如何让机器人、机器狗、智能驾驶等各种智能体拥用人类般“慧眼”甚至是超越人类的“火眼金睛”呢?
视觉是人类观察和认知世界的重要手段。据统计,人类从外部世界获得的信息约有80%通过视觉系统完成。如何让机器人、机器狗、智能驾驶等各种智能体拥用人类般“慧眼”甚至是超越人类的“火眼金睛”呢?
“作为人类感知外部世界的核心通道,视觉承载着环境解码与认知建构的双重使命。”信息与电气工程学院李振波教授指出:在人工智能技术演进历程中,如何为智能体赋予逼近甚至超越人类的视觉认知能力,如动态场景理解、多模态信息融合与决策支撑等,已然成为人工智能研究的战略制高点。
视觉智能(Visual Intelligence)是人工智能领域的重要分支,通过计算机算法模拟人类视觉系统,实现对图像、视频等视觉信息的自动解析、理解与决策,其涵盖了图像处理、机器学习、模式识别和深度学习等多个领域,能够将海量视觉数据转化为结构化信息,为各行业提供智能化解决方案。视觉智能相较于传统机器视觉,更倾向从图像特征解析算法向认知层级的范式跃迁,让机器能够像人一样掌握理解和处理视觉信息的技术与能力。
作为新一代人工智能突破“具身智能”瓶颈的关键使能技术,视觉智能也正在重构数字农业,视觉智能通过“感知-分析-决策-执行”的闭环,推动传统农业向精准化、自动化、可持续化转型。视觉智能技术有着“无损、非接触、低成本”等优势,已在农业领域形成技术辐射效应,成为发展智慧农业的关键技术之一。李振波通过智慧农业的应用举例进行了说明:在作物表型解析方面,通过视觉智能技术,可以识别不同作物种类及其关键性状参数,为精准种植提供支持;在病虫害动态诊断方面,通过视觉智能技术,可以实时监测虫害发展及作物健康状态,及时发出预警,减少损失;在智能养殖方面,利用视觉智能可以进行自动计数盘点、异常行为分析、体尺测量与体况评分等。
随着深度学习技术演进,视觉智能领域中卷积神经网络(CNN)、YOLO、Transformer架构等模型大幅提升了图像分类、目标检测和语义分割的精度,GAN、Diffusion模型可生成逼真图像视频内容,并开始在三维视觉、视频理解、多模态融合等取得技术突破。近年来,李振波致力于视觉智能基础理论和智慧农业应用研究,在“国家重点研发计划”“国家科技创新2030—‘新一代人工智能’重大项目”等课题任务支持下,面向农业动态开放场景带来的图像视频退化、数据样本不足等问题,他带领团队在图像视频超分辨率重建、图像实例分割、图像融合、小样本学习、运动跟踪等方面取得了一系列重要成果。
DRCNet图像增强方法
基于特权信息的视频超分多频表征增强网络
2021至2023年,连续三年在计算机视觉领域的顶级会议ICCV (International Conference on Computer Vision)、ECCV(European Conference on Computer Vision)等发表关于“图像实例分割模型SOTR”“动态图像恢复对比网络”“基于特权信息的视频超分多频表征增强网络”研究论文,2022年、2024年、2025年分别在人工智能领域著名期刊《IEEE图像处理汇刊》(IEEE Transactions on Image Processing)、《模式识别》(Pattern Recognition)、《IEEE多媒体汇刊》(IEEE Transactions on Multimedia)等发表“基于模糊块对角稀疏约束的图像表达与分类”“基于提示调优的小样本分类CPAAP”“用于小样本图像分类的跨图像语义对齐原型再合成网络PRSN”“深度碰撞与融合CDFGAN:基于自适应特征图与可恢复深度补充的红外与可见光场景融合”等研究成果。
用于小样本图像分类的
跨图像语义对齐原型再合成网络
在物体识别、特征判断与检测领域,视觉智能技术展现出前所未有的应用潜力。近年来,在基础理论研究的基础上,李振波团队围绕视觉智能在农业领域的应用研究,在水下图像增强、鱼苗计数跟踪、动物行为分析、奶牛体况评分、植物叶片高精分割等方面取得了一系列新成果。
水下图像增强网络TBAIE
贝类目标监测识别
幼苗生长状态检测
奶牛体况评分系统
基于多目标跟踪方法,李振波教授团队采用撞线计数方案进行鱼苗动态计数研究,成功研发出“流水鱼苗计数器”,有效减少跟踪误差对计数的干扰。同时,基于密度图回归类的鱼苗计数方法,发明具备低计算量和高精度优势的“静水鱼苗计数器”,减少了计算开销,且满足了移动部署和自动鱼数计数的实际需求。
流水鱼苗计数器
随着数据获取成本的降低,构建“天空地一体化”农业视觉智能感知网络、建立垂直应用场景大规模数据集-农业领域的ImageNet(一个用于视觉对象识别研究的大型可视化图像数据库)成为可能,实现上中游人工智能(视觉)基础模型架构、算法创新的关键技术突破和智慧农业应用是李振波教授团队未来视觉智能发展研究的目标。
对此,李振波表示:“未来已来,一切皆有可能!”
文字|何志勇
图片 | 信息与电气工程学院
编辑 | 李杨 叶瑶瑶
责编 | 范晨辉 姜萍萍 姜承希 杨雨睿 张舒然 丁思远
来源:中国农业大学