摘要:金宁, 郭宇峰, 韩晓东, 缪祎晟, 吴华瑞. 基于迁移学习的农业短文本语义相似度计算方法[J]. 智慧农业(中英文), 2025, 7(1): 33-43.
引用格式:
金宁, 郭宇峰, 韩晓东, 缪祎晟, 吴华瑞. 基于迁移学习的农业短文本语义相似度计算方法[J]. 智慧农业(中英文), 2025, 7(1): 33-43.
DOI: 10.12133/j.smartag.SA202410026
JIN Ning, GUO Yufeng, HAN Xiaodong, MIAO Yisheng, WU Huarui. Method for Calculating Semantic Similarity of Short Agricultural Texts Based on Transfer Learning[J]. Smart Agriculture, 2025, 7(1): 33-43.
官网全文免费阅读
知网阅读
基于迁移学习的农业短文本语义相似度计算方法
金宁1, 郭宇峰1,2, 韩晓东1, 缪祎晟2,3, 吴华瑞2,3*
(1.沈阳建筑大学 计算机科学与工程学院,辽宁沈阳 110168,中国; 2.国家农业信息化工程研究中心,北京 100097,中国; 3.农业农村部农业信息化技术重点实验室,北京 100097,中国)
摘要:
[目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT(Bidirectional Encoder Representations from Transformers)预训练模型的农业短文本语义相似度计算模型CWPT-TSBERT(Chinese-based Wordpiece Tokenization and Transfer-learning by Sentence BERT)。
[方法]CWPT-TSBERT依托孪生网络架构,利用迁移学习策略在大规模通用领域标注数据集进行模型预训练,解决农业文本标注数据集少、语义稀疏性高等问题。提出面向中文的子词单元分词方法CWPT拆分汉字,增强字向量的语义特征表示,进一步丰富了短文本语义特征表达。根据迁移学习的微调机制,利用SBERT(Sentence BERT)模型提取字向量,挖掘汉字间及字形结构间关联关系,提高模型语义相似度计算的正确率。
[结果和讨论]CWPT-TSBERT模型的语义相似度计算正确率达到97.18%,高于基于卷积神经网络的TextCNN_Attention、基于循环神经网络的MaLSTM(Manhattan Long Short-Term Memory),以及基于BERT预训练模型的SBERT等12种模型。
[结论]CWPT-TSBERT模型在小规模农业短文本数据集上语义相似性计算正确率较高,性能优势明显,为语义智能匹配提供了有效的技术参考。
关键词:迁移学习;农业短文本;语义相似度计算;字形特征;知识智能服务;大模型
文章图片
图1 语义相似度计算模型结构图
Fig. 1 Semantic similarity computation model architecture diagram图2 孪生网络结构图
Fig. 2 Siamese network architecture diagram图3 迁移学习流程图
Fig. 3 Transfer learning process flowchart图4 CWPT流程图
Fig. 4 The process structure diagram of CWPT图5 自注意力结构图
Fig. 5 Schematic of self-attention
图6 模型皮尔逊相关系数对比
Fig. 6 Comparison of model Pearson correlation coefficients图7 模型斯皮尔曼相关系数对比
Fig. 7 Comparison of model Spearman correlation coefficients图8 字形结构注意力权重热力图
Fig. 8 Glycolic structure attention weight heat map通信作者介绍
吴华瑞 研究员
吴华瑞研究员,科技部“十四五”数字乡村技术预测专家组组长、国家“十四五”重点专项“乡村产业共性关键技术研发与集成应用”总体组专家、农业农村部数字乡村技术重点实验室主任,农业农村部特色经济作物全程机械化专家组成员,中国人工智能学会智能农业专委会主任,国家大宗蔬菜产业技术体系智能化管理岗位科学家,《智慧农业(中英文)》编委,入选国家级人才。主要从事农业大数据、人工智能与蔬菜智慧无人农场相关研究工作。近年来获国家科技进步奖1项,省部级奖励5项,发表论文85篇(SCI 25篇),授权发明专利37项,编制颁布标准8项,著作2部,软著34项。
转载请联系编辑部授权
本期支持单位
潍柴雷沃智慧农业科技股份有限公司
华东交通大学智能机电装备创新研究院
为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。入群方法:加小编微信17346525780,备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。
发布征集
欢迎在我公众号发布科研团队介绍、创新科研成果及相关活动等信息。
来源:智慧农业资讯一点号