西北农林科技大学张宏鸣教授等:面向葡萄知识图谱构建的多特征融合命名实体识别
下载文章全文:http://www.tcsae.org/cn/article/doi/10.11975/j.issn.1002-6819.202306124
《农业工程学报》2024年第40卷第3期刊载了西北农林科技大学等单位聂啸林、张礼麟、牛当当、吴华瑞、朱华吉与张宏鸣的论文——“面向葡萄知识图谱构建的多特征融合命名实体识别”。该研究由国家重点研发计划项目(项目号:2020YFD1100601)等资助。
引文信息:聂啸林,张礼麟,牛当当,等. 面向葡萄知识图谱构建的多特征融合命名实体识别[J]. 农业工程学报,2024,40(3):201-210.
DOI: 10.11975/j.issn.1002-6819.202306124
为解决构建知识图谱过程中由于上下文环境复杂、现有模型字向量语义表征相对单一导致领域专业实体识别率低的问题,该研究提出了来自转换器的双向编码器表征量(bi-directional encoder representation from transformer, BERT)和残差结构(residual structure, RS)融合的命名实体识别模型(bert based named entity recognition with residual structure, BBNER-RS)。通过BERT模型将文本映射为字符向量,利用双向长短时记忆网络(bi-directional long-short term memory, BiLSTM)提取局部字符向量特征,并采用RS保留BERT提供的全局字符向量特征,以提高字向量的语义丰富度,最后通过条件随机场(conditional random field, CRF)模型对特征向量解码,获取全局最优序列标注。
与其他命名实体识别模型相比,提出的BBNER-MRS模型在葡萄数据集上表现较好,在葡萄人民日报、玻森、简历和微博数据集上F1值分别达到89.89%、95.02%、83.21%、96.15%和72.51%。最后该研究依托BBNER-MRS模型,提出基于深度学习的两阶段式领域知识图谱构建方法,成功构建了葡萄知识图谱,研究结果可为相关从业人员提供技术和数据支持。