知识图谱可依据相应的专业逻辑结构,有效抽取现实世界中文本信息的实体与关系,并揭示实体之间的重要关联,实现从信息到知识的有效转化,实现智能检索、语义问答、数据挖掘、决策支持等重要应用。而梅花作为中国名花,品种繁多,相关的研究信息较为丰富。将知识图谱相关技术应用于梅花相关信息形成相应知识,将便利于林业从业人员和研究人员进行使用,并促进梅花研究和相关的应用开发。在构建梅花知识图谱的研究中,存在以下三个问题:首先,由于梅花研究领域中存在多个研究方向,且部分研究方向下又包含了多个子研究信息类别,因此,需要预先确定梅花研究方向下的重要研究信息类别后,再确定待研究的知识图谱类型。其次,为增强语料与特定研究方向图谱的相关性,提升图谱构建过程中对数据的有效利用率,并避免图谱构建过程中导入无关的实体及关系信息,影响图谱相关应用的用户体验,需要在图谱构建前研究相应的文本分类算法,对数据按主题进行精确分类。最后,目前缺乏对梅花知识图谱构建的相关研究,需要根据数据内容以及知识图谱的应用场景,在知识图谱构建前自行定义梅花知识图谱结构,根据定义的结构完成后续的知识图谱构建流程。针对以上问题,本文进行了以下四方面的研究工作:首先,在收集整合了相关梅花研究方向语料后,定义研究方向下重要的梅花研究信息类别,并构建了相应的梅花研究信息数据集。其次,提出了一种针对梅花研究信息的Text RCNN算法,并在其循环结构的左右两层LSTM层后加入注意力层予以改进,以实现梅花研究信息的分类工作,并对其进行实验和验证工作。实验表明,改进Text RCNN模型拥有不低于89.14%的精准率,不低于85.23%的召回率和不低于91.09%的F1值,并拥有94.48%的正确率。然后,针对梅花研究信息类别中梅花特征信息属性较多,不利于直接应用于梅花特征信息知识图谱构建的问题,将收集到的梅花特征信息语料按照梅花不同特征进行再划分和标注,构建了梅花特征信息数据集,提出了针对梅花特征信息的BBD-PC文本分类模型,并对其进行实验和验证工作。其精准率、召回率和F1值不小于91.62%、84.74%、89.37%,正确率为98.56%。最后,为了能对经过文本分类方法处理的语料进行利用,将其应用于知识图谱构建当中,根据不同的研究信息类别确定了待构建知识图谱的类型,定义了基因、育种、非生物胁迫、引种栽培、梅花特征信息、化学成分与应用等六个知识图谱,并采用自顶向下的梅花研究信息知识图谱构建策略进行构建。在知识图谱构建的实体抽取阶段,根据不同研究信息类别的特点,定义了待抽取的实体类型,并根据不同的数据来源及特征,制定相关策略进行抽取,完成了数据源的实体抽取工作。在知识图谱构建的关系抽取阶段,根据语料特点和实际应用需要,针对不同的知识图谱类别定义了对应的实体-关系-实体的三元组关系。在定义关系之后,构造规则模板匹配策略对实体关系进行了抽取,并采用人工检查结合Cypher语句对的方式对冗余关系进行删除,完成了实体间关系的抽取工作。在知识图谱构建的知识融合阶段,针对梅花特征信息来源广泛的特点,按照数据不同的结构特点使用相似度算法对数据进行融合操作。在知识图谱的数据存储及图谱应用阶段,将抽取的实体及关系数据导入图数据库Neo4j当中,共获取了实体数目5593个,关系数目共6936对。以此为基础开发一个基于图谱结构的查询应用,完成了知识图谱的可视化呈现,展示了一种典型的应用场景。本文提出的梅花研究信息、梅花特征信息文本分类方法,在对应的梅花语料中分类能力表现良好,证明了将文本分类方法应用于梅花语料分类的可行性和有效性。而基于研究信息的梅花知识图谱作为林业领域中的新探索,可为用户提供研究信息的逻辑化和层次化展现,更好的服务于相关从业人员的应用需要。展开▼
相关知识
花卉食谱的知识图谱构建研究
基于知识图谱的水稻病虫害智能诊断系统
重要花卉植物高密度遗传连锁图谱构建研究进展
花卉遗传连锁图谱构建及QTL定位研究进展
森林碳汇研究热点与趋势——基于知识图谱分析
利用SSR分子标记构建甜瓜遗传图谱
基于知识图谱的病虫害检测及防治推荐系统
基于ISSR标记的杜鹃花品种DNA指纹图谱的构建
世界首个梅花全基因组重测序研究完成
梅花修剪的注意事项
网址: 面向梅花研究信息的知识图谱构建 https://m.huajiangbk.com/newsview380455.html
上一篇: 菊花CmHLB基因调控木质素合成 |
下一篇: 关于描写菊花的作文(通用17篇) |