论文《中医药知识图谱智能问答分析》-仁创编译转载
本文为论文分享,仁创编译致力为大家分享更多更好的高质量论文,方便大家学些参考。同时大家也欢迎大家通过转载的方式进行分享,让更多的人能够观看学习,从中获得经验和灵感,小编将为大家提供最新论文资讯。
摘要:将知识图谱与知识卡片相结合,使得用户既可以阅读文字以获取详细解释,又可以通过视觉的图形来感知知识本体之间的相关性,文字与图形相辅相成,配合得当。本智能问答系统是将无序的用户语料信息,进行科学有序的整理,通过CRF分词技术处理、提取自然语言关键词信息,并基于知识图谱基本原理获得反馈给用户的最终答案。作为用药的辅助推荐信息,以知识图谱和属性列表同时呈现。
【关键词】知识图谱智能问答中医药
1引言
在现有的自然语言处理技术、知识图谱构建相关研究的基础上,结合各种方式的优势,同时利用尽可能丰富的数据源,专门针对中医药的查询提出了较为适合的用于本系统的句式分析规则;同时,提供了知识图谱与知识卡片相结合的方式更清晰地展示一种中药实体的具体信息。将知识图谱与知识卡片相结合,用户既可以阅读文字以获取详细解释,又可以通过视觉的图形来感知知识本体之间的相关性。文字与图形相辅相成,丰富了系统内涵,使得系统为用户提供的资源不再单调,提高了系统的感知性。
2总体设计
2.1设计重点2.1.1中医药知识库的构建本系统采用自顶向下的策略,依次经过模式图定义、知识抽取、知识融合三个步骤完成基础知识库的构建。模式图包含知识库拥有的概念、概念的属性,以及概念之间的层次关系。知识抽取主要包括现有医学文献、医疗健康网站、中医药百科站点的知识抽取中医药相关的实体、实体类型、同义词关系和“属性-值”关系。知识库的模式图常用中医药知识库主要包括中药材、中医证候、中医疾病等上层概念及概念的属性,构建模式图。基于双向LSTM-CRF模型的中医药实体识别方法。常用中医药知识库构建中,需要从专业中医药文献文本中识别药品相关实体。采用基于特征模板的方法,利用大规模语料学习出标注模型,进而对语句进行标注,特征模板通常是人工定义的一些二值特征函数,挖掘命名实体内部以及上下文的构成特点。采用基于双向LSTM-CRF模型的中文实体识别方法来识别专业医学典籍文档中的中医药等实体。与传统LSTM不同,双向LSTM同时考虑了过去的特征和未来的特征,结果更具准确性。2.1.2基于自然语言处理技术的中医药智能问答自然语言的处理通常采用自然语言技术(如命名实体识别等)对问题进行深层次的分割、理解。智能问答系统按照对数据的处理方式可以分为多种,尽管不同类型的问系统对于系统整体模块的分工和实现存在一定差异,在一般情况下,依据Q&A系统的数据流程处理过程中,处理问题的框架都包括了问题理解、信息搜索和答案生成三个功能模块。2.1.3基于KK算法和节点生成算法的中医药知识图谱可视化知识图谱是一种以"语义网络"为骨架而搭建起来的巨型网络知识系统。它能够能捕获并展现领域概念之间的语义关系,使得各种知识资源中零碎、松散的知识本体互相联系。将数据图形化是生成知识图谱的核心之一。作为一个可视化系统,界面必须清晰易懂,因此需要过滤部分次要信息,提取主要信息,并对结果随机排序。KK算法作为力导引图布局算法,由一个双层循环构成。外层循环改变当前正在选择最佳位置的节点,内层循环控制此节点可改变位置的次数。实则就是在微小移动一个节点的同时,固定其他所有节点。KK算法将迭代次数的限制致力于内循环上。控制所有节点的移动次数上限,保证了即便无法达到最完美布局,但整体效果依然呈现出平衡、稳定的效果。2.2设计难点(1)中文语言与其他的语言最大的不同的地方在中文的词汇之间没有空格使其分隔开,这加大了语言处理算法对语句分割、语义理解的难度。(2)由于本系统是以中医药为核心,必须格外注意源数据的权威性。同时在建立中医药知识库的构建过程中,会存在词典需求特殊的问题,需要进行特别的词性标注。(3)在带有歧义词语的句子中,经常会出现非期望的结果。在对用户输入的自然语言进行处理时,需要通过调用HanLP的相应方法来实现对分词进行整合。但是,在带有歧义词语的句子中,仍会不可避免地出现非期望的结果。(4)可视化的知识图谱布局平衡问题。需要使用相应算法来实现知识图谱布局的美观和易读性。否则图谱节点连线会出现互相交叉的现象,降低图谱的阅读性。
3功能实现
3.1分词实现基于对用户自然语言处理接受的需要,必须对用户输入的自然语言进行处理。处理的方法采用了CRF++技术对用户输入进行基本分割,并根据基本名词短语识别(BaseNP)的4tag模式。通过对已经标注好的每个单字,根据它的BaseNP标记进行整合。这一部分通过调用HanLP的相应方法来实现。经过多次实践发现,CRF对于陌生的词汇具有较高的识别率,但也不可避免地出现少数非期望的结果,特别是在带有歧义词语的句子中。此时需要调用其他的分词器来进行校正。3.2词典实现通过CRF获得分词结果之后,需要对结果进行整理,并标注词性。采用了人民日报2014年词性标注库进行词性标注。针对该系统的特殊需求,新增了中药、疾病、信号词、疑问词等词性的特殊词性标注,方便了该系统通过此行来过滤关键词、信息词的提取。由于用户时常不能准确定位所需检索的问题的关键词信息,所以有必要进行同义词匹配的处理。本系统所采用的词典是根据哈工大信息检索研究中心的《同义词词林(扩展版)》而修订的同义词词典。其为原词典的简化版,并且加入了很多专用于中药特性的词语,以更好地进行同义词匹配。3.3用药推荐当用户输入的词语是疾病或者是症状类型词时,系统将对应的症状与数据库进行匹配,检索出与之相关的中医药品类,按照相关程度给出适合该症状或疾病的中医药列表作为用药的辅助依据。
4小结
本系统实现了依照用户输入的书面或者口语化语言,进行汉语言标注;根据信号词进行句式模板匹配,根据一定的匹配原则,产生相应的查询语句,在已有的中医药知识库中检索需要提供给用户的信息,并通过知识卡片、可视化图谱、用药推荐的方式呈现出来。
作者:郑懿鸣 翟洁 胡晓龙 施轶劼 刘浩
声明:本文转载于网络,并不意味着代表本网站观点或证实其内容的真实性;本站致力于为大家 提供更多,更好的新闻内容。仁创编译专业,专注,为您提供SCI论文润色,发表服务。