贺佳
- 作品数:9 被引量:30H指数:3
- 供职机构:江西中医药大学计算机学院更多>>
- 发文基金:国家自然科学基金江西省研究生创新基金江西省自然科学基金更多>>
- 相关领域:自动化与计算机技术医药卫生更多>>
- 智能问答系统在医学领域的应用研究被引量:4
- 2018年
- 智能问答系统可以快速、准确地为用户提供信息服务,是自然语言处理领域的备受关注的研究方向。在医学知识服务领域,也具有很好的应用前景和发展空间。论文首先简述了医学领域智能问答系统的研究情况,其次就医学智能问答系统中的问题分析、信息检索、答案抽取三个组成部分及其关键技术进行了分别阐述;最后对其在中医方面的应用进行了阐述,并对医学智能问答系统的进一步发展提出了展望。
- 贺佳杜建强聂斌熊旺平罗计根
- 关键词:智能问答系统中医药
- 一种面向中医文本的实体关系深度学习联合抽取方法被引量:2
- 2023年
- 目前实体识别和关系抽取任务大多采用流水线方式,但该方法存在错误累积、忽略两个任务相关性和信息冗余等诸多问题。结合中医文本的特点,提出一种基于深度学习的中医实体关系联合抽取方法。该方法使用改进的序列标注策略,将中医的实体关系联合抽取转换成序列标注任务,词向量与字符向量并联拼接作为双向LSTM-CRF输入,利用双向LSTM神经网络强大的特征提取能力,以及CRF在序列标注上的突出优势,结合优化的抽取规则完成中医实体关系联合抽取。在中医语料库上的实验结果表明,实体关系联合抽取的F1值可以达到80.42%,与传统流水线方法以及其他方法相比,实验效果更佳。
- 杨延云杜建强聂斌罗计根贺佳
- 融合数据增强和注意力机制的中医实体及关系联合抽取
- 2023年
- 中医药领域高质量标注数据缺乏,可用作实体及关系联合抽取任务的语料数量偏少。BiLSTM-CRF方法在序列标注上有优势,但对上下文信息与当前信息的关联关注不够,影响模型的性能。针对上述问题,提出一种融合数据增强和注意力机制的中医实体及关系联合抽取方法(DA-BiLSTM-Attention-CRF)。该方法首先采用EDA数据增强方法对未标注训练集进行多倍增强,然后将增强后的伪标注数据加入训练集,采用自训练策略进行多次实验。最后,测试集数据通过模型预测得到标注序列并进行三元组提取。在中医语料库上进行实验评估,实体及关系联合抽取F1值为82.43%。
- 杨延云杜建强聂斌罗计根贺佳
- 基于多节点组合特征和模糊聚类的中文词义消歧方法
- 2021年
- 词义消歧是自然语言处理中的难点问题,为提高消歧效果,提出一种基于多节点组合特征的词义消歧方法。根据依存语法理论,选择歧义词的祖父+父亲+孩子节点组合,并将其作为消歧特征。利用模糊C均值聚类算法,建立消歧模型,最终确定歧义词词义类别。采用哈工大信息检索研究中心语言技术平台的词义语料进行实验。实验结果表明,相比现有的两种方法,该方法不仅使特征维度平均值分别降低了5和25,且F1值分别提高了1.56个百分点和0.84个百分点,在一定程度上提升了词义消歧效果。
- 贺佳杜建强聂斌熊旺平雷银香罗计根曾青霞
- 关键词:自然语言处理词义消歧模糊C均值聚类算法
- 基于特征子集相关度和偏最小二乘法的特征选择策略被引量:1
- 2019年
- 在中药方剂的量-效关系分析中,需要寻找药理指标(因变量)受哪些血液指标(自变量)影响。本文提出一种基于特征子集相关度和偏最小二乘法的特征选择策略,利用特征子集相关度对药理指标进行评估预选出特征子集,然后将其放入偏最小二乘法中进行训练,利用训练后得出的残差平方和评估该特征子集是否可取,并结合顺序前向浮动混合搜索策略与顺序后向浮动混合搜索策略,综合评估以分析药理指标受哪些血液指标的影响。分别采用麻杏石甘汤君药止咳数据集及UCI数据集进行分析处理,实验结果表明该特征选择策略能较好寻找一个较优的特征子集。
- 刘蕾杜建强朱志鹏聂斌罗计根贺佳喻芳余日跃
- 关键词:偏最小二乘法中医药信息
- 融合GINI指数的ID3改进算法被引量:9
- 2019年
- 针对以信息增益为划分标准的ID3算法中存在偏向属性取值多的属性等问题,提出了一种融合GINI指数的ID3改进算法。计算每个属性的信息增益和对应的GINI指数值,并计算所有属性的GINI指数算术平均值,筛选GINI指数低于算术平均值的属性记为候选属性集;从候选属性集中选择信息增益最大的属性建立分支,用递归方法构建决策树。实验使用6组UCI数据集进行验证。结果表明:该决策树的准确率均有所提高,对多值偏向问题有很好的克服作用。
- 罗计根杜建强聂斌李欢贺佳
- 关键词:决策树ID3算法信息增益
- 中药特色数据库的信息源问题
- 2015年
- 特色专题数据库建设,需要认真考虑信息源的问题。中药产业化信息平台建设主要依靠传统的10大信息源,网络信息资源是另一个重要信息源。收录科技图书的内容,有利于形成数据库的系统性;科技期刊应分解为知识单元后进行组织利用;专利是重要的技术信息源,应全面收录;网络信息资源应进行考证,掌握来源后再加利用。
- 邵运峰汪永航贺佳邓凯鑫孙玉梅肖小飞陈根顺
- 基于双向LSTM和GBDT的中医文本关系抽取模型被引量:11
- 2019年
- 为解决采用softmax作为长短期记忆网络分类器导致实体关系识别模型泛化能力不足,不能较好适用中医实体关系抽取等问题,提出一种融合梯度提升树的双向长短期记忆网络的关系识别算法(BILSTM-GBDT)。先采用word2vec对中医文本进行向量化表示,再利用基于注意力机制的双向长短期记忆网络提取高阶特征,最后采用集成分类模型梯度提升树作为特征分类器,提高关系识别效果。在中医等多个关系语料库上的实验结果表明,该模型与传统SVM方法、GBDT方法及其深度学习方法相比,均有更高的精确率、召回率和F值。
- 罗计根杜建强聂斌熊旺平刘蕾贺佳
- 关键词:关系抽取
- 本体和知识图谱的比较研究被引量:3
- 2021年
- 针对当下本体和知识图谱两个专业术语混用严重的问题,本文通过梳理当前已有的相关文献和重要知识资源,对本体和知识图谱以及二者的联系和区别进行了概述,为当前和今后的相关研究和课题的开展提供一定的参考,从而推进本体和知识图谱研究的进一步发展。
- 杨延云杜建强熊旺平罗计根贺佳
- 关键词:本体知识图谱