贾真
- 作品数:63 被引量:306H指数:10
- 供职机构:西南交通大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于DeepFM的深度兴趣因子分解机网络被引量:6
- 2021年
- 推荐系统能够根据用户的喜好从海量信息中筛选出其可能感兴趣的信息并进行排序展示。随着深度学习在多个研究领域取得了良好的效果,其也开始应用于推荐系统。目前基于深度学习的推荐排序算法常采用Embedding&MLP模式,只能获得高阶的特征交互。为了解决该问题,DeepFM在上述模式中加入了因子分解机(Factorization Machine,FM),能够实现端到端的低阶与高阶特征交互学习,但其缺乏用户兴趣多样性的表示。鉴于此,通过将多头注意力机制引入DeepFM,提出了深度兴趣因子分解机网络(Deep Interest Factorization Machine Network,DIFMN)。DIFMN能够根据待推荐的不同物品自适应地学习用户表示,展示用户兴趣的多样性。此外,该模型根据用户历史行为的种类添加了喜好表征,从而不仅能够应用于只记录用户爱好的历史行为的任务,还可以处理同时记录用户喜欢与不喜欢的历史行为的任务。采用tensorflow-gpu进行算法的实现,在Amazon(Electronics)和movieLen-20m两个公开数据集上进行对比测试,实验表明所提算法相比DeepFM分别有17.70%和35.24%的RelaImpr提升,验证了其可行性与有效性。
- 王瑞平贾真刘畅陈泽威李天瑞
- 关键词:用户兴趣建模
- 一种基于词频统计的组织机构名识别方法被引量:15
- 2013年
- 命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。
- 胡万亭杨燕尹红风贾真刘利
- 关键词:词频
- 基于融合注意力的医疗命名实体识别建模方法
- 基于融合注意力的医疗命名实体识别建模方法,包括步骤:将医疗文本语句进行中文分词并索引;利用前向LSTM和反向LSTM通过拼接得到Bi‑LSTM模型;通过注意力机制更新输出特征向量;通过条件随机场CRF对输出特征向量进行解...
- 李天瑞邬萌贾真杜圣东滕飞
- 文献传递
- 基于弱监督学习的中文网络百科关系抽取被引量:7
- 2015年
- 实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料;针对训练语料数量较少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的训练语料;然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方法获得较高的准确率。
- 贾真何大可杨燕杨宇飞冶忠林
- 关键词:知识获取关系抽取条件随机场朴素贝叶斯
- 基于自注意力机制与词汇增强的中文医学命名实体识别
- 2024年
- 针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。
- 罗歆然李天瑞贾真
- 基于伪实体数据增强的高精准率医学领域实体关系抽取
- 2024年
- 针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题,提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先,在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息,以在密集的实体中准确识别医学长实体;其次,在流水线抽取框架的基础上插入关系负例生成模块,通过基于欠采样的伪实体生成模型生成混淆关系分类模型的伪实体,并通过三种数据增强生成策略提升模型鉴别主语宾语颠倒、主语宾语边界错误和关系分类错误的能力;最后,通过基于悬浮标记的关系分类模型缓解数据增强带来的训练时间剧增的问题。在CMeIE数据集中,对比了目前主流的4个模型。实体抽取部分相较于次优模型PL-Marker(Packed Levitated Marker),F1值提升了2.26%;实体关系抽取相较于次优模型CBLUE(Chinese Biomedical Language Understanding Evaluation)提出的流水线抽取模型,F1值提升了5.45%,精准率提升了15.62%。实验结果表明使用特征读取单元和伪实体数据增强模块可有效提高抽取的精准率。
- 郭安迪贾真李天瑞
- 关键词:实体关系抽取
- 一种基于多通道融合与重排序的中文文本自动校对方法
- 本发明公开了一种基于多通道融合与重排序的中文文本自动校对方法。该方法中的神经机器翻译模型选择卷积编解码网络,通过三个预测通道结合字级别和子词级别的校对模型,其中各通道均启用集成解码机制并输出N个最佳候选,然后应用重排序组...
- 李天瑞杨宗霖刘胜久殷成凤贾真
- 文献传递
- 基于SimRank的百科词条语义相似度计算
- 词语语义相似度在很多领域都有着广泛的应用,例如信息检索、信息抽取、机器翻译。本文提出了一种利用百度百科半结构化数据自动获取词语相似度的方法,该方法将百科词条与其相关词条看做有向图的两个节点,而且他们相互之间存在着一种链接...
- 尹坤尹红风杨燕贾真
- 关键词:语义相似度SIMRANK
- Linux防火墙的研究与实现被引量:9
- 2005年
- 首先介绍了Linux 2 .4内核版本中的Netfilter防火墙机制和IPv4协议栈中Netfilter的实现原理,然后分析了如何基于Netfilter框架设计防火墙。
- 贾真陈建李文泽
- 关键词:防火墙LINUX内核模块
- 网络百科属性抽取
- 本文提出了一种基于中文网络百科的属性抽取方法。该方法以中文网络百科自由文本为数据源,将属性值看作命名实体,对已分类的百科文本进行频繁模式的挖掘。通过分析频繁模式中词语序列与命名实体的关联关系,得到属性模式与属性词语,借助...
- JIA Zhen贾真YIN Hong-Feng尹红风LI Tian-Rui李天瑞
- 关键词:文本聚类信息抽取属性值关联规则挖掘