唐晋韬
- 作品数:43 被引量:125H指数:5
- 供职机构:国防科学技术大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术文化科学社会学一般工业技术更多>>
- 面向中文文本的本体构建和自动扩充
- 语义Web是Internet发展的重要趋势,其目的之一在于赋予万维网上所有资源唯一的标志,并在资源之间建立机器可处理的各种语义联系。语义万维网以明确的、形式化的方式来表示信息资源,能够提高异构系统的互操作性,促进知识共享...
- 唐晋韬
- 关键词:本体构建支持向量机多类分类
- 利用复杂网络分析方法研究基因本体隐藏结构信息(英文)被引量:3
- 2010年
- 为解决大规模本体理解问题,提出了一个从复杂网络分析的角度研究大规模本体结构信息和重要概念挖掘的方法.通过将基因本体的各种视图转换为网络进行全面分析,证明了整个基因本体具有明显的复杂网络特征,尤其是"小世界特性"和"无标度特性";但其子本体的复杂网络特性没有这么明显,往往只具有"无标度特性"而没有"小世界特性".同时,利用网络分析中常用的节点重要性度量算法对本体中的重要概念进行挖掘.在此基础上,提出了基于MEDLINE信息检索结果的概念重要性评价算法,评估几种节点重要性算法用于本体重要概念挖掘任务的正确性.实验结果表明介数中心性算法在各种节点重要性度量算法中最适合于本体重要概念挖掘.
- 唐晋韬王挺王戟
- 关键词:基因本体
- 基于减少语义标注偏差的语义Web服务发现(英文)被引量:1
- 2010年
- 为了提高语义Web服务的发现性能,从Web服务描述上下文中抽取语义标注的约束信息并生成新的更精确的语义标注,从而减少语义标注与参数之间的语义偏差,精化Web服务的语义描述.首先,从本体定义中抽取概念的约束模板,并对Web服务的描述文本进行句法分析;然后,根据约束模板,从句法分析树中抽取语义标注的约束信息,并构造新的概念表达式作为对应参数的新的语义标注.最后,提出了一种新的语义相似度度量方法以度量概念表达式的相似度.实验结果表明:该方法能够提高语义Web服务发现的平均准确率,且计算代价相对较小.从描述文本中抽取概念的约束信息,能够减少标注的语义偏差,更精确地表达语义Web服务的语义,提高Web服务的发现性能.
- 魏登萍王挺唐晋韬王戟
- 关键词:语义WEB服务发现相似度度量
- 实体消歧中特征文本选取研究
- 2017年
- 在实体消歧问题中,特征文本是指输入实体消歧系统的用于表征实体指称和候选实体的文本,其质量对于实体消歧的性能有重要的影响。论文对特征文本的选取问题进行研究,针对网络文本的特点,综合考虑文本中的特殊字符、特征文本的位置、特征文本是否包含实体指称和特征文本的单句长度等因素,对文本进行筛选和处理,产生特征文本,以提高实体消歧的效果。论文在深度结构语义网(Deep Structured Semantic Model,DSSM)和向量相似度模型(Vector Similarity Model,VSM)两个实体排序模型上验证了特征文本选取方法的效果。结果显示特征文本筛选提高了DSSM上排序准确性,在P@3、P@5和P@10上分别有12.2%、12.3%和12.2%的提高。其中特殊字符处理对VSM有5.5%的提高。实验结果表明,对特征文本进行合理的筛选及清洗,有助于提高实体消岐中候选实体排序步骤的效果。
- 庞焜元唐晋韬李莎莎王挺
- 关键词:数据清洗
- 结合显式和隐式变分增强的多文档文献摘要方法及系统
- 本发明公开了一种结合显式和隐式变分增强的多文档文献摘要方法及系统,本发明方法包括:将输入文档利用神经话题模型捕获显式的语句话题表示,与初始的摘要语句或者输出的上一句摘要语句融合得到显式融合特征,再利用隐变量模型捕获得到隐...
- 李莎莎王攀成王挺刘甚灵唐晋韬李冬刘剑锋龙科含
- 关系抽取中远监督错误标注消除被引量:1
- 2018年
- 目前远监督方法被广泛应用于关系抽取任务。然而,远监督方法中存在大量错误标注现象,给远监督方法的学习效果带来了很大的影响。提出利用语义Jaccard度量关系短语与依存词间语义相似性的错误标注消除方法。消除错误标注后的训练数据用于训练模型,完成关系抽取。实验结果表明:该方法可以有效消除错误标注,提高关系抽取的性能。
- 汝承森唐晋韬谢松县李莎莎王挺
- 关键词:关系抽取语义相似性
- 基于本体概念结构的SVM多类分类方法及其在本体自动扩充中的应用
- <正>1 引言本体是哲学研究中发展出来的一个概念,指形成现象的根本实体。近十多年来,随着研究的日益深入,本体已经远远超过了哲学的范畴,在信息技术、知识工程等方面都有广泛的应用。尤其是本体
- 唐晋韬王挺
- 关键词:SVM
- 文献传递
- 面向中文文本的时间本体构建和自动扩充
- 对时间本体和本体自动扩充的研究是语义web领域的重要研究方向。本文通过对中文时间描述进行深入的分析,设计了一种新的时间本体结构,并构建了一种面向中文描述的时间本体。在此基础上针对中文时间描述的特点选择了词汇特征和句法特征...
- 唐晋韬王挺周会平
- 关键词:SVM
- 文献传递
- Linked Data数据集的主题模型建立方法被引量:1
- 2017年
- 提出了建立Linked Data数据集主题模型的方法.首先,将数据集中的RDF陈述三元组转换成主谓宾结构的语句,从而将Linked Data数据集转化为文本文档;然后,使用LDA算法对所有数据集的文本文档进行主题建模,即可得到每个数据集的主题向量,该向量就是描述数据集内容主题的特征.在Linked Data数据集链接目标推荐问题上,引入数据集的主题特征进行实验.使用数据集主题向量的余弦相似度替换基于记忆的协同过滤推荐算法中的相似度计算模块.结果表明,推荐效果比原始的协同过滤算法有很大提升.
- 刘海池王挺唐晋韬宁洪魏登萍刘培磊
- 关键词:DATA数据集主题模型LDA推荐系统协同过滤
- 基于词向量语义聚类的微博热点挖掘方法被引量:1
- 2018年
- 随着社交媒体的迅速发展,信息过载问题越发严重,因此如何从海量、短小而充满噪声的社交媒体数据中发现和挖掘出热点话题或者热点事件成为一个重要的问题。结合社交媒体数据实时性、地理性、包含较多元数据等特点,提出了用户行为分析与文本内容分析相结合的热点挖掘方法。在内容分析过程中,提出了从更细的词语粒度进行聚类,以代替传统的在消息粒度进行聚类的经典方法。为了提高话题关键词提取的效果,引入了基于词向量技术,并通过语义聚类的方法进行热点挖掘。在真实数据集上的实验结果表明,该方法提取的关键词语义关联性强、话题划分效果好,在主要指标上优于传统的热点挖掘方法。
- 刘培磊唐晋韬王挺谢松县岳大鹏刘海池
- 关键词:社交媒体语义聚类