您的位置: 专家智库 > >

国家社会科学基金(12CTQ032)

作品数:7 被引量:34H指数:4
相关作者:白如江王效岳王晓笛祝娜更多>>
相关机构:山东理工大学中国科学院大学中国科学院更多>>
发文基金:国家社会科学基金山东省自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 7篇中文期刊文章

领域

  • 4篇自动化与计算...
  • 3篇文化科学

主题

  • 2篇语义角色
  • 2篇语义角色标注
  • 2篇色标
  • 2篇角色标注
  • 2篇抄袭
  • 1篇信息检索
  • 1篇学术
  • 1篇学术抄袭
  • 1篇学术文献
  • 1篇引文
  • 1篇引文分析
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇知识发现
  • 1篇指纹
  • 1篇数字指纹
  • 1篇特征提取
  • 1篇情报
  • 1篇自动标引
  • 1篇最大熵

机构

  • 6篇山东理工大学
  • 1篇中国科学院
  • 1篇中国科学院大...

作者

  • 6篇王效岳
  • 6篇白如江
  • 4篇王晓笛
  • 3篇祝娜

传媒

  • 4篇图书情报工作
  • 2篇情报理论与实...
  • 1篇Chines...

年份

  • 1篇2015
  • 3篇2014
  • 3篇2013
7 条 记 录,以下是 1-7
排序方式:
基于语义角色标注的文献相似度检测研究被引量:6
2014年
利用语义角色标注技术对文献进行标注,以句子为最小单位进行文献的语义相似度检测。提取文献中所有词语的上位词,为每篇文献形成句子-词-语义角色-上位词四部图。语义相似的句子对比参照四部图确定,最终计算出两篇文献相似句子的Jaccard系数作为两篇文献的语义相似度。实验结果表明,所识别出的语义相似度较字粒度Jaccard系数法、词粒度Jaccard系数法、Winnowing Jaccard系数法等高出13%,然而受语料库限制,本方法还有很大的提升空间。
王晓笛祝娜白如江王效岳
关键词:语义角色标注相似度检测
学术文献抄袭检测研究进展被引量:4
2013年
指出近年来,学术抄袭事件时有发生,科研诚信引起全社会的广泛关注。随着信息技术的发展,对于学术抄袭的的检验问题已不再停留在传统的"防止复制"阶段。总结整理目前国内外主要抄袭检验的研究内容和研究方法,重点对基于统计的方法和基于数字指纹的方法进行总结,归纳目前抄袭检验技术应用的主要数学算法和各自特点。通过对国内外研究成果的梳理,指出抄袭检验技术存在的不足及未来发展趋势和应用领域。
王晓笛王效岳白如江
关键词:学术抄袭信息检索
科技创新路径识别研究进展:方法与工具被引量:12
2014年
为支持科技知识创新,科技创新路径识别已经成为情报学研究的热点主题。在梳理科技创新路径识别研究的数据源、研究方法以及可视化工具研究现状的基础上,重点分析基于关键词或者主题词识别和基于引文全文的语义分析识别两种主要的科技创新路径识别方法,并对Sci2、HistCite、CiteSpace以及VOSviewer 4种可视化工具进行比较分析,进而指出基于引文分析的科技创新路径识别研究面临的挑战并展望其在数据集、研究方法、研究技术以及研究结果方面的未来发展趋势,以期为科技创新路径识别研究提供支持和帮助。
祝娜王效岳白如江
关键词:引文分析可视化
IESRL:An information extraction system for research level
2013年
Purpose:In order to annotate the semantic information and extract the research level information of research papers,we attempt to seek a method to develop an information extraction system.Design/methodology/approach:Semantic dictionary and conditional random field model(CRFM)were used to annotate the semantic information of research papers.Based on the annotation results,the research level information was extracted through regular expression.All the functions were implemented on Sybase platform.Findings:According to the result of our experiment in carbon nanotube research,the precision and recall rates reached 65.13%and 57.75%,respectively after the semantic properties of word class have been labeled,and F-measure increased dramatically from less than 50%to60.18%while added with semantic features.Our experiment also showed that the information extraction system for research level(IESRL)can extract performance indicators from research papers rapidly and effectively.Research limitations:Some text information,such as that of format and chart,might have been lost due to the extraction processing of text format from PDF to TXT files.Semantic labeling on sentences could be insufficient due to the rich meaning of lexicons in the semantic dictionary.Research implications:The established system can help researchers rapidly compare the level of different research papers and find out their implicit innovation values.It could also be used as an auxiliary tool for analyzing research levels of various research institutions.Originality/value:In this work,we have successfully established an information extraction system for research papers by a revised semantic annotation method based on CRFM and the semantic dictionary.Our system can analyze the information extraction problem from two levels,i.e.from the sentence level and noun(phrase)level of research papers.Compared with the extraction method based on knowledge engineering and that on machine learning,our system shows advantages of the both.
Fuhai LENGRujiang BAIQingsong ZHU
语义角色标注及其在科技情报分析中的应用研究被引量:3
2015年
文章首先梳理了国内外对语义角色标注技术研究的相关文献,并综述了支持语义角色标注的主要语料资源,从句法分析、特征向量选择以及机器学习3个角度介绍了目前语义角色标注的主要方法,指出语义角色标注的未来发展趋势。最后,详细描述了基于语义角色标注的科技创新知识发现过程以及语义角色标注在科技情报分析研究中的应用价值,以期促进大数据时代科技情报语义分析研究。
祝娜王效岳白如江
关键词:语义角色标注科技情报知识发现
基于数字指纹的文献相似度检测研究被引量:7
2013年
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。
白如江王晓笛王效岳
关键词:数字指纹最大熵原理
基于支持向量机和核心特征词的科技文献自动标引研究被引量:5
2014年
科技文献通常包括研究目的、方法、结果和结论等信息,如何将科技文献标引上这些信息,帮助科研人员在数量巨大的文献中快速发现符合研究需要的内容显得尤为重要。文章在研究分析科技文献写作特点基础上,提出了基于词、英文(专有名词、缩写词)以及数字的核心特征词提取策略;然后将科技文献标引问题转化为句子分类问题,结合提出的核心特征词,采用支持向量机分类器对科技文献进行句子级别的语义标引。通过对1168篇糖尿病医学类论文实验,证明本文提出的方法能够有效地学习和标引科技文献中的句子,进而有效地对科技文献关键信息点进行自动标引。
白如江王晓笛王效岳
关键词:自动标引支持向量机特征提取
共1页<1>
聚类工具0