钟敏娟
- 作品数:27 被引量:214H指数:8
- 供职机构:江西财经大学信息管理学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金江西省自然科学基金更多>>
- 相关领域:自动化与计算机技术自然科学总论文化科学更多>>
- 基于Web的文本信息检索算法研究
- 随着互联网技术的迅速发展,网上文本数量成指数级增长,如何有效检索这些海量信息成为当前重要的研究课题.文本信息检索(Information Retrieval)是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档...
- 钟敏娟
- 关键词:文本信息检索向量空间模型超链接查全率查准率
- 文献传递
- 基于词性标注和依存句法的Web金融信息情感计算被引量:17
- 2013年
- 基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的原极性、修饰极性和动态极性,1)找出了影响句子情感倾向性的4种词性:形容词、动词、副词和名词;2)从词性和汉语句子成分理解的角度,逐一分析了24种依存关系对句子情感计算的影响,找出了可能影响句子情感倾向性的8种依存关系;3)根据这8种依存关系中可能的词性组合设计了6种情感计算规则,并提出了基于二叉树的情感计算策略,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法;4)在Web金融信息上进行了实验测试,实验结果表明了该方法的有效性.
- 万常选江腾蛟钟敏娟边海容
- 关键词:情感计算词性标注依存句法分析
- 基于关联规则挖掘和极性分析的商品评论情感词典构建被引量:14
- 2016年
- 作为情感倾向性分析的基础性工作,情感词典构建包括情感词的识别与极性判断两大任务。本文以亚马逊网站上的音乐商品评论信息作为数据源,力图构建该领域的情感词典。首先利用关联规则挖掘算法充分挖掘领域主题词和情感词之间的关系,获取体现领域特征的情感词;然后针对每个情感词,引入词项间的混合相关关系,结合PageRank模型构建情感词的量化图模型,获得每个情感词的极性。实验结果表明,本文所提方法能有效地构建音乐领域情感词典,不仅能够识别该领域特征的情感词,同时还能较为准确地判断该情感词的情感原极性。
- 钟敏娟万常选刘德喜
- 关键词:情感词典关联规则PAGERANK
- 基于多重增强图和主题分析的社交短文本检索方法被引量:5
- 2018年
- 社会网络平台上的社交短文本不同于网页或其他文本,它的特点是内容短、文本间存在转发评论等关系、话题复杂多样、与Web页面有链接关系、文本的作者间有关注关系等,现有的检索系统不能完全适应。该文提出一个基于多重增强图的社交短文本检索方法 SSTR,它利用多重增强图算法对通过Indri获得的初步检索结果实现再排序优化和去重。多重增强图算法是基于马尔科夫链理论设计出的图模型算法,社交短文本中蕴含的文本、作者、词语等不同层面的关系通过不同的图层及图中节点之间的边来建模。三个层面的关系相互增强,通过多次迭代运算,最终寻求多个层面间相互关系所处的稳定状态。多重增强图构建时,短文本的相似度计算基于主题分析结果,克服了传统余弦相似度计算时TF-IDF权重在短文本上的局限性。实验结果表明,与Indri、reRank-COS和reRank-LDA相比,基于多重增强图算法的SSTR排序的效果更好,适合初始检索结果相对较多的应用场合。
- 刘德喜付淇付淇万常选万常选刘喜平钟敏娟
- 基于聚类和词组抽取的XML查询扩展被引量:2
- 2010年
- 查询扩展技术通过向初始查询请求加入相似或相关的词,组成更为准确的扩展查询表达式,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能。与传统的查询扩展不同,XML查询扩展不仅要对文档内容进行有效扩展,而且还要考虑结构扩展。本文提出了一种基于伪反馈的XML查询扩展方法,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的“内容+结构”的查询扩展表达式。相关实验结果表明,相对没有扩展的查询,所提方法具有更好的精度。
- 钟敏娟万常选焦贤沛
- 关键词:XML聚类
- 基于检索结果聚类的XML伪相关文档查找被引量:1
- 2013年
- 传统伪相关反馈容易产生"查询主题漂移",有效避免"查询主题漂移"的首要前提是确定高质量的相关文档,形成与用户查询需求相关的伪相关文档集合。在检索结果聚类的基础上,研究了XML伪相关文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于均衡化权值的簇标签提取方法,并以此为基础,提出了候选簇的排序模型和基于候选簇的文档排序模型。相关实验数据表明,与初始检索结果相比,排序模型获得了较好的性能,有效地查找到了更多的XML伪相关文档。
- 钟敏娟万常选刘德喜廖述梅
- 关键词:信息检索
- 无标度特性下的有界信任交互网络伪舆情演化建模及仿真研究被引量:6
- 2017年
- 了解和掌握网络伪舆情事件的观点倾向及其演化规律,是互联网舆情监控的一项重要内容,对于及时引导和化解舆情危机具有十分重要的意义.本文提出基于BA网络和有界信任交互的二阶段舆论演化动力学模型.该模型从观点形成与观点交互两个阶段出发,建模普通网络成员的观点形成和在自身性格和周围环境(比如网络水军)双重因素共同作用下的观点变化,分析了外界环境变化对舆论演化的影响,并对模型是否考虑网络拓扑结构因素进行了比较分析.一系列的仿真实验表明该模型能较好的拟合网络伪舆情的演化规律,能为网络监察部门和新闻管理部门提供一定的政策建议.
- 钟敏娟
- 关键词:拓扑结构
- 基于伪反馈的有效XML查询扩展
- 2016年
- 伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。
- 钟敏娟万常选刘德喜江腾蛟刘爱红
- 关键词:检索结果聚类排序查询扩展
- 基于分类的微博新情感词抽取方法和特征分析被引量:18
- 2018年
- 情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发布和传播提供了便捷的途径,是新情感词的重要来源.考虑到已有规模较大的人工情感词典及大量包含新情感词的微博数据,在统计、分析、对比中、英两种语言微博中情感词分布差异的基础上,提出了与特定语言无关的基于分类思想的微博新情感词抽取方法cNSEm.cNSEm根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性.通过大量而细致的实验,分析了cNSEm在中、英文两种语言的微博数据上的表现、六类特征的作用和用法以及抽取的新情感词对微博情感分类任务的帮助作用.实验结果表明,cNSEm比经典的基于共现和极性传播的方法要好,特别是当考虑中文微博数据集中的名词类情感词时.对cNSEm抽取的新情感词进行了直接和间接两种方法评测,前者利用人工情感词典作参照,后者考察抽取的新情感词对情感分类的帮助作用,从评测指标上看,cNSEm抽取的新情感词与人工情感词典的质量相当,并且cNSEm能适应有较大差异的中、英两个语种.
- 刘德喜聂建云万常选刘喜平廖述梅廖国琼钟敏娟江腾蛟
- 基于主题标签的在线社区话题发现被引量:2
- 2017年
- 面对海量的互联网信息,如何快速有效地提取到用户关心的话题成为网络信息处理的一项基本任务。话题发现实质是无指导的聚类研究,本文引入主题标签概念,针对在线社区数据,提出了主题标签的话题发现算法。该算法以词项为粒度,基于词项的权重和上下文信息获取论坛帖子线索文档的核心词汇,作为文档的主题标签,在向量空间模型的基础上结合主题标签间的相似性进行相关话题的聚类。该方法的提出,一方面获得的主题词项不仅准确,而且具有较强的语义关联性,有效的避免了向量空间模型中容易丢失特征词间语义信息的缺陷;另一方面,与潜在语义模型相比,本文在向量空间模型基础上的话题发现具有更高的效率和更好的聚类质量。
- 周新民陈晓红钟敏娟赵文军
- 关键词:大数据上下文分析向量空间模型