国家自然科学基金(61103101) 作品数:9 被引量:75 H指数:5 相关作者: 谌志群 王荣波 黄孝喜 王小华 陆蓓 更多>> 相关机构: 杭州电子科技大学 浙江大学 厦门大学 更多>> 发文基金: 国家自然科学基金 教育部人文社会科学研究基金 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于LDA模型的移动投诉文本热点话题识别 被引量:9 2017年 【目的】运用中文信息处理和话题识别与追踪的方法,从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点入手,使用k-means先对文本聚类。利用LDA对每个类进行建模,提取话题,并从词频、词跨度和词长三方面计算每个话题中词的权值,把权重最大的词作为该话题的标签,并计算每个话题的文档分布概率均值。对具有相同标签的话题,先按照均值最大的原则去掉重复标签话题,再对所有话题计算文档支持率,并将文档支持率作为话题的热度,通过热度区分热点话题和一般话题。【结果】对投诉文本进行时间上的建模,通过对比一般话题和热点话题,得出热点话题的支持文档率至少是一般话题的3倍,支持文档率变化趋势也比一般话题高,说明本文算法是有效的。【局限】没有考虑到话题之间的语义关系。【结论】利用LDA模型对移动投诉话题检测初探的方法是比较合理和有效的,对今后此领域的研究具有一定的借鉴意义。 方小飞 黄孝喜 王荣波 谌志群 王小华关键词:K-MEANS LDA模型 基于回应消息的中文微博情感分类方法 2013年 通过对中文微博情感分类的深入研究,该文提出了基于回应消息的中文微博情感分类方法。首先,对微博回应消息进行情感标注,然后利用回应消息情感分布结合SVM算法对微博文本情感进行分类;其次,对分类特征进行了详细分析。实验结果表明,该方法能够得到更高的准确率和召回率。 郭飞飞 王小华 谌志群 王荣波关键词:情感分类 支持向量机 基于中文维基百科的命名实体消歧方法 被引量:3 2012年 该文提出一种面向中文命名实体的统计消歧方法。该方法采用中文维基百科作为世界知识,同时以待消歧命名实体在维基百科中的消歧页包含的词义选项为候选的命名实体概念,在充分利用维基百科页面信息和链接信息,以及命名实体上下文信息的基础上,实现中文命名实体的消歧。在一个小规模测试集上进行了实验,并获得87.5%的准确率,表明提出的方法具有可行性和有效性。 杜婧君 陆蓓 谌志群关键词:词义消歧 中文信息处理 基于改进CFSFDP算法的文本聚类方法及其应用 被引量:2 2017年 【目的】针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进。【方法】提出一种基于粒子群算法的CFSFDP算法,通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值,得到相对较高的局部密度和距离的聚类中心,减少离散点对数据中心选取的影响,并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验。【结果】实验结果表明,在不同的数据集中,本文算法相对于基本的CFSFDP算法在准确率、召回率、F值上均有明显提高。【局限】文本处理时没有考虑语义关系。【结论】本文方法有很好的聚类效果,应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题。 詹春霞 王荣波 黄孝喜 谌志群关键词:聚类中心 微博关注关系网络K-核结构实证分析 被引量:13 2013年 为研究微博关注关系网络的特征,以新浪微博为例,引入复杂网络分析方法对微博关注关系网络进行实证分析。首先对微博关注关系网络进行K-核分解,获取微博核心用户关系网络。然后计算K-核网络基本参数、跟随比例和度相关性,发现其既具有在线社会网络的一般特征,也具有现实社会网络的一些特点。通过对K-核网络的社区检测及节点中心性、互惠性、中间人角色的分析,发现其网络结构具有明显的社区特性。该研究能够为相关应用提供实证基础。 白林根 谌志群 王荣波 黄孝喜关键词:复杂网络 基于平均场理论的微博传播网络模型 被引量:10 2014年 微博是在通过用户关注机制建立的用户网络上分享实时信息的社交平台,而微博消息主要通过用户的转发行为使消息在用户网络上传播.掌握微博消息的传播机制,对研究微博上舆论谣言的传播、产品推广等具有指导作用.本文通过对微博传播网络的结构分析来探索微博传播过程,利用新浪微博数据,建立微博传播网络,分析该网络的生成机制,使用平均场论的方法,推导微博传播网络的度分布模型.实验结果表明:微博传播网络的度分布是时间相依的,在特定时间下网络的度分布服从幂律分布. 吴腾飞 周昌乐 王小华 黄孝喜 谌志群 王荣波关键词:复杂网络 无标度网络 平均场理论 汉语运动事件词化类型研究综观 被引量:29 2012年 本文对近年来有关汉语运动事件词化类型(动词构架型、附加语构架型还是对等构架型)及其类型学演变的研究做了回顾和评介。分析了几种代表性观点的证据和不足,同时提出了几点思考:(1)类型的鉴别要区分句法核心和语义核心;(2)语言是不断演变的,应结合共时和历时来进行考察;(3)词化类型既表现在句法结构属性上,又表现在语言使用倾向上,应结合两者综合考量;(4)充分认识不同语言的特性,同一词化类型的语言在结构上也有差异。文末指出,对运动事件编码类型的考察,为探索概念结构、语言结构和语言使用的接口问题提供了可行的视角,值得深入研究。 史文磊基于动态规划的汉语句子相似度算法 被引量:8 2013年 传统汉语句子相似度计算算法在处理大量专业词汇时准确率较低。为此,提出一种基于动态规划的汉语句子相似度算法。通过获取2个句子的公共子串集合,结合链表消重机制,从集合中获取2个句子的所有最长公共子串,并以此计算相似度。实验结果表明,对于含有大量专有名词的问题集合,该算法的测试正确率达93.6%,计算效率较高。 冯凯 王小华 谌志群关键词:句子相似度 动态规划 最长公共子串 一种基于词语抽象度的汉语隐喻识别方法 被引量:1 2015年 【目的】设计一种自动计算汉语词语抽象度的方法,并将其用在自然语言理解中的隐喻识别任务。【方法】以统计学习理论中逻辑回归为计算模型,把神经网络语言模型获取的词语词向量作为特征,通过构建抽象词库得到特征权重向量,计算汉语词语抽象度。提出一种基于词语抽象度的汉语隐喻识别算法,验证该方法的应用效果。【结果】通过与已有的方法进行实验对比,本文设计的汉语词语抽象度计算方法更接近于人的认知常识;并且在隐喻识别任务中,也体现出更好的准确率。【局限】词语词向量表示词语抽象程度有一些缺陷;抽象词语库的规模影响特征权重向量的学习。【结论】词语抽象度计算可以表现为人对概念的一种抽象分类能力,本文提出的汉语词语抽象度计算方法得到的结果能够较好地拟合人的认知,并且实验证明词语抽象度可有效提高隐喻识别的效果。 黄孝喜 张华 陆蓓 王荣波 吴铤