朱佳晖
- 作品数:7 被引量:70H指数:4
- 供职机构:武汉大学计算机学院更多>>
- 发文基金:国家自然科学基金湖北省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于频繁项集的海量短文本聚类与主题抽取被引量:31
- 2015年
- 社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明。
- 彭敏黄佳佳朱佳晖黄济民刘纪平
- 关键词:海量频繁项集聚类主题抽取
- 基于回归模型与谱聚类的微博突发话题检测方法被引量:3
- 2015年
- 微博社交网络短文本具有数据规模巨大、快速传播、模态多样、质量较低等特性,导致现有传统的话题检测与跟踪技术在对其进行数据处理时面临复杂度高、特征稀疏和噪声干扰等问题。为此,提出一种在回归预测和谱聚类基础上的突发话题检测方法。该方法针对关键词词频变动趋势,基于回归模型,量化微博关键词的突发程度,从词频趋势分析的角度准确地提取出突发词集合。设计一个基于谱聚类思想的突发词聚类方法提高聚类结果的准确性。在大规模微博数据集的实验结果证明,与baseline方法相比,该方法的准确率、召回率、F值都有较大提高,在微博信息分析领域有着较好的应用前景。
- 彭敏张泰玮黄佳佳朱佳晖黄济民
- 关键词:词频分析谱聚类大数据
- 基于双向LSTM语义强化的主题建模被引量:15
- 2018年
- 当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA)。该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档—主题和词汇—词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明。
- 彭敏杨绍雄朱佳晖
- 关键词:主题模型
- 基于深度学习的主题建模方法研究
- 主题模型是文本语义信息的抽取模型,也是文本语义表征的有效方法。通过主题建模,不仅可以识别出隐含在文本中的主题语义单元,还能够将文本表示在语义信息更为丰富的主题特征空间上,从而有助于文本分类聚类、突发事件检测、主题演化分析...
- 朱佳晖
- 文献传递
- 面向社交媒体文本的话题检测与追踪技术研究综述被引量:14
- 2016年
- 以微博、论坛等为代表的社交媒体已逐渐发展成为网络用户表达和交流观点、获取和传播信息的重要平台.然而,社交媒体文本内容具有的规模庞大、形式多样、传播迅速等特点,对传统的应用在新闻报道、舆情监控、文本挖掘、信息咨询等方面的话题检测与追踪技术提出了新的要求.针对这一背景,本文分别从离线话题检测、在线话题检测和话题演化追踪这三个方面总结当前主要的话题检测与追踪方法,分析在该领域实验中被普遍使用的评估方式,最后提出当前面临的挑战和今后的研究方向.
- 彭敏官宸宇朱佳晖谢倩倩黄佳佳黄济民杨绍雄高望应称
- 关键词:社交媒体主题模型
- 基于双向LSTM语义强化的主题建模
- 当前,双向LSTM神经网络等深度学习方法在文本语义特征表达方面取得了突破性的进展,为构建深层次的具有语义连贯性的主题模型提供了可能.但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限.本文提出了一个基于双向LS...
- 彭敏杨绍雄朱佳晖
- 关键词:主题模型
- 不均衡数据在股票研报分类中的应用被引量:2
- 2017年
- 股票研报是由金融行业分析师对股票相关新闻作出的分析和评价,它从专业角度分析此类新闻是否会对某股票的未来走势产生影响,并提出专业投资建议,往往比论坛分析更具权威性。然而,各类别研报数量之间的严重不均衡性致使常规的SVM分类效果较差。为提高分类效果,提出一种新的不均衡数据分类方法。在文本特征项选择方面采用组合特征思想以选择更具语义信息的特征短语,并改进CHI统计以提高对少数类样本特征项的选择,然后设计一个基于SVM聚类的边界自适应层次欠采样算法对多数类样本进行层次欠采样。实验结果表明,该方法能够在不影响多数类分类的基础上对少数类的分类效果有较为明显的提升。
- 彭敏张凯朱佳晖
- 关键词:不均衡数据SVM算法