国家重点实验室开放基金(SKLSDE-2011KF-06)
- 作品数:5 被引量:69H指数:3
- 相关作者:周刚黄永忠马俊许斌熊小兵更多>>
- 相关机构:解放军信息工程大学北京航空航天大学中国人民解放军信息工程大学更多>>
- 发文基金:国家重点实验室开放基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文微博数据净化算法比较研究
- 2012年
- 针对微博语言口语化和不规范导致微博数据质量低下的问题,利用质心、度-中心值和特征向量-中心值3种算法对微博话题数据进行净化,从而提高数据质量。通过比较净化前后话题帖子的规范性、相关性和有益性等属性指标分析算法性能。实验结果表明,经过3种净化算法处理,话题帖子的整体质量尤其是规范性指标均有所提高,质心算法对于有益性指标有较好的净化效果,度-中心值和特征向量-中心值算法有助于得到强相似度的话题帖子。
- 邹鸿程周刚杨亚强李旭东
- 关键词:质量指标数据净化
- 基于个人属性特征的微博用户影响力分析被引量:35
- 2013年
- 为提高微博话题中关键人识别的准确性,提出了一种基于个人属性特征的用户影响力分析方法———PBF方法。该方法利用信息传播特征对用户影响力进行度量,结合个人属性特征对其进行回归分析,找出最能反映用户影响力的属性特征,进而利用这些特征对用户影响力进行预测。实验结果表明,PBF方法的识别效率要明显高于RNF方法,有效提高了关键人识别的准确性。
- 马俊周刚许斌黄永忠
- 新浪微博话题流行度预测技术研究被引量:7
- 2012年
- 微博作为一种新的在线社会网形式,逐渐成为人们获取和共享信息的重要平台。以我国最大的微博网站——新浪微博为对象,重点研究了微博话题的流行度预测问题。收集了大约40G的微博话题信息作为研究数据集,从中提取出与话题流行度相关的微博用户属性和话题内容属性,在对这些属性相关性分析的基础上,提出了一种兼顾用户属性和内容属性的话题流行度定量描述方法。文章对影响话题流行度的各属性进行了详细的主成分分析,总结出4种属性作为话题流行度预测的依据,并建立了流行度的线性预测模型。该模型能较好地预测话题流行度,模型指标R2达到0.89。
- 熊小兵周刚黄永忠马俊
- 关键词:主成分分析
- MB-SinglePass:基于组合相似度的微博话题检测被引量:24
- 2012年
- 话题检测技术在传统媒体的研究中取得了较好的效果。探讨了针对微博类的新型媒体短文本对象话题检测技术的优化及性能评价。基于微博中联系人存在的关注和粉丝等结构化信息、帖子之间转发评论等内在关联关系,提出了针对微博的MB-SinglePass话题检测算法。该算法除了考虑微博上述特点之外,还针对短文本特征稀疏的问题,利用同义词典,引入了微博特征扩展技术,丰富了特征信息。同时,针对单一使用余弦相似度、雅各比相似度和语义相似度的不足,采用了组合相似度策略。相较传统算法,MB-SinglePass算法在新浪微博实测数据集上取得了更好的性能。另外,针对相似度策略的对照实验说明采用组合相似度的效果优于单一相似度。
- 周刚邹鸿程熊小兵黄永忠
- 关键词:文本相似度
- 一种基于话题传播的微博用户影响力分析方法被引量:3
- 2013年
- 基于微博话题传播过程,提出了一种新的用户影响力分析方法。该方法首先结合微博信息传播机制,构建信息推送网和信息转发网;其次,基于上述网络建立话题传播网模型并提出CTDN构建算法;最后,以该模型为基础设计并实现了一种用户影响力排序算法TD-InfluenceRank,该算法在迭代计算用户影响力时通过考虑节点间的信息传播,使影响力更多地转移给关系密切的节点。实验结果表明,以TD-InfluenceRank算法为核心的用户影响力分析方法,能够有效提高话题传播中用户影响力分析的准确性。
- 马俊马俊许斌周刚
- 关键词:信息传播PAGERANK算法