您的位置: 专家智库 > >

刘凯

作品数:5 被引量:24H指数:3
供职机构:长春工业大学计算机科学与工程学院更多>>
发文基金:吉林省自然科学基金吉林省教育厅“十二五”科学技术研究项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 2篇主题挖掘
  • 2篇分布式
  • 2篇分布式计算
  • 1篇动态负载均衡
  • 1篇信用
  • 1篇信用风险
  • 1篇信用风险分析
  • 1篇隐马尔可夫模...
  • 1篇数据挖掘
  • 1篇主题建模
  • 1篇自适
  • 1篇自适应
  • 1篇自适应特征
  • 1篇马尔可夫
  • 1篇马尔可夫模型
  • 1篇风险分析
  • 1篇负载均衡
  • 1篇GIBBS采...
  • 1篇GROUP
  • 1篇HL

机构

  • 5篇长春工业大学

作者

  • 5篇刘凯
  • 4篇郑山红
  • 4篇蒋权
  • 3篇李万龙
  • 1篇董亚则
  • 1篇庞海龙

传媒

  • 1篇计算机应用研...
  • 1篇计算机工程与...
  • 1篇长春工业大学...
  • 1篇计算机技术与...
  • 1篇软件工程

年份

  • 4篇2018
  • 1篇2017
5 条 记 录,以下是 1-5
排序方式:
基于随机森林的自适应特征选择算法被引量:8
2018年
为了解决传统的随机森林算法在随机特征选择时,导致少数比较重要的特征变量被过滤掉的问题,以及没有考虑特征变量相关性对预测应变量准确性带来的影响,提出了一种基于随机森林的自适应特征选择算法SARFFS。该算法首先利用卡方检验样本间关联程度后自助采样,并设计出一种特征对类代表强弱程度的计算方法;然后引入自适应稀疏约束机制Group LASSO优化特征的选择;最后在Spark分布式计算平台利用UCI数据集进行实验,结果表明,相比传统的RF算法,SARFFS算法在特征子集选择上具有更好的性能,在F1上提升将近9%。从最终排名靠前的重要特征分析,该算法能够考虑特征间相关性,对预测结果确实有影响,并有效地提高了随机属性权值的可靠性和稳定性。
刘凯郑山红蒋权赵天傲
关键词:自适应
一种分布式LDA主题模型方法
2017年
基于Spark分布式计算框架,采用Gibbs抽样方法研究分布式LDA主题模型挖掘方法。在Spark平台进行大规模数据集处理实验。
蒋权董亚则刘凯庞海龙
关键词:SPARK分布式计算主题建模
DOLDA模型设计与主题演化分析被引量:3
2018年
为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。
蒋权郑山红刘凯李万龙
关键词:主题挖掘分布式计算动态负载均衡
基于XGBoost的信用风险分析的研究被引量:12
2018年
在大数据时代如何利用数据挖掘处理海量数据从而对信用风险进行预测分析成为了当下非常重要的问题,本文运用XGBoost算法建立信用风险分析模型,运用栅格搜索等方法调优XGBoost参数,基于以AUC、准确率、ROC曲线等评价指标,与决策树、GBDT、支持向量机等模型进行对比分析,基于德国信用数据集验证了该模型的有效性及高效性。
赵天傲郑山红李万龙刘凯
关键词:信用风险分析数据挖掘
MB-HL模型的微博主题挖掘研究被引量:1
2018年
为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&LDA)。该模型用逐条微博作为处理单元,建立分布主题—词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。
蒋权郑山红刘凯李万龙
关键词:主题挖掘隐马尔可夫模型GIBBS采样
共1页<1>
聚类工具0