王跃
- 作品数:2 被引量:7H指数:2
- 供职机构:西南交通大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金四川省科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于少量标签的改进迁移模糊聚类被引量:2
- 2016年
- 传统聚类算法难以利用已有的历史信息,尤其是数据被污染的情况下聚类结果不理想;半监督聚类常用于数据中有部分标签的情况。在源数据有少量标签的情况下,提出半监督混合C均值聚类算法(SS-FPCM);基于迁移学习框架,针对负迁移问题对算法进行修正,提出了防止负迁移的半监督迁移算法(TSS-FPCM);最后,为了充分借鉴源数据的信息,利用"代表点"来代替源数据类信息,融入算法中再次迁移得到改善的半监督迁移算法(ITSSFPCM)。实验表明,3个算法能够有效的利用源数据提高聚类性能。SS-FPCM与TSS-FPCM可以利用源数据的少量标签数据,而ITSS-FPCM算法结合了标签数据与"代表点"两个有效信息,在数据信息匮乏、数据被污染的情况下得到较好的聚类结果。
- 王跃杨燕王红军
- 关键词:聚类模糊C均值
- 基于经验分布的打车概率和等待时间预测被引量:5
- 2015年
- 提出了一种预测乘客在指定位置和指定时间预测打车概率和等待时间的方法。设计了一种将地图离散化,使用特征点修复GPS轨迹的解决方案,且适用于大数据问题;在修复的GPS数据基础上提出了基于经验分布在等待特征点和时间点的打车概率和等待时间模型;并基于该模型预测用户指定位置和指定时间的打车概率。另外给出了基于该模型的增量学习的方法。大规模GPS轨迹数据使用Hadoop平台实现了管理和分析计算,证明了该方案的可行性;预测结果在仿真实验中取得了良好的效果,证明了模型具有较高的准确性,同时可以期望准确性随着数据量的增大而提升;另外该模型得到的特征点和特征时间概率和等待时间的参考表并不会随着GPS轨迹数据的增大而增大,证明了模型有良好的可扩展性。
- 王诏远李天瑞程尧王跃易修文
- 关键词:HADOOP