国家自然科学基金(61273292)
- 作品数:21 被引量:114H指数:6
- 相关作者:胡学钢田卫东林耀进张玉红李慧宗更多>>
- 相关机构:合肥工业大学闽南师范大学安徽理工大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学医药卫生更多>>
- 基于用户群体影响的协同过滤推荐算法被引量:21
- 2013年
- 协同过滤是推荐系统中广泛使用的推荐技术,对推荐结果可解释强。基于用户的协同过滤是一种重要的系统推荐方法,用户评分数据的极端稀疏性制约着系统的推荐质量。针对上述情况,提出一种基于用户群体影响的协同过滤推荐算法。首先,定义了用户群体的概念并根据群体影响提出两条相应准则;然后,计算用户相似性时,不仅考虑了用户个体之间的相似性,而且考虑了用户所处群体之间的相似性。该算法不仅可以更加精确地刻画用户之间相似度,而且一定程度上增强了推荐系统的稳定性。实验结果表明,该算法能有效地提高系统的推荐质量,而且满足所提出的两条准则。
- 林耀进胡学钢李慧宗
- 关键词:推荐系统协同过滤
- 基于迭代Lasso的肿瘤分类信息基因选择方法研究被引量:18
- 2014年
- 近年来,基于基因表达谱的肿瘤分类问题引起了广泛关注,为癌症的精确诊断及分型提供了极大的便利.然而,由于基因表达谱数据存在样本数量小、维数高、噪声大及冗余度高等特点,给深入准确地挖掘基因表达谱中所蕴含的生物医学知识和肿瘤信息基因选择带来了极大困难.文中提出一种基于迭代Lasso的信息基因选择方法,以获得基因数量少且分类能力较强的信息基因子集.该方法分为两层:第一层采用信噪比指标衡量基因的重要性,以过滤无关基因;第二层采用改进的Lasso方法进行冗余基因的剔除.实验采用5个公开的肿瘤基因表达谱数据集验证了本文方法的可行性和有效性,与已有的信息基因选择方法相比具有更好的分类性能.
- 张靖胡学钢李培培张玉红
- 关键词:基因表达谱肿瘤分类基因选择
- 基于模糊聚类的神经元识别方法被引量:1
- 2016年
- 大脑是生物体内结构和功能最复杂的组织,其中包含上千亿个神经元。作为大脑构造的基本单位,神经元的结构和功能包含很多因素,其中神经元的几何形态特征就是一个重要方面。大脑中神经元的几何形态复杂多样,对其识别分类问题是一个难题。本文在模糊聚类的基础上根据神经元的几何形态建立了模糊集模型,并利用多数据库分类模型中的最优划分模型对模糊聚类分析法进行改进。将改进后的模糊聚类方法用于对神经元的识别分类,得到最优的分类结果。根据聚类的评价方法,与其他的聚类方法比较,证明了改进的模糊聚类方法能够得到更好的聚类效果。
- 张晶毕佳佳张玉红胡学钢
- 关键词:神经元模糊集聚类
- 基于LDA的社会化标签综合聚类方法被引量:14
- 2015年
- 社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。
- 李慧宗胡学钢杨恒宇林耀进何伟
- 关键词:潜在语义主题模型
- 基于用户偏好的协同过滤推荐算法被引量:2
- 2017年
- 在用户的协同过滤推荐模型中,用户对项目评分的偏好行为会导致计算用户之间的相似性出现偏差,影响推荐的质量。文章根据用户的评分习惯划分用户,利用大间隔寻找用户的近似邻居,提出了一种基于用户偏好的协同过滤推荐算法,首先引入一种新的相似性度量方法计算用户之间的相似度,再构建一种基于用户偏好的协同过滤推荐模型。实验结果表明,该算法能有效提高推荐质量。
- 杨恒宇胡学钢林耀进
- 关键词:协同过滤用户偏好
- 一种过滤式多标签特征选择算法被引量:8
- 2015年
- 多标签数据的过滤式特征选择依靠特征评价对特征选择,快速有效得到候选特征.但现有算法多将标签集合简单化,将其视作独立标签加以研究,忽视了多标签集合内部相互关系.近年来,由于MRMR算法在单标签数据领域方面简单、快速、高效的特征选择能力,成为过滤式特征选择算法的流行算法之一.提出一种基于MRMR(Max-Relevance Min-Redundancy)过滤式多标签特征选择算法(ML-MRMR),直接通过对特征进行权重计算,得到特征与多标签集合的相互关系,以获得更好的候选特征子集.同时,算法的特征评价过程中不仅考虑了特征间以及特征与多标签的相互影响,更考虑到多标签内部可能存在的相互关系,将标签相关性加入特征评价当中,提出了可适应多标签数据的度量标准.最后,在真实多标签数据集上的实验结果表明:所提算法能够对数据大幅降维并稳定有效地提高降维后数据的分类效果.
- 胡学钢许尧李培培张玉红
- 关键词:过滤式互信息
- 基于CRF和错误驱动的中心词识别被引量:3
- 2013年
- 针对中文问题分类的中心词识别不准确的问题,提出了一种基于条件随机场(CRF)和错误驱动学习相结合的识别方法。该方法采用CRF模型对问题的中心词进行初始标注,依据词的上下文信息用错误驱动的学习方法对其标注结果进行纠正。在训练有序规则的过程中,为了减少训练时间,结合中心词的特点对错误驱动算法进行了改进。实验结果表明,该方法在一定程度上提高了中心词的标注精度,达到88%。
- 田卫东李亚娟
- 关键词:中心词上下文信息
- 基于频繁依存子树模式的中心词提取方法研究被引量:1
- 2016年
- 条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提取中心词提供依据,通过挖掘频繁依存子树模式以生成相应统计规则模式,使用条件随机场模型进行中心词初始标注,使用频繁依存子树模式统计规则进行中心词标注校正等。该文方法属于典型的客观方法,建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。实验结果表明,该文方法将条件随机场模型的中心词标注准确率提高约3%。
- 田卫东虞勇勇
- 关键词:中心词条件随机场
- 面向跨领域情感分类的特征选择方法被引量:3
- 2013年
- 数据标记的难以获取使得跨领域适应成为一种有效的途径.然而情感分类具有较强的领域依赖性,利用传统的特征选择方法在原始领域构建的特征空间不能体现领域间的共性,难以适用于目标领域.为此,提出一种面向跨领域情感分类的特征选择方法(LLRTF),利用对数似然比选取在原始领域富有判别力的特征,并通过对照两个领域的统计信息,选出其中在目标领域影响较大的特征.基于该方法构建的公共特征空间,能减少领域间数据分布的差异.实验结果表明,LLRTF优于基准算法.
- 张玉红周全胡学钢
- 关键词:情感分类
- 基于模糊等价类的频繁项集精简表示方法被引量:3
- 2016年
- 频繁项集挖掘是数据挖掘应用中的关键问题,而巨大的频繁项集数目成为了现实应用中的阻碍。为了降低频繁项集数量,使其更加利于应用,提出了一种基于格结构的频繁项集精简模型,并证明了该方法产生支持度误差的范围;此外,在模型的基础上提出了一种模糊等价类精简表示算法FEC。实验结果表明,该方法能够保证在频繁项集数量大幅降低的同时,不会引入过大的支持度错误,与Index-Meta算法相比,产生的支持度错误较小。因此,基于模糊等价类的频繁项集精简表示模型及FEC算法有较高的应用价值。
- 田卫东许静文
- 关键词:数据挖掘频繁项集关联规则