段文影 作品数:19 被引量:65 H指数:5 供职机构: 南昌大学 更多>> 发文基金: 国家自然科学基金 江西省自然科学基金 江西省科技支撑计划项目 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
一种基于深度图神经网络的关键词抽取方法 本发明属于计算机文档检索领域,具体设计一种基于深度图神经网络的关键词抽取方法,包括对文档进行矩阵加权形成有向图,利用图卷积编码器和图卷积解码器从相邻词汇中组合出最合适的关键词;期间为了保证数据的稳定,还可进行正则化的方式... 段文影文献传递 结合遗传k均值改进的密度峰值聚类算法 被引量:8 2020年 针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。 卜秋瑾 段隆振 段文影关键词:聚类 基于多支持度的增量式关联规则挖掘算法 被引量:1 2015年 传统的基于关联规则的挖掘算法采用的是统一的最小支持度,但是在实际的事务数据库中数据项的重要性是不同的。针对目前多支持度和增量式关联规则更新维护的局限性,提出一种基于多支持度的增量式关联规则挖掘算法。允许用户根据不同项的重要性设置权值,有利于发现更多有趣的规则。采用矩阵的向量内积策略,结合动态剪枝,无需多次扫描事务数据库,不生成庞大候选集。实验结果验证了算法的有效性。 黄水源 段文影 陈桂香 胡苏阳关键词:多支持度 关联规则 数据挖掘 非分类关系学习的粒计算模型研究 被引量:4 2012年 以领域信息系统为研究对象,探讨学习非分类关系的粒计算模型。通过信息函数的扩展,给出了领域信息系统的形式化描述;研究了领域信息系统的粒化方法和领域概念粒度空间生成;对不同领域概念粒度空间,通过分析粒间上下文,提出了基于不同领域概念粒度空间的概念粒间交叉关系学习模型。示例与测试表明所提出的模型有助于实现领域本体的非分类关系的获取。 邱桃荣 黄海泉 段文影 周石林 李向军关键词:非分类关系 粒计算 信息粒 基于粗糙集和自组织神经网络的聚类方法 被引量:2 2009年 自组织神经网络在学习过程中采取竞争机制选取最优匹配神经元获胜,然而实际情况可能有一组神经元都非常匹配输入向量。引入粗糙集的上近似与下近似理论,选择一组最匹配神经元获胜。实验证明基于粗糙集和自组织神经网络的聚类算法,较之传统的自组织神经网络聚类算法聚类结果更平均,死神经元更少,是一种良好的聚类算法。 段文影 朱敏关键词:自组织神经网络 粗糙集 聚类 基于IA参数寻优组合核的SVM文本分类研究 被引量:6 2018年 支持向量机在解决非线性及高维模式识别中表现出许多特有的优势,被广泛应用在文本分类领域。但是其核函数及其参数的选择对分类效果具有很大的影响,单一核函数难以很好地解决文本分类问题。因此,本文选取了三个常用的核函数进行两两组合,利用加权组合核的形式来弥补单核自身特点可能带来的缺点,然后利用人工免疫算法(Immune algorithm,IA)对组合核进行参数寻优,以提高文本分类效果。实验分析证明,此方法有效。 段文影 饶泓 段隆振 马海亮关键词:支持向量机 文本分类 基于FCM的簇内欠采样算法 被引量:2 2021年 针对传统分类器在不平衡数据集上性能降低的问题,提出一种基于FCM的簇内欠采样算法(Fuzzy C-means clustering Based Under Sampling In Clusters,FCMUSIC)。使用模糊c-均值聚类算法(Fuzzy C-Means clustering,FCM)将多数类样本划分成若干簇,在每个簇内以类别不平衡比率(imbalanced ratio,IR)的倒数作为采样倍率,得到新的多数类样本并与少数类样本合并,形成新的平衡样本集,结合KNN和Random Forest分类器进行分类。分析在5组不平衡数据集上的分类结果,当使用KNN分类器时,改进后的算法的F1值平均提高了6.65%,G-mean值平均提高了7.75%;使用Random Forest分类器时,F1值平均提高了5.31%,G-mean值平均提高了6.07%。表明FCMUSIC算法能够有效地提升传统分类器对不平衡数据集的分类性能。 刘稀文 段隆振 段文影关键词:不平衡数据 欠采样 聚类 一种基于粗糙集属性重要度和密度聚集的匿名化方法 被引量:1 2013年 基于微聚集技术的k-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响。针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集k-匿名化。首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的k-划分。与MDAV算法比较测试,所改进的方法改善了发布数据的可用性。 邱桃荣 段文影 段隆振 白小明关键词:粗糙集 属性重要度 C4.5算法的研究及改进 被引量:11 2019年 C4.5算法作为目前常用的数据挖掘方法,仍存在一些缺陷。针对算法中出现的信息增益率计算复杂的问题,通过数学知识对增益率计算过程进行简化,提高计算效率;针对算法中可能偏袒属性值较多的属性的不足,在非类属性进行最佳属性的选择时引入权重这个概念;针对连续属性离散化过程耗时的缺陷,利用边界定理寻找最大信息增益率的候选分裂点,减少计算时间。将改进后的算法应用到葡萄牙某银行挖掘认购存款的潜在用户上,实验结果表明,C4.5改进算法计算量减少,分类准确率也有提高,决策树的生成时间也大大缩减,构建的决策树贴合实际。 姜如霞 黄水源 段文影 余楚波关键词:C4.5算法 数学 一种基于粗糙微聚集算法及属性重要度的匿名模型的数据质量评估 2015年 提出一种基于属性重要度的匿名模型并改进了微聚集算法,提出一种用于解决微聚集算法在处理分类型数据时存在的问题的方法。并针对改进算法,从粗糙集理角度出发,设计了一种度量函数来衡量匿名化数据的质量。仿真实验证明,改进的方法是有效的。 段文影 段隆振 邱桃荣关键词:粗糙集 K-匿名 隐私保护