您的位置: 专家智库 > >

广东省自然科学基金(9151026005000002)

作品数:19 被引量:140H指数:6
相关作者:蒋盛益庞观松王连喜张黎莎余雯更多>>
相关机构:广东外语外贸大学广东科贸职业学院南京理工大学更多>>
发文基金:国家自然科学基金广东省自然科学基金广东省高等学校自然科学研究重点项目更多>>
相关领域:自动化与计算机技术经济管理文化科学更多>>

文献类型

  • 19篇期刊文章
  • 1篇会议论文

领域

  • 17篇自动化与计算...
  • 2篇经济管理
  • 1篇文化科学

主题

  • 11篇聚类
  • 4篇不平衡数据
  • 3篇信息检索
  • 3篇模式识别
  • 3篇聚类算法
  • 2篇电信
  • 2篇学术搜索
  • 2篇语言
  • 2篇直觉模糊
  • 2篇直觉模糊集
  • 2篇数据分类
  • 2篇搜索
  • 2篇朴素贝叶斯
  • 2篇文本分类
  • 2篇文本聚类
  • 2篇模糊集
  • 2篇结果聚类
  • 2篇客户
  • 2篇客户关系
  • 2篇客户关系管理

机构

  • 20篇广东外语外贸...
  • 3篇南京理工大学
  • 3篇广东科贸职业...
  • 2篇卡迪夫大学
  • 1篇中国人民解放...

作者

  • 17篇蒋盛益
  • 7篇庞观松
  • 5篇王连喜
  • 5篇张黎莎
  • 3篇余雯
  • 3篇杨静宇
  • 3篇叶有培
  • 3篇张倩生
  • 3篇张振华
  • 2篇谢照青
  • 2篇李霞
  • 1篇蔡余冲
  • 1篇张建军
  • 1篇邝丽敏
  • 1篇李碧
  • 1篇汪珊
  • 1篇吴美玲
  • 1篇赖旭明
  • 1篇罗方伦
  • 1篇区雄发

传媒

  • 3篇小型微型计算...
  • 3篇情报学报
  • 3篇山东大学学报...
  • 3篇山东大学学报...
  • 2篇计算机科学
  • 1篇计算机研究与...
  • 1篇统计与决策
  • 1篇情报理论与实...
  • 1篇计算机工程与...
  • 1篇计算机工程与...

年份

  • 2篇2012
  • 14篇2011
  • 4篇2010
19 条 记 录,以下是 1-10
排序方式:
基于聚类的电信客户细分被引量:4
2011年
电信行业是典型的数据密集型行业,拥有大量的甚至是海量的客户数据资源。对电信行业客户消费数据进行深入挖掘可以为企业的资源优化配置和客户关系管理提供理论支持和技术保障。以电信行业的客户消费数据为基本研究对象,在衍生特征构造、样本调整以及特征选择等数据预处理的基础上,本文采用可处理混合数据且具有近似线性时间复杂度的一趟聚类算法建立电信行业的客户细分模型。经实证研究表明,该模型可以将电信的客户有效划分成四个具有不同忠诚程度和消费能力的客户群体,同时从各客户群的消费行为中还可以有效地分析出他们的消费偏向和流失倾向。说明提出的方法是一种有效的客户细分方法。
王连喜蒋盛益
关键词:客户细分聚类客户关系管理电信
面向不平衡问题的集成特征选择被引量:5
2011年
传统的特征选择方法基本上是以精度为优化目标,没有充分考虑数据样本类别分布倾斜性,在数据分布不平衡的数据集上性能表现不理想。在不平衡数据集上通过有放回的抽样方法独立地从数据集大类样本集中随机抽取多个样本子集,使每次随机抽取的样本数量与小类样本数量一致,然后将各抽取的样本子集分别与小类样本集组合成多个新的训练样本集。对多个新样本集的特征子集以集成学习的方式采用投票机制进行投票,数据集的最终特征子集以得票数目超过半数的特征共同组合而成。在UCI不平衡数据集上的实验结果显示,提出的方法表现出了较好的性能,是一种能够处理不平衡问题的有效特征选择方法。
李霞王连喜蒋盛益
关键词:不平衡数据集
Chameleon算法的改进被引量:11
2010年
结合Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进Chameleon算法,使之可以处理含分类属性的数据;进而提出一种两阶段聚类算法.第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用改进的Chameleon算法归并初始划分而得到最终聚类.在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的.
蒋盛益庞观松张黎莎
面向分类特征的无监督特征选择方法研究被引量:5
2011年
针对分类特征数据给出一种新的特征重要性程度度量方法.以一趟聚类算法为基础,提出一种无监督特征选择方法.理论分析表明该方法时间复杂度与数据集的大小和特征个数成近似线性关系,适合于大规模数据集中的特征选择.在UC I数据集上的实验结果表明,与文献中的经典方法相比,本文方法具有较好的性能,说明提出的特征选择方法是有效可行的.
王连喜蒋盛益
个性化跨语言学术搜索技术研究被引量:4
2011年
学术搜索引擎是一种行业化的搜索引擎,但因其缺乏个性化的服务,使得用户的学术文献检索效率低下,海量的数字学术资源得不到充分利用。本文使用Google翻译,研究基于机器翻译的中、英、俄、法和西班牙等五个语种跨语言学术检索。在跨语言学术搜索的基础上研究个性化检索技术,提出一种基于聚类的个性化信息检索方法:通过观察用户对搜索结果聚类的点击行为,生成并更新用户实时兴趣模型,采用余弦夹角公式计算用户实时兴趣模型与搜索返回结果的相似度,根据相似度大小,为用户提供个性化重排序的搜索返回结果。实验结果证明了提出方法的有效性。
庞观松张黎莎蒋盛益
关键词:跨语言信息检索个性化信息检索学术搜索
Web搜索结果多层聚类方法研究被引量:1
2011年
为了便于用户浏览搜索引擎返回结果,本文提出了一种基于TFIDF新的文本相似度计算方法,并提出使用具有近似线性时间复杂度的增量聚类算法对文本进行多层聚类的策略。同时,提出了一种从多文本中提取关键词的策略:提取簇中的名词或名词短语作为候选关键词,综合考虑每个候选关键词的词频、出现位置、长度和文本长度设置加权函数来计算其权重,不需要人工干预以及语料库的协助,自动提取权重最大的候选关键词作为类别关键词。在收集的百度、ODP语料以及公开测试的实验结果表明本文提出方法的有效性。
庞观松蒋盛益张黎莎区雄发赖旭明
关键词:文本聚类加权函数
基于代价敏感的朴素贝叶斯不平衡数据分类研究
传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价...
蒋盛益谢照青余雯
关键词:朴素贝叶斯不平衡数据分类
文献传递
一种基于名词短语的检索结果多层聚类方法被引量:3
2010年
对检索结果聚类可以方便用户快速浏览搜索引擎返回结果。为了提取主题表达能力和可读性强的类别标签,获取高质量的聚类结果,提出基于名词短语的检索结果多层聚类方法:提取名词短语作为候选类别标签,根据候选类别标签分布情况生成基础类,再使用具有线性时间复杂度的一趟聚类算法对基础类进行多层聚类。与基于命名实体的方法、STC和Lingo算法的对比实验表明:提出方法在类别标签的可读性、有效性以及聚类性能上都优于以上3种方法。
庞观松张黎莎蒋盛益邝丽敏吴美玲
关键词:信息检索检索结果聚类文本聚类
一种新区间值vague集及其在模式识别中的应用被引量:4
2011年
基于现有定义证明了区间值vague集并非vague集的扩展,并提出了一种新的区间值vague集定义。证明了vague集和区间值vague集都是新区间值vague集的特例。进而提出了带参数区间值vague集的概念,并从已知隶属度和非隶属度出发,重点分析了带参数区间值vague集的构造。将模式识别与医疗诊断案例进行了对比。仿真实验结果表明,带参数区间值的vague集方法比传统的vague集方法更全面且更具灵活性。
张振华杨静宇叶有培张倩生
关键词:VAGUE集区间值VAGUE集模式识别
文本自动分类技术研究综述被引量:32
2012年
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。
庞观松蒋盛益
关键词:文本分类文本处理
共2页<12>
聚类工具0