您的位置: 专家智库 > >

新疆维吾尔自治区高技术研究发展计划项目(201212124)

作品数:5 被引量:24H指数:4
相关作者:艾斯卡尔艾木都拉艾克白尔帕塔尔吐尔地·托合提艾斯卡尔·艾木都拉维尼拉·木沙江更多>>
相关机构:新疆大学更多>>
发文基金:新疆维吾尔自治区高技术研究发展计划项目教育部“新世纪优秀人才支持计划”国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 5篇维吾尔
  • 5篇维吾尔文
  • 3篇分词
  • 2篇组词
  • 2篇互信息
  • 1篇特征提取
  • 1篇频繁模式挖掘
  • 1篇切分
  • 1篇自适
  • 1篇自适应
  • 1篇文本
  • 1篇文本分类
  • 1篇文本聚类
  • 1篇文本聚类算法
  • 1篇邻接
  • 1篇聚类
  • 1篇聚类算法
  • 1篇K-MEAN...
  • 1篇MEANS

机构

  • 5篇新疆大学

作者

  • 3篇艾斯卡尔艾木...
  • 2篇艾克白尔帕塔...
  • 2篇艾斯卡尔·艾...
  • 2篇吐尔地·托合...
  • 1篇维尼拉·木沙...
  • 1篇艾克白尔·帕...

传媒

  • 1篇模式识别与人...
  • 1篇计算机工程与...
  • 1篇计算机应用
  • 1篇计算机应用研...
  • 1篇中文信息学报

年份

  • 1篇2014
  • 3篇2013
  • 1篇2012
5 条 记 录,以下是 1-5
排序方式:
基于频繁模式挖掘的维吾尔文智能组词方法被引量:6
2012年
以词间空格作为自然分隔符,非常容易获取维吾尔文中的词,但又很难获取结构完整的语义词,因此多种文本处理效果总是很不理想。提出维吾尔文组词的新概念,将数据挖掘中的频繁模式挖掘方法引入到维吾尔文组词中,再结合维吾尔文的语言文字特点,将无先验知识的模式挖掘问题转化为特定模式的匹配问题,提出了一种快速高效的频繁模式挖掘算法,来获取语义完整的维吾尔文词。实验结果表明,通过该算法获取的维吾尔文词,在结构上是稳定的,语义上是完整而独立的。
吐尔地·托合提维尼拉·木沙江艾斯卡尔·艾木都拉
关键词:分词组词
语义词特征提取及其在维吾尔文文本分类中的应用被引量:15
2014年
基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性。该文使用另外一种维吾尔文自动分词方法dme-TS。dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征。实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能。
吐尔地.托合提艾克白尔帕塔尔艾斯卡尔艾木都拉
关键词:文本分类
维吾尔文无监督自动切分及无监督特征选择被引量:3
2013年
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
吐尔地·托合提艾克白尔·帕塔尔艾斯卡尔·艾木都拉
关键词:互信息
基于互信息的维吾尔文自适应组词算法被引量:6
2013年
传统的分词方法将一个维吾尔文语义词(多词关联模式)拆分成与词意义不符的若干个片段,因此在维吾尔语文本分析及文本处理过程中导致许多问题,严重影响文本处理效率。提出了一种维吾尔文组词的全新概念,用互信息作为相邻单词间关联程度的度量,实现了基于分段式策略和增量式策略的两种自适应组词算法,并与传统的分词方法得到的词汇表进行对比分析。实验结果表明,组词算法能够非常有效地提取文本中的语义词,两种算法在大规模文本集上的组词准确率分别达到了84.31%和88.24%。
吐尔地.托合提艾克白尔帕塔尔艾斯卡尔.艾木都拉
关键词:维吾尔文互信息组词
一种结合GAAC和K-means的维吾尔文文本聚类算法被引量:4
2013年
介绍了K-means和GAAC聚类算法思想和两种特征提取方法对维吾尔文文本表示及聚类效率的影响。在较大规模文本语料库基础上,分别用K-means和GAAC的方法进行维吾尔文文本聚类实验及性能对比分析,针对经典K-means算法对初始聚类中心的过分依赖性及不稳定性缺点以及GAAC的高计算复杂性,提出了一种结合GACC和K-means的维吾尔文聚类算法。本算法分两步完成聚类操作,首先是GAAC模块从少量文本集中获取最优的初始类中心,然后是K-means模块对大量文本集进行快速聚类。实验结果表明,新算法在聚类准确率和时间复杂度上都有了显著的提高。
吐尔地.托合提艾海麦提江.阿布来提米也塞.艾尼玩艾斯卡尔艾木都拉
关键词:维吾尔文文本聚类
共1页<1>
聚类工具0