您的位置: 专家智库 > >

杨萌萌

作品数:3 被引量:20H指数:2
供职机构:新疆大学信息科学与工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 3篇中文期刊文章

领域

  • 3篇自动化与计算...
  • 1篇电子电信

主题

  • 1篇对话文本
  • 1篇时长
  • 1篇说话人识别
  • 1篇说话人识别算...
  • 1篇主题模型
  • 1篇文本
  • 1篇文本分类
  • 1篇向量
  • 1篇向量空间
  • 1篇向量空间模型
  • 1篇口语
  • 1篇口语对话系统
  • 1篇话文
  • 1篇VECTOR
  • 1篇VSM
  • 1篇K近邻
  • 1篇LDA
  • 1篇I
  • 1篇NEIGHB...

机构

  • 3篇新疆大学

作者

  • 3篇黄浩
  • 3篇杨萌萌
  • 2篇马平

传媒

  • 1篇计算机工程与...
  • 1篇现代电子技术
  • 1篇新疆大学学报...

年份

  • 3篇2016
3 条 记 录,以下是 1-3
排序方式:
基于LDA主题模型的短文本分类被引量:18
2016年
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。
杨萌萌黄浩程露红马平包武杰
基于词嵌入扩充的口语对话文本领域分类
2016年
针对口语对话系统领域分类任务中传统领域分类方法如SVM需要进行大量人工标注的问题,将LDA(Latent Dirichlet Allocation)模型应用于口语对话系统领域分类;针对口语对话内容少、长度短、数据稀疏等问题,在LDA模型基础上提出了基于词嵌入文本扩充的口语对话系统领域分类方法.该方法主要特点是:1)使用词嵌入方法word2vec对类似于短文本的语音识别后的口语对话文本进行语义扩充,将短文本转化为长文本,使主题模型LDA更加有效地估计口语对话文本的隐含主题;2)采用无监督的概率生成模型LDA对扩充后的口语对话文本进行建模以及领域分类,从而降低人工标注成本.实验结果表明,与直接使用LDA模型进行口语对话系统领域分类方法对比,适当扩充长度的word2vec文本扩充方法在口语对话系统领域分类中的平均准确率、平均召回率和平均F1值分别提高了26.1%、25.5%、27.2%,且该方法具有一定的鲁棒性..
杨萌萌黄浩
关键词:口语对话系统主题模型
基于i-vector说话人识别算法中训练时长研究被引量:2
2016年
为了进一步提升i-vector说话人识别模型的系统性能,探讨了基于i-vector的说话人识别系统中训练时长、男女比例和高斯混合度对系统识别性能的影响。针对训练时长、男女比例和高斯混合度设置了一组实验,结合目前最流行的语音识别工具Kaldi进行验证,得出i-vector说话人识别算法的最佳参数,为以后的基于i-vector说话人识别算法研究提供数据依据。
马平黄浩程露红杨萌萌
关键词:说话人识别
共1页<1>
聚类工具0