黄浩
- 作品数:81 被引量:113H指数:5
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金博士科研启动基金新疆维吾尔自治区自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信文化科学经济管理更多>>
- 语音处理技术在语言及任务的扩展应用研究
- 本文报告近年来新疆维吾尔自治区多语种技术重点实验室以维-哈-蒙等语言为研究对象开展的语音技术研究工作。科研项目有:电话语音说话人识别;连续语音识别及语音翻译技术等。经初步测试,基于GMM-UBM&SVM的维吾尔语自由式发...
- 伊·达瓦黄浩那斯尔江吾守尔
- 关键词:说话人识别连续语音识别
- 文献传递
- 基于时域的基频感知语音分离方法被引量:2
- 2022年
- 传统的单通道语音分离方法主要采用混音作为输入,对其进行分离得到目标说话人的语音.最近的研究表明,将预估计的基频信息注入到原始混音信号中能够提高分离效果,但这种方法最初应用于时频域.近年来,基于时域的语音分离方法已经被验证优于早期的时频域分离方法.基于上述出发点,本文提出基于辅助基频的时域语音分离方法.该方法首先将时域信号输入预分离模块生成预分离语音,并从预分离语音中提取基频;然后将提取的基频与原始混音拼接,作为后分离模块的输入进行第二次分离.本文评估了不同的基频提取方法和训练策略.语音分离实验结果表明:在训练后分离模块时,先使用理想基频与混音融合训练一个理想分离网络,然后用RAPT方法对预分离源提取估计基频注入混音,再进行理想分离网络的微调,能够获得最佳的语音分离性能,比Conv-TasNet基线方法提高了0.5 dB.这说明显式地注入辅助基频信息不仅在时频域语音分离中表现出了有效性,同时也适用于时域语音分离.
- 王凯李鸣鹤黄志华黄浩
- 关键词:语音分离单通道基频时域
- 区分性模型组合中基于决策树的声学上下文建模方法被引量:1
- 2012年
- 上下文相关的区分性模型组合的局限在于引入大的模型权重参数集,在数据有限时容易导致区分性权重训练过拟合.针对该问题,本文提出利用决策树进行上下文建模,采用最小音子错误准则构建决策树以获得最优上下文相关权重参数集.决策树构造过程中通过评估目标函数的一阶近似增量来加速最优问题集的选择,并利用精细问题集来获得更好的声学区分能力.基于多模型组合的语音识别实验表明,该方法能够增强权重训练对过拟合的鲁棒性,在大幅减小参数数量的情况下降低误识率,并优于在特征空间进行组合的方法.
- 黄浩李兵虎吾守尔.斯拉木
- 关键词:上下文建模语音识别
- 一种基于神经网络的端到端声调识别方法
- 本发明公开了一种基于神经网络的端到端声调识别方法,包括:构建端到端声调识别模型,确定神经网络的层数、隐含层节点数等所需的各项超参数;在训练集上训练语音识别声学模型,利用强制对齐获得每个音节的开始和结束时间;将选取的训练语...
- 黄浩王凯胡英
- 基于深度神经网络的维吾尔语语音识别被引量:13
- 2015年
- 目前的语音识别主要采用隐马尔可夫模型去实现,考虑三音子后,模型参数巨增,在训练数据有限的状态下,模型参数得不到很好的训练,影响语音识别率。为提高语音识别率,提出基于深度神经网络的语音识别方法。以kaldi为测试平台,对一个含有4隐层的神经网络进行训练,利用该模型进行维吾尔语语音识别。实验结果表明,相比基本单音子隐马尔科夫模型和考虑三音子后的隐马尔科夫模型,深度神经网络模型使维吾尔语语音识别错误率分别降低了31.09%和8.68%,且现存一切模型优化算法在此模型中依然有效。
- 其米克.巴特西黄浩王羡慧
- 关键词:语音识别三音子
- 基于卷积非负矩阵部分联合分解的强噪声单声道语音分离被引量:3
- 2020年
- 非负矩阵部分联合分解(Nonnegative matrix partial co-factorization,NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解,以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix factorization,CNMF)采用卷积基分解的方法进行矩阵分解,在单声道语音分离方面取得较好的效果.为了实现强噪声条件下的语音分离,本文结合以上两种算法的优势,提出一种基于卷积非负矩阵部分联合分解(Convolutive nonnegative partial matrix co-factorization,CNMPCF)的单声道语音分离算法.本算法首先通过基音检测算法得到混合信号的语音起始点,再据此确定混合信号中的纯噪声段,最后将混合信号频谱和噪声频谱进行卷积非负矩阵部分联合分解,得到语音基矩阵,进而得到分离的语音频谱和时域信号.实验中,混合语音信噪比(Signal noise ratio,SNR)选择以¡3 dB为间隔从0 dB至¡12 dB共5种SNR.实验结果表明,在不同噪声类型和噪声强度条件下,本文提出的CNMPCF方法相比于以上两种方法均有不同程度的提高.
- 董兴磊胡英黄浩吾守尔·斯拉木
- 关键词:语音分离强噪声单声道
- 自动发音错误检测中基于F_1值最大化的声学模型训练方法被引量:3
- 2013年
- 为了提高计算机辅助语言学习中自动发音错误检测系统的性能,提出一种声学模型的区分性训练方法。该方法将经过正确度标注的非母语语音数据库上的发音错误检测的F_1值的最大化作为模型参数的训练准则。采用Sigmoid函数对F_1值函数进行平滑构造目标函数,并利用构造弱意义辅助函数的方法以及扩展Baum-Welch形式的参数更新公式进行优化。提出在模型参数更新与音素门限同时优化的策略保证目标函数增长的单调性。发音错误检测实验表明该方法能够有效地增大训练和测试数据检错的F_1值。同时训练数据和测试数据上的精确度、召回率以及检测正确度都有明显改进。
- 黄浩王建明哈力旦.阿布都热依木吾守尔.斯拉木
- 关键词:声学模型最大化发音SIGMOID函数模型参数目标函数
- 汉语语音识别中区分性声调模型及最优集成方法(英文)
- 2007年
- 提出了2种解决汉语语音识别中声调问题的方法:利用区分性方法对基于隐马尔可夫模型(HMM)的声调模型进行训练;提出将区分性训练的声调模型加入大词汇量连续语音识别系统的最优方法,该方法根据最小音子错误的训练准则以及利用扩展Baum-Welch算法区分性训练与模型相关的概率权重,对声学模型以及声调模型概率进行加权.实验结果表明区分性训练的声调模型能够显著地提高连续语音声调识别率以及大词汇量语音识别系统的识别率,同时区分性的模型权重训练能够在区分性声调模型加入连续语音识别系统之后进一步提高系统的识别性能.
- 黄浩朱杰
- 关键词:汉语语音识别
- 一种基于音素嵌入的语音识别方法
- 本发明公开了一种基于音素嵌入的语音识别方法,方法包括:将m+n层的编码器Encoder的前m层当作声学模型,用于音素信息学习,可使用目标语言数据和其他语种数据训练声学模型;后n层和解码器Decoder当作语言模型,可以结...
- 黄浩杨宇航
- 一种改进的GOP算法在区分性训练的应用被引量:1
- 2014年
- 自动发音错误检错中基于最大化F1值的区分性训练方法是最近提出来的一种声学模型训练方法,该方法能够有效增大发音检错系统中的训练和测试数据检错的F1值。对发音质量评估方法上进行研究,提出一种改进的GOP算法来替代传统的GOP算法,改进GOP算法把传统地GOP算法的先求后验概率再求时间归一化改变成先求时间归一化再求后验概率。根据改进GOP算法给出了使用改进GOP算法最大F1准则的参数更新公式,发音检错实验结果表明基于改进的GOP算法的最大F1值准则训练较使用传统的GOP算法具有过训练抑制性好,在训练机上较低的目标函数值上能达到较高的测试集上的F1值等较好的性能。
- 热米拉.艾山江黄浩