您的位置: 专家智库 > >

山东省自然科学基金(ZR2012FM016)

作品数:5 被引量:7H指数:1
相关作者:张巍王永远魏晓艳郭振波云红艳更多>>
相关机构:中国海洋大学青岛大学更多>>
发文基金:山东省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信水利工程更多>>

文献类型

  • 5篇期刊文章
  • 1篇会议论文

领域

  • 3篇自动化与计算...
  • 2篇电子电信
  • 1篇水利工程

主题

  • 2篇对齐
  • 2篇语音
  • 1篇多语种
  • 1篇隐含
  • 1篇有限状态自动...
  • 1篇语言模型
  • 1篇语音合成
  • 1篇语音库
  • 1篇语音识别
  • 1篇噪声
  • 1篇知识管理
  • 1篇知识管理系统
  • 1篇视点
  • 1篇视觉信息
  • 1篇数据抽取
  • 1篇篇幅
  • 1篇切分
  • 1篇切分算法
  • 1篇中文
  • 1篇状态自动机

机构

  • 6篇中国海洋大学
  • 1篇青岛大学

作者

  • 4篇张巍
  • 2篇王永远
  • 1篇徐建良
  • 1篇云红艳
  • 1篇李琳琳
  • 1篇郭振波
  • 1篇李娜
  • 1篇贾晓茹
  • 1篇魏晓艳
  • 1篇邹晓明

传媒

  • 3篇中国海洋大学...
  • 1篇计算机应用
  • 1篇中国科技信息

年份

  • 1篇2017
  • 2篇2015
  • 1篇2014
  • 2篇2013
5 条 记 录,以下是 1-6
排序方式:
基于视觉信息和标签路径的数据抽取
2015年
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的。
张巍邹晓明谈凤真
关键词:DEEPWEB数据抽取视觉信息
无标注的含噪中文长篇幅语音文本的文语对齐研究被引量:1
2015年
文语对齐技术是语音识别领域中的一项关键技术。传统文语对齐方法利用语音识别器将文语对齐问题转换成了文本与文本的对齐问题,但是该方法依赖于大量有标注数据训练的声学模型。本文提出一种利用开放识别引擎和基于有限状态自动机的语言模型来得到语音与文本一一对齐数据的算法,来摆脱对于大量标注数据的依赖。实验表明利用该算法得到语音文本数据的准确率为99%,可以用于识别器的训练。接着利用该部分数据训练一个面向要识别领域的声学模型,来对文本和语音进行迭代的,自适应的文语对齐。
张巍王永远贾晓茹李传越
关键词:有限状态自动机语言模型语音识别
基于隐含狄利克雷分布的多语种文本的自动检测研究
2017年
本文提出无监督的基于隐含狄利克雷分布(LDA)的潜在语义模型来处理多语种混合文本的语种鉴别问题。区别于一般的依据困惑度对模型进行筛选的方法,本文介绍一种基于最小描述长度(MDL)的新方法,用collapsed Gibbs Sampling(CGS)学习算法来训练得到相应的LDA模型。本文采用mitlm工具包生成N-gram计数文件并构建了用于多语种识别的字符级语言模型。之后本文使用了3种不同的语种鉴别系统与LDA模型做对比实验。实验选取ECI/MCI标准数据库中9种欧洲系语言进行鉴别实验,在没有任何标注的情况下,实现了较好的准确率和召回率结果。
张巍李雯陈丹李增杰
关键词:最小描述长度GIBBS抽样
海洋生态本体建模被引量:5
2014年
分析海洋生态领域知识体系特点,提出了海洋生态知识组织模型;借鉴工程领域文献中的"功能"概念描述海洋生态功能过程;参照已有研究提出的功能知识表示框架,确定"设备功能"视点,提出海洋生态领域上层本体,指导构建了海洋生态本体模型和海洋生态形式化本体。扩展基于描述逻辑的Web本体语言OWL-DL,提出了面向过程的OWL-Process模型,构建了海洋生态功能过程-光合作用过程本体的实例。基于海洋生态本体设计开发了海洋生态知识管理系统,实现了海洋生态领域知识的查询和生态危机预警功能,该本体应用系统也验证了海洋生态领域本体构建的有效性、合理性和正确性。
云红艳徐建良郭振波魏晓艳
高准确度无标注的句子切分算法的研究
高准确度,无标注的句子自动切分方法是快速构建大型语音语料库技术的核心。本文提出了一种将基于隐马尔科夫模型(HMM)的强制对齐技术(Force-alignment)和半监督学习的方法(Coraining)相融合的新的句子自...
张志楠李琳琳张巍
关键词:半监督学习
麦克风自适应算法在鲁棒语音合成中的应用研究被引量:1
2013年
随着语音合成技术的迅速发展,如何利用网络上易获取的语音代替高成本的纯净语料库,成为了当下降低语音合成成本的关键问题。然而这些网络语音极有可能包含由未知麦克风变化所带来的噪声或者波动情况。为了解决这个问题,本文针对网络语音麦克风因素多变性所引起的噪声情况进行了分析,并且比较了三种麦克风自适应方法对于降低麦克风噪声因素对合成语音的效果。实验结果表明,对含噪声语音库进行麦克风自适应处理后,其合成语音的自然度有了明显提升。
李娜李琳琳王永远
共1页<1>
聚类工具0