陈鹏
- 作品数:2 被引量:8H指数:2
- 供职机构:华中师范大学计算机学院更多>>
- 发文基金:中央高校基本科研业务费专项资金国家自然科学基金国家语委科研项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于词向量与可比语料库的双语词典提取研究被引量:4
- 2018年
- 双语词典是跨语言信息检索以及机器翻译等自然语言处理应用中的一项重要资源。现有的基于可比语料库的双语词典提取算法不够成熟,抽取效果有待提高,而且大多数研究都集中在特定领域的专业术语抽取。针对此不足,提出了一种基于词向量与可比语料库的双语词典提取算法。首先给出了该算法的基本假设以及相关的研究方法,然后阐述了基于词向量利用词间关系矩阵从可比语料库中提取双语词典的具体步骤,最后将该抽取方法与经典的向量空间模型做对比,通过实验分析了上下文窗口大小、种子词典大小、词频等因素对两种模型抽取效果的影响。实验表明,与基于向量空间模型的方法相比,本算法的抽取效果有着明显的提升,尤其是对于高频词语其准确率提升最为显著。
- 柳路芳李波陈鹏周凌寒王兵
- 关键词:双语词典可比语料库
- 基于可比语料库的双语词典抽取方法比较研究被引量:4
- 2017年
- 双语词典是一种重要的语言资源,但现有的基于可比语料库的双语词典抽取方法在体系结构、所依赖的基础性资源等方面差异较大,这使得在统一的实验条件下对各种算法进行比较变得很困难.因此,目前的研究工作多选择将性能评测任务限定在很狭小的范围内,缺乏统一的评测结果给双语词典抽取任务的发展和算法的选择带来一定困难.为解决上述问题,选取并实现了四种代表性的双语词典抽取方案,在统一的测试数据集上进行比较研究.在比较研究中,我们重点揭示了词典抽取任务中几种关键因素如语料库大小、训练词典大小等对各算法性能的不同影响程度.本文的结论对今后相关工作中的实验设计、性能比较与算法选用都具有重要的理论意义和实践价值.
- 李舰李波陈鹏杨丹
- 关键词:可比语料库