语料库是自然语言处理NLP(natural language processing)的基础,其标注质量影响着基于有指导机器学习方法的NLP系统的性能。针对汉语句法树库,提出了一种基于不一致查找树库潜在标注错误的方法,该方法主要从两方面进行不一致检测:一是从类似短语内部构成并结合可疑度来检测不一致;二是从标注大纲入手,检测词性、短语等各类标记符号与大纲定义不符合的情况。实验结果表明,在查找到的不一致现象中,存在一定数量的语料库标注错误。
时间关系的识别成为近年来自然语言处理领域(nature language processing,NLP)的一个研究热点。引入时间片段和主题片段这两种比事件触发词粒度粗的语义单元进行时间关系识别,首先在文本中利用一些时间篇章特点识别时间片段,然后利用相似度计算与支持向量机(support vector maehine,SVM)模型相结合的方法识别主题片段,最后在主题片段范围内,以时间片段为排序对象,使用最大熵分类模型识别时间关系。在TempEval-2010的汉语语料上进行实验,得到的时间关系识别宏平均精确率为60.09%。实验结果表明:引入时间片段后可有效减少不必要的事件时序关系的识别;同时,在主题片段的约束下所得到的时间关系更简洁、语义逻辑性更好。