广东省哲学社会科学“十二五”规划项目(CD13CTS01)
- 作品数:5 被引量:52H指数:5
- 相关作者:聂卉王佳佳容哲更多>>
- 相关机构:中山大学更多>>
- 发文基金:广东省哲学社会科学“十二五”规划项目更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于特征表现的虚假评论人预测研究被引量:10
- 2015年
- [目的/意义]重点探讨基于特征表现的虚假评论人的预测,目的在于揭示真实网络环境中"网络水军"的特点和行为规律,构建一个简洁清晰、可解释的评论人身份预测模型,为深层次的评论挖掘研究奠定基础。[方法/过程]结合实证分析和机器学习技术,对目标网站"大众点评网"的内部评价机制进行探索,利用因子分析提炼评论人属性及行为表现特征,并在此基础上构建基于Logistic回归的预测模型。[结果/结论]对于目标网站,模型对虚假评论人的分类预测精度达到73.8%,AUC指标达到80.9%。而评论人的贡献度、活跃度以及文字素养被验证与其身份有统计意义上的显著关系,但评论人的层级、情绪以及评价偏差则对其身份预测的影响不显著。实验结论和经验分析基本保持一致,模型能够被合理解释。
- 聂卉吴毅骏
- 依存句法模板下的商品特征标签抽取研究被引量:9
- 2014年
- 【目的】面向在线商品评论,通过探索"产品特征–观点"对应关系的识别方法,抽取商品特征标签,凝练评论精华。在网络资讯良莠混杂的环境下,帮助用户有效获得有价值的资讯。【方法】引入依存语法关系,对评论模板实现自动分类、过滤、泛化并形成模板库。基于模板库和外部词典提取特征标签,同时确立候选标签的筛选过滤机制。【结果】面向真实的网络评论集,本文方法的性能优于单纯过滤与泛化的抽取方法。F值最优达到56.5%,调整参数后,准确率达到65%。【局限】需要在特征抽取前依据评论语句质量进行前期过滤,考虑特征词库的自动化获取,在模板形成过程中,还需添加更多的句法关系,进一步提高特征标签的抽取准确度。【结论】单纯依据句法模板频率进行模板过滤的方法有提升空间。特征抽取过程考虑模板的长度特征,设定抽取窗口,对特征标签进行筛选、合并特征能获取更好的抽取结果。
- 聂卉杜嘉忠
- 关键词:依存句法分析
- 基于内容分析的用户评论质量的评价与预测被引量:20
- 2014年
- 以获取高质量的用户评论为直接目标,研究评论质量的评估和"有用评论"的自动识别。主要从评论内容的语言特征、语义内容、情感倾向等多个特征维度来探索文本特征对用户可感知的效用的影响力,采用深层次的文本内容分析技术提取特征指标,并结合计量分析和机器学习方法验证指标的科学性,设计可行的面向效用价值的预测模型。研究证明,依据评论内容可有效探测评论质量,辨识高质量评论,提高评论的效用价值。
- 聂卉
- 关键词:用户生成内容文本挖掘情感分析
- 面向评论效用评估的文本情感特征提取被引量:5
- 2015年
- 【目的】探测情感词典匹配方法以及机器学习方法抽取的情感特征对评论效用的预测作用。【方法】采用情感词典匹配法和机器学习分类法抽取评论情感特征。针对语料构建情感词典,设计合理匹配算法,探测最佳情感分类模型,采用随机森林算法取不同情感特征组合对评论效用价值进行预测。【结果】结合两种情感分析方法对评论效用预测效果最好。其中情感词典匹配方法所得的评论情感均值和评论情感波动能有效识别评论效用,效果优于机器学习方法。【局限】只针对搜索型商品的评论数据,缺乏对体验型商品评论的相应分析,研究数据的覆盖面存在局限。【结论】情感词典匹配法结合机器学习法能有效识别评论效用。
- 聂卉容哲
- 关键词:情感分析情感词典
- 产品评论垃圾识别研究综述被引量:11
- 2014年
- 【目的】对在线产品评论垃圾识别的研究工作进行梳理,总结研究现状,明确发展方向。【文献范围】从CNKI及Google Scholar中以"评论垃圾"、"review/opinion spam"等为检索词筛选获得国内外近50篇相关文献。【方法】采用文献分析法。界定产品评论垃圾的概念,明晰评论垃圾所属的研究范畴;总结产品评论垃圾识别研究中的关键问题及研究进展。【结果】产品评论垃圾指故意过分吹捧或贬低某种产品的不真实评论以及不包含任何有益成分的非相关在线网络评论。研究中存在虚假评论标注集难获取的问题,强调评论人行为特征的分析,提出融合评论人特征来解决评论垃圾识别的研究思路。【局限】应结合产品评论垃圾的识别对用户评论可信度进行更深入的分析。【结论】评论垃圾识别是评论可信性研究的应用体现。辩识评论内容的真伪要充分挖掘评论内容、评论人等多个维度的识别特征。同时,考虑到众多特征的相互独立性,应挖掘有显著影响作用的特征因素。
- 聂卉王佳佳