分布式计算有很多应用需要参与各方协同执行集合的一些计算但不泄露各自数据集的信息.保密集合交集(private set intersection,PSI)计算已经成为数据匹配、数据挖掘、推荐系统等应用中保护用户隐私的一个重要工具.本文的主要工作是构造无匹配差错的安全两方保密集合交集运算协议.着重探讨三个问题:(1)开发构造无匹配差错的两方保密集合交集计算所需要的工具(①面向有理数且具有语义安全性的加密方案,②便于集合匹配计算的称之为集合的定长向量编码方法);(2)无匹配差错的两方保密集合交集计算问题;(3)元素为有理数的保密集合交集计算问题.首先在标准模型下设计了一个能够加密有理数的方案,并证明了该方案能抗自适应性地选择明文攻击;而后又提出了一种便于集合匹配计算的,称之为集合的定长向量编码方法;最后基于有理数加密方案和集合的定长向量编码方法构造了两个面向有理数的、无匹配差错的两方保密集合交集协议.与先前的两方保密集合交集协议相较之,这两个协议不仅解决了无匹配差错的两方保密集合交集计算,还拓展了保密集合交集问题中隐私保护的范畴:除了可以保护各参与方的隐私数据外,还可以保护各参与方隐私数据的数量.
针对传统的群组推荐预定义策略过于单一,忽视用户与项目之间的交互性,无法捕捉时间推移所造成的用户偏好迁移等问题,提出一种融合时间序列和注意力机制的群组推荐模型TAGR(time-attitation group rememdation)。首先通过层次聚类划分出高相似度群组,其次引入时间序列模型来捕捉用户偏好迁移过程,获取每个时刻用户行为的兴趣偏好,并聚合各时刻兴趣偏好作为用户偏好。最后结合注意力机制,获得用户权重进行偏好融合来表示群组偏好,最终作为推荐模型的输入。通过在Goodbook与MovieLens数据集上与NCF、AGREE等模型进行对比,TAGR在归一化折扣累计增益和命中率2个指标上都得到了显著提高。
在文旅领域智能问答中,用户问句文本表征稀疏、口语化表达、一词多义及特定领域词汇的识别困难使得常见的匹配模型难以将用户问句与标准问句进行精准匹配。针对此问题,本文构建了文旅客服问句匹配数据集和相应的领域词典,在此基础上提出一种融合领域词典的文旅问句匹配模型SBIDD(Improved SBERT Model for Integrating Domain Dictionaries)。模型利用Sentence-BERT对问句进行向量化表示,在孪生网络模型中融入领域词典,增强问句的领域词权重,使得模型对领域词汇的识别能力大幅提升。在自建数据集和公开数据集ATEC 2018 NLP上分别进行实验。结果表明,构建的模型与5种经典文本匹配模型DSSM、BiMPM、ESIM、IMAF、TSFR-RM及基线模型SBERT相比效果更优,F1值达到95.65%,比基线模型提升了2.75%,且模型在检索任务上表现出更高的适配性和鲁棒性。