摘要:协同过滤推荐算法中的矩阵分解因其简单、易于实现,得到了广泛的应用.但是矩阵分解通过简单的线性内积建模用户和物品之间的非线性交互关系,限制了模型的表达能力.为此,He等人提出了广义矩阵分解模型,通过非线性激活函数和连接权重,将矩阵分解推广到广义矩阵分解,为模型赋予建模用户和物品间的二阶非线性交互关系的能力.但是广义矩阵分解模型是一个浅层模型,并不能很好地建模用户和物品间高阶交互关系,一定程度上可能会影响模型性能.受广义矩阵分解模型启发,提出了深度矩阵分解模型(deep matrix factorization,简称DMF),在广义矩阵分解模型的基础上引入隐藏层,利用深层神经网络来学习用户和物品间高阶交互关系.深度矩阵分解模型不仅解决了简单内积的线性问题,同时还能够建模用户和物品间的高阶交互,具有很好的表达能力.此外,在MovieLens和Anime两个数据集上进行了大量丰富的对比实验,验证了模型的可行性和有效性;同时,通过实验确定了模型的最优参数.
Abstract:Matrix factorization in collaborative filtering recommendation algorithms is widely used because of its simplicity and facility of implementation, but matrix factorization utilizes a simple linear inner product to model the non-linear interaction between the user and the item, which limits the model's expressive power. He et al. proposed a generalized matrix factorization model, which extended the matrix factorization to the generalized matrix factorization through a non-linear activation function and connection weights, and gave the model the ability to model second-order non-linear interactions between users and items. Nevertheless, the generalized matrix factorization model is a shallow model and does not model the high-order interaction between users and items, which may affect the performance of the model to a certain extent. Inspired by the generalized matrix factorization model, this study proposes a deep matrix factorization model, abbreviated as DMF. Based on the generalized matrix factorization model, a hidden layer is introduced, and a deep neural network is used to learn the higher-order interaction between users and items. The deep matrix factorization model, which has a good expression ability, not only solves the linear problem of simple inner product, but also models high-order interactions between users and items. In addition, a lot of rich comparative experiments are performed on two datasets, MovieLens and Anime, and the results confirm its feasibility and effectiveness. Meanwhile the optimal parameters of the model were determined through experiments.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/6141
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
深度矩阵分解推荐算法
本站小编 Free考研考试/2022-01-02
相关话题/实验 数据 推荐 矩阵 模型
响应时间约束的代码评审人推荐
摘要:同行代码评审,即对提交代码进行人工评审,是减少软件缺陷和提高软件质量的有效手段,已被Github等开源社区以及很多软件开发组织广泛采用.在GitHub社区,代码评审是其pull-based软件开发模型的重要组成部分.开源项目往往存在成百上千个候选评审人员,为评审工作推荐合适的评审人员是一项很有 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02编程现场上下文深度感知的代码行推荐
摘要:在软件开发的编程现场,有大量与当前开发任务相关的信息,比如代码上下文信息、用户开发意图等.如果能够根据已有的编程现场上下文给开发人员推荐当前代码行,不仅能够帮助开发人员更好地完成开发任务,还能提高软件开发的效率.而已有的一些方法通常是进行代码修复或者补全,又或者只是基于关键词匹配的搜索方法,很 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向数据特征的人机物融合服务分派方法
摘要:随着工业互联网的不断发展,大数据和人工智能促成了人机物全面互联.用户使用服务时产生的任务数据量正呈指数级增长,在为线上用户推荐服务满足个性化需求的同时,对于需要通过人机物交互完成的服务,如何整合线上和线下资源,并分派合适的人快速、有效地完成任务,也已成为一个挑战性问题.为了保证服务分派的准确性 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02噪音数据的属性选择算法
摘要:正则化属性选择算法减小噪音数据影响的效果不佳,而且样本空间的局部结构几乎没有被考虑,在将样本映射到属性子空间后,样本之间的联系与原空间不一致,导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法,可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式,这不仅能大幅度降低 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种基于广义异步值迭代的规划网络模型
摘要:近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于阈值动态调整的重复数据删除方案
摘要:云存储已经成为一种主流应用模式.随着用户及存储数据量的增加,云存储提供商采用重复数据删除技术来节省存储空间和资源.现有方案普遍采用统一的流行度阈值对所有数据进行删重处理,没有考虑到不同的数据信息具有不同的隐私程度这一实际问题.提出了一种基于阈值动态调整的重复数据删除方案,确保了上传数据及相关操 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向频繁项集挖掘的本地差分隐私事务数据收集方法
摘要:事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向大数据流的分布式索引构建
摘要:大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于着色Petri网的HDFS数据一致性建模与分析
摘要:HDFS分布式文件系统作为ApacheHadoop的核心组件之一,在工业界得到了广泛应用.HDFS采用了多副本机制保证数据的可靠性,但是由于多副本的存在,在节点失效、网络中断、写入失败时可能会导致数据不一致.与传统文件系统相比,HDFS被认为其数据一致性有所降低,但用户并不知道何时会出现不一致 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02构建新型高性能与高可用的键值数据库系统
摘要:近年来,写密集型应用程序越来越普遍.如何有效地处理这种工作负载,是数据库系统领域深入研究的方向之一.写操作开销主要由以下两个方面的因素构成:(1)硬件级别,即写操作引起的I/O,目前无法在短时间内消除这种开销;(2)软件开销,即修改内存数据拷贝以及构造日志记录造成的多次写操作.日志即数据(lo ...中科院软件研究所 本站小编 Free考研考试 2022-01-02