基于双向LSTM语义强化的主题建模

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-02

摘要当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA)。该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档—主题和词汇—词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2547

相关话题/概率 数据 实验 新闻 过程

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
儿童外语学习认知数据收集的在线游戏框架
摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于神经网络的体育新闻自动生成研究
摘要面向体育比赛的大规模直播脚本快速及时地反映了比赛的实时进程,但依靠体育新闻记者来据此人工撰写新闻报道往往耗时费力。鉴于此,该文提出了一种自动生成体育直播脚本所对应的体育新闻的神经网络模型,该模型在一定程度上避免了传统模型过于依赖人工选择特征的局限性,同时还能综合考虑脚本中句子级局部信息与全局信息 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
MHW蒙古文脱机手写数据库及其应用
摘要建立公开、权威的蒙古文手写数据库是研究和开发蒙古文手写识别系统的基础。该文在蒙古文编码、构词和语法的研究基础上,公开了一个蒙古文大词汇量脱机手写数据库MHW,其中训练集由5000个单词构成,每个词采集了20个样本,共包含10万样本,测试集Ⅰ包含5000样本,测试集Ⅱ包含14085样本。该文利用蒙 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
开源社区评审过程度量体系及其实证研究
摘要:在开源社区中，不同开发人员提交的代码水平参差不齐，需要代码评审检查提交代码质量.决策者是代码评审的关键人物，审核提交代码，发现软件缺陷.代码评审情况会对开源软件质量产生影响，因此需要建立评审过程度量体系，了解代码评审情况，促进提高开源软件项目质量.现有的软件过程度量方法主要考虑提交代码和评审评 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
全委托的公共可验证的外包数据库方案
摘要:为解决可验证外包数据库方案存在的预处理阶段开销较大及不支持公共可验证的问题，提出了一个全委托的公共可验证的外包数据库模型.给出了模型的架构及交互流程，对模型进行了形式化定义，并给出了模型的正确性定义和安全性定义.利用双线性映射及可验证外包模幂运算协议，构建了一个全委托的公共可验证外包数据库方案 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于动态赋权近邻传播的数据增量采样方法
摘要:数据采样是快速提取大规模数据集中有用信息的重要手段，为更好地应对越来越大规模的数据高效处理要求，借助近邻传播算法的优异性能，通过引入分层增量处理和样本点动态赋权策略，实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合；而样 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
面向数据特征的人机物融合服务分派方法
摘要:随着工业互联网的不断发展，大数据和人工智能促成了人机物全面互联.用户使用服务时产生的任务数据量正呈指数级增长，在为线上用户推荐服务满足个性化需求的同时，对于需要通过人机物交互完成的服务，如何整合线上和线下资源，并分派合适的人快速、有效地完成任务，也已成为一个挑战性问题.为了保证服务分派的准确性 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
噪音数据的属性选择算法
摘要:正则化属性选择算法减小噪音数据影响的效果不佳，而且样本空间的局部结构几乎没有被考虑，在将样本映射到属性子空间后，样本之间的联系与原空间不一致，导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法，可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式，这不仅能大幅度降低 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
基于阈值动态调整的重复数据删除方案
摘要:云存储已经成为一种主流应用模式.随着用户及存储数据量的增加，云存储提供商采用重复数据删除技术来节省存储空间和资源.现有方案普遍采用统一的流行度阈值对所有数据进行删重处理，没有考虑到不同的数据信息具有不同的隐私程度这一实际问题.提出了一种基于阈值动态调整的重复数据删除方案，确保了上传数据及相关操 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
面向频繁项集挖掘的本地差分隐私事务数据收集方法
摘要:事务数据常见于各种应用场景中，如购物记录、页面浏览历史等.为了提供更好的服务，服务提供商收集用户数据并进行分析，但收集事务数据会泄露用户的隐私信息.为了解决上述问题，基于压缩的本地差分隐私模型，提出一种事务数据收集方法.首先，定义了一种新的候选项集分值函数；其次，基于该函数，将候选项集的样本空 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02