删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

中文笑话语料库的构建与应用

本站小编 Free考研考试/2022-01-02

摘要笑话作为国家级非物质文化遗产,历史悠久,普遍存在于人们的日常生活中,是最贴近人们生活的艺术体裁之一,笑话的理解也是人工智能发展需要攻克的难题之一。该文构建的大规模中文笑话语料库为人工智能以及语言学研究提供了有利的资源支撑。该文首先归纳总结笑话语料库所依据的笑话相关理论基础,然后对语料库构建中语料标注、语料分析等工作做了详细的介绍,最后在语料库的基础上,分别将笑话与故事、微博、歇后语/谚语以及新闻四种体裁分别做了识别工作,验证了笑话简洁、具有一定的情节、富含情感等特征。同时通过与等长的负例构成的数据集进行笑话识别,验证了所提出特征的有效性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2594
相关话题/工作 资源 数据 生活 艺术

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于数据增强技术的神经机器翻译
    摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...
    本站小编 Free考研考试 2022-01-02
  • 基于数据并行的神经语言模型多卡训练分析
    摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...
    本站小编 Free考研考试 2022-01-02
  • 现代汉语形容词资源库的构建
    摘要形容词与名词、动词构成汉语实词的主体组成部分,在句法上表现出对“名词”的极度依赖,其核心功能是在概念层面上,在认知注意机制的调适作用下对名词的特征进行“评价”。该文主要叙述汉语形容词知识库构建的相关工作。首先是考察已有的形容词的收词情况,并结合语言演变中新产生的形容词,构建了一个较为全面的形容词 ...
    本站小编 Free考研考试 2022-01-02
  • 儿童外语学习认知数据收集的在线游戏框架
    摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...
    本站小编 Free考研考试 2022-01-02
  • MHW蒙古文脱机手写数据库及其应用
    摘要建立公开、权威的蒙古文手写数据库是研究和开发蒙古文手写识别系统的基础。该文在蒙古文编码、构词和语法的研究基础上,公开了一个蒙古文大词汇量脱机手写数据库MHW,其中训练集由5000个单词构成,每个词采集了20个样本,共包含10万样本,测试集Ⅰ包含5000样本,测试集Ⅱ包含14085样本。该文利用蒙 ...
    本站小编 Free考研考试 2022-01-02
  • 全委托的公共可验证的外包数据库方案
    摘要:为解决可验证外包数据库方案存在的预处理阶段开销较大及不支持公共可验证的问题,提出了一个全委托的公共可验证的外包数据库模型.给出了模型的架构及交互流程,对模型进行了形式化定义,并给出了模型的正确性定义和安全性定义.利用双线性映射及可验证外包模幂运算协议,构建了一个全委托的公共可验证外包数据库方案 ...
    本站小编 Free考研考试 2022-01-02
  • 基于动态赋权近邻传播的数据增量采样方法
    摘要:数据采样是快速提取大规模数据集中有用信息的重要手段,为更好地应对越来越大规模的数据高效处理要求,借助近邻传播算法的优异性能,通过引入分层增量处理和样本点动态赋权策略,实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合;而样 ...
    本站小编 Free考研考试 2022-01-02
  • 面向数据特征的人机物融合服务分派方法
    摘要:随着工业互联网的不断发展,大数据和人工智能促成了人机物全面互联.用户使用服务时产生的任务数据量正呈指数级增长,在为线上用户推荐服务满足个性化需求的同时,对于需要通过人机物交互完成的服务,如何整合线上和线下资源,并分派合适的人快速、有效地完成任务,也已成为一个挑战性问题.为了保证服务分派的准确性 ...
    本站小编 Free考研考试 2022-01-02
  • 噪音数据的属性选择算法
    摘要:正则化属性选择算法减小噪音数据影响的效果不佳,而且样本空间的局部结构几乎没有被考虑,在将样本映射到属性子空间后,样本之间的联系与原空间不一致,导致数据挖掘算法的效果不能令人满意.提出一个抗噪音属性选择方法,可以有效地解决传统算法的这两个缺陷.该方法首先采用自步学习的训练方式,这不仅能大幅度降低 ...
    本站小编 Free考研考试 2022-01-02
  • 面向频繁项集挖掘的本地差分隐私事务数据收集方法
    摘要:事务数据常见于各种应用场景中,如购物记录、页面浏览历史等.为了提供更好的服务,服务提供商收集用户数据并进行分析,但收集事务数据会泄露用户的隐私信息.为了解决上述问题,基于压缩的本地差分隐私模型,提出一种事务数据收集方法.首先,定义了一种新的候选项集分值函数;其次,基于该函数,将候选项集的样本空 ...
    本站小编 Free考研考试 2022-01-02