删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

多模态视觉语言表征学习研究综述

本站小编 Free考研考试/2022-01-02

摘要:我们生活在一个由大量不同模态内容构建而成的多媒体世界中,不同模态信息之间具有高度的相关性和互补性,多模态表征学习的主要目的就是挖掘出不同模态之间的共性和特性,产生出可以表示多模态信息的隐含向量.主要介绍了目前应用较广的视觉语言表征的相应研究工作,包括传统的基于相似性模型的研究方法和目前主流的基于语言模型的预训练的方法.目前比较好的思路和解决方案是将视觉特征语义化,然后与文本特征通过一个强大的特征抽取器产生出表征,其中,Transformer作为主要的特征抽取器被应用表征学习的各类任务中.分别从研究背景、不同研究方法的划分、测评方法、未来发展趋势等几个不同角度进行阐述.



Abstract:A multimedia world in which human beings live is built from a large number of different modal contents. The information between different modalities is highly correlated and complementary. The main purpose of multi-modal representation learning is to mine the different modalities. Commonness and characteristics produce implicit vectors that can represent multimodal information. This article mainly introduces the corresponding research work of the currently widely used visual language representation, including traditional research methods based on similarity models and current mainstream pre-training methods based on language models. The current better ideas and solutions are to semanticize visual features and then generate representations with textual features through a powerful feature extractor. Transformer is currently used in various tasks of representation learning as the mainstream network architecture. This article elaborates from several different angles of research background, division of different studies, evaluation methods, future development trends, etc.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6125
相关话题/视觉 信息 语言 生活 介绍

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于知识的零样本视觉识别综述
    摘要:零样本学习旨在通过运用已学到的已知类知识去认知未知类.近年来,“数据+知识驱动”已经成为当下的新潮流,而在计算机视觉领域内的零样本任务中,“知识”本身却缺乏统一明确的定义.针对这种情况,尝试从知识的角度出发,梳理了本领域内“知识”这一概念所覆盖的范畴,共划分为初级知识、抽象知识以及外部知识.基 ...
    本站小编 Free考研考试 2022-01-02
  • 基于硬件分支信息的ROP攻击检测方法
    摘要:控制流完整性保护技术(controlflowintegrity,简称CFI)是防御面向返回编程攻击(return-orientedprogramming,简称ROP)的一种有效途径.针对现有CFI中存在的四大问题:性能开销大、依赖程序代码信息、容易遭受历史刷新攻击以及规避攻击,提出了基于硬件分 ...
    本站小编 Free考研考试 2022-01-02
  • 基于视觉显著性的AMOLED显示器多区域功耗优化
    摘要:AMOLED显示器作为嵌入式设备的高功耗组件,其功耗由显示内容中所有像素点的像素值决定;同时,人类视觉系统通过视觉关注机制对显示内容的重要区域优先解读,对非重要区域关注较低.基于上述特性,提出基于视觉显著性的AMOLED显示器多区域功耗优化方法.方法的核心是:通过视觉显著性算法对显示内容的重要 ...
    本站小编 Free考研考试 2022-01-02
  • 基于信息检索的缺陷定位:问题、进展与挑战
    摘要:缺陷的存在,会影响软件系统的正常使用甚至带来重大危害.为了帮助开发者尽快找到并修复这些缺陷,研究者提出了基于信息检索的缺陷定位方法.这类方法将缺陷定位视为一个检索任务,它为每个缺陷报告生成一份按照程序实体与缺陷相关度降序排序的列表.开发者可以根据列表顺序来审查代码,从而降低审查成本并加速缺陷定 ...
    本站小编 Free考研考试 2022-01-02
  • 一种包解析器硬件配置描述语言及其编译结构
    摘要:设计了一种用于实现可重构网络数据包解析器的专用硬件配置描述语言P3.由于要有利于高安全等级网络的实现,侧重于从高可信性角度进行语言设计,包括形式化定义该语言的类型系统和操作语义,以及设计其可信编译结构.基于对可重构硬件基本需求的充分理解,从软硬件协同角度出发,最终明确了P3语言的核心特性及其编 ...
    本站小编 Free考研考试 2022-01-02
  • 基于信息检索的软件缺陷定位技术研究进展
    摘要:缺陷定位是软件工程研究最活跃的领域之一.大部分软件缺陷都会被提交到类似于Bugzilla和Jira的缺陷追踪系统中.由于提交的缺陷报告数量过多,开发人员不能及时处理,因而迫切需要一个自动化工具来帮助开发人员识别缺陷相关源代码文件.研究人员已提出了大量缺陷定位技术.基于信息检索的软件缺陷定位技术 ...
    本站小编 Free考研考试 2022-01-02
  • 基于全局和局部信息的视频记忆度预测
    摘要:视频的记忆度是一种度量指标,用来表示一段视频能够普遍被人记住的程度.令人记忆深刻而难忘的视频具有很大的潜在价值,因此对能够进行大规模视频记忆度自动预测的模型将会有广大的应用前景和市场,例如视频检索、数字内容推荐、广告设计、教育系统等等.现有的大部分工作都是直接利用深度神经网络学习到的一个全局表 ...
    本站小编 Free考研考试 2022-01-02
  • 信息物理系统软件设计自动化专题前言
    摘要:为了更精确地认识与改造世界,新一代的嵌入式系统必须将计算世界与物理世界作为紧密交互的整体进行认知,实现集计算、通信与控制于一体的深度融合的理论体系与技术框架,即信息物理系统(cyber-physicalsystems,简称CPS).与传统嵌入式系统不同,CPS充分考虑了计算部件与物理环境的深度 ...
    本站小编 Free考研考试 2022-01-02
  • 轨道交通联锁领域特定语言的形式化
    摘要:作为轨道交通系统的核心子系统之一,对联锁系统进行形式化建模与分析,是保证其安全性的重要手段.形式化建模需要领域知识和形式化知识的结合,由于形式化知识难以掌握,领域专家在建模整个过程中都需要形式化专家的帮助.为了解决这个问题,针对联锁系统的故障随机性、行为实时性、构件可重用的特点,提出设计联锁领 ...
    本站小编 Free考研考试 2022-01-02
  • 基于异构社交网络信息和内容信息的事件推荐
    摘要:基于事件的社交网络使得事件推荐受到越来越多的关注.不同于其他推荐问题(如电影推荐等),事件推荐具有3类不同信息:用户构成的异构社交网络关系信息(在线社交网络和离线社交网络)、用户/事件的内容信息、用户对事件的隐式反馈信息.如何有效融合这些信息进行事件推荐是该领域****普遍关注的问题.提出一种 ...
    本站小编 Free考研考试 2022-01-02