最近,视觉和语言的多模态任务,例如图像字幕和视觉问题解答(VQA),引起了学术界和工业界的广泛兴趣。但是,大多数现有的模型都专注于单个任务。深圳研究生院信息工程学院邹月娴教授课题组研究发现,这些任务存在一定的相似性,因此认为如果模型可以同时考虑这些多模态问题,则可以共同学习来自不同任务的不同知识,并且很有可能提高每个任务的效能。
近日,邹月娴课题组的研究“Federated Learning for Vision-and-Language Grounding Problems”被在美国纽约举行的第34届人工智能发展协会(AAAI)人工智能会议(AAAI Conference on Artificial Intelligence, AAAI 2020)接收发表并以口头汇报(Oral)的形式进行了展示。该研究成果提出了一种联邦学习框架,可以从不同的任务中获得各种类型的图像表示,然后将它们融合在一起以形成细粒度的图像表示。这些图像表示融合了来自不同视觉和语言的多模态问题的有用图像表示,因此在单个任务中比单独的原始图像表示强大得多。为了学习这种图像表示,该课题组提出了对齐(Aligning)、集成(Integrating)和映射(Mapping)、网络(aimNet)。aimNet由一个对齐模块,一个集成模块和一个映射模块组成(如下图)。
课题组提出的集中式模型aimNet
其中,对齐模块通过对提取的视觉和文本特征进行相互关注来构建对齐的图像表示,其能为显著图像区域提供了更清晰的语义描述。接下来,集成模块着重于通过自我注意机制集成视觉和文本特征,该机制捕获显著区域的分组和属性的搭配。最后,映射模块由两层非线性层组成,用于将学习到的细粒度图像表示映射到特定任务的特征域。各课题组提出的模块充分利用了图像中的所有有效信息,并将其作为输入传递给解码器,以生成有意义的句子或给出问题的准确答案。该课题组在两个图像字幕数据集和一个VQA数据集上,以及相应的三个联邦学习设置上,包括水平联合学习,垂直联合学习和联合迁移学习,进行实验用于验证该课题组的动机以及所提出方法的有效性。
2019级硕士生刘峰林为该论文第一作者,邹月娴为通讯作者,该工作得到了数字视频编解码技术国家工程实验室、深圳市发改委(数据科学与智能计算学科发展计划)和Aoto-PKUSZ联合实验室的支持。
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
深研院信息工程学院邹月娴教授课题组在人工智能顶级会议AAAI上发表论文
本站小编 Free考研/2020-04-10
相关话题/图像 视觉
方方课题组在《美国科学院院刊》(PNAS)发文 利用脑电和经颅交流电刺激技术揭示视觉特征绑定的神经机制
2019年8月5日,《美国科学院院刊》(ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica)在线刊发了北京大学心理与认知科学学院、麦戈文脑科学研究所、生命科学联合中心方方教授课题组的论文“Thecausalroleo ...北京大学通知公告 本站小编 Free考研 2020-04-10方方教授课题组在Current Biology发文揭示视觉拥挤效应的神经机制
2019年7月8日,《当代生物学》(CurrentBiology)刊发了北京大学心理与认知科学学院、生命科学联合中心和麦戈文脑科学研究所方方教授课题组的研究论文“ThecriticalroleofV2populationreceptivefieldsinvisualorientationcrowdi ...北京大学通知公告 本站小编 Free考研 2020-04-10地空学院刘瑜课题组在街景图像定量分析方面取得系列成果
场所(place)是地理分析中的基础概念,它是联系人和地理环境相互作用的纽带,也是表达地理知识的基本单元。如何形式化表达场所,并在此基础上揭示人的行为模式与地理空间格局之间的关系,一直是地理信息科学领域所关注的问题。北京大学地球与空间科学学院刘瑜教授课题组张帆博士利用街景图像大数据观测城市物质环境, ...北京大学通知公告 本站小编 Free考研 2020-04-10饶毅和方方课题组合作发文报道视觉变换的基因分析研究进展
这张图,你看到的是一个花瓶,还是两个人的侧脸?仔细观察它一段时间,你会发现,有的时候看到的是白色花瓶,有的时候又是黑色的两张人脸,而且随着时间推移,似乎看到的图像会在花瓶和人脸之间来回自动切换,但是,在任一特定时刻,你看到的都是花瓶或人脸中的一种。这一变换不是图像的问题,也不是你眼睛的问题:眼睛的视 ...北京大学通知公告 本站小编 Free考研 2020-04-10科维理天文与天体物理研究所王然课题组利用阿塔卡马大型毫米波/亚毫米波阵列(ALMA)获得早期黑洞寄主星系高清晰度图像
近年来,天文学家从大型光学、近红外巡天中发现的红移大于5.7的类星体已超过200颗,这些类星体-星爆系统是研究再电离末期第一代超大质量黑洞和其寄主星系形成演化独一无二的实验室。?阿塔卡马大型毫米波/亚毫米波阵列(ALMA)位于智利北部阿塔卡马沙漠,是由射电望远镜构成的天文干涉仪。图片来自:ESO/C ...北京大学通知公告 本站小编 Free考研 2020-04-10我所在钙钛矿单晶数字图像传感器研究方面取得新进展
近日,我所薄膜硅太阳电池研究组(DNL1606)刘生忠研究员与陕西师范大学杨周副教授、刘渝城博士等在钙钛矿单晶数字图像传感器研究中取得新进展,相关研究结果在《先进材料》(AdvancedMaterials)上发表。 作为太阳能电池应用的超级材料,钙钛矿CH3NH3PbX3(MAPbX3,X=Cl, ...大连化学物理研究所 本站小编 Free考研考试 2020-04-08沈阳自动化所红外图像条纹校正算法研究取得进展
提出算法流程图 算法校正结果对比 近日,中国科学院沈阳自动化研究所提出了一种红外图像条纹非均匀性校正算法,可利用单帧红外图像去除条纹非均匀性,且能保持图像的边缘细节。相关科研成果发表于AppliedSciences-Basel和JournaloftheEuropeanOpticalSociety ...中科院沈阳自动化研究所 本站小编 Free考研考试 2020-04-07沈阳自动化所图像拼接伪造检测技术取得进展
基于共享姿态反向投影的图像拼接伪造检测方法原理图检测结果 近日,中国科学院沈阳自动化研究所在图像拼接伪造检测技术取得进展,相关成果发表在IEEESensorsJournal。 图像视频常常作为法律程序中的重要证物,因此真实性验证具有至关重要的意义,图像拼接伪造检测就是图像真实性验证的一项重要内容 ...中科院沈阳自动化研究所 本站小编 Free考研考试 2020-04-07沈阳自动化所基于深度学习的航拍图像目标检测研究取得进展
检测网络示意图 近日,中国科学院沈阳自动化研究所创新性地提出了去除航拍图像检测结果中误检目标的方法,并针对航拍图像特性设计了相应的检测网络。相关成果发表在Sensors上。 航拍图像的目标检测在农业、资源勘探等领域有着广泛的应用需求,上述场景中严格的检测要求也推动了检测算法的改进创新。在基于深度 ...中科院沈阳自动化研究所 本站小编 Free考研考试 2020-04-07辽科大视觉传达学子在第十一届大广赛上喜获佳绩
11月16日,第十一届全国大学生广告艺术大赛辽宁赛区颁奖典礼在辽宁工业大学举行,辽宁科技大学建艺学院视觉传达设计系在此次大赛角逐中取得优异成绩,获奖作品高达109件,其中:一等奖7件,二等奖10件,三等奖32件,优秀奖60件,创造了学院省级赛区成绩的历史新高。赵艳、王健老师获得优秀指导教师称号,辽宁 ...辽宁科技大学 本站小编 Free考研考试 2020-04-06