(北京大学计算机科学技术研究所 北京 100871) (pengyuxin@pku.edu.cn)
出版日期:
2019-01-01基金资助:
国家自然科学基金项目(61771025,61532005)Current Research Status and Prospects on Multimedia Content Understanding
Peng Yuxin, Qi Jinwei, Huang Xin(Institute of Computer Science and Technology, Peking University, Beijing 100871)
Online:
2019-01-01摘要/Abstract
摘要: 随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本、音频等多媒体数据快速涌现.这些不同媒体的数据在形式上多源异构,语义上相互关联.认知科学研究表明,人脑生理组织结构决定了其对外界的感知和认知过程是跨越多种感官信息的融合处理.如何对不同媒体的数据进行语义分析和关联建模以实现多媒体内容理解,成为了一个研究和应用的关键问题,受到了学术界和工业界的广泛关注.选取了多媒体内容理解的5个最新热点研究方向:图像细分类与检索、视频分类与目标检测、跨媒体检索、视觉描述与生成、视觉问答,分别阐述了它们的基本概念、代表性方法、研究现状等,并进一步阐述了多媒体内容理解面临的重要挑战,同时给出未来的发展趋势,旨在帮助读者全面了解多媒体内容理解的研究现状,吸引更多研究人员投身相关研究并为他们提供技术参考,推动该领域的进一步发展.
参考文献
相关文章 4
[1] | 俞俊,汪亮,余宙. 视觉问答技术研究[J]. 计算机研究与发展, 2018, 55(9): 1946-1958. |
[2] | 王一蕾,卓一帆,吴英杰,陈铭钦. 基于深度神经网络的图像碎片化信息问答算法[J]. 计算机研究与发展, 2018, 55(12): 2600-2610. |
[3] | 蒋树强,闵巍庆,王树徽. 面向智能交互的图像识别技术综述与展望[J]. 计算机研究与发展, 2016, 53(1): 113-122. |
[4] | 张 鸿, 吴 飞, 庄越挺,. 跨媒体相关性推理与检索研究[J]. , 2008, 45(5): 869-876. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3857