1(华中科技大学武汉光电国家研究中心 武汉 430074);2(深圳市腾讯计算机系统有限公司技术工程事业群 广东深圳 518054) (liu_yu@hust.edu.cn)
出版日期:
2021-02-01基金资助:
国家自然科学基金青年科学基金项目(61902135);国家自然科学基金创新群体项目(61821003)Content Sifting Storage Mechanism for Cross-Modal Image and Text Data Based on Semantic Similarity
Liu Yu1, Guo Chan1, Feng Shuyao1, Zhou Ke1, Xiao Zhili21(Wuhan National Laboratory for Optoelectronics, Huazhong University of Science and Technology, Wuhan 430074);2(Technology and Engineering Group, Tencent Inc., Shenzhen, Guangdong 518054)
Online:
2021-02-01Supported by:
This work was supported by the National Natural Science Foundation of China for Young Scientists (61902135) and the Innovation Group Project of the National Natural Science Foundation of China (61821003).摘要/Abstract
摘要: 随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage, CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力.机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间.最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射.在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码.然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.
参考文献
相关文章 15
[1] | 龙赛琴, 黄金娜, 李哲涛, 裴廷睿, 夏元清. 面向云网融合的数据中心能效评估方法[J]. 计算机研究与发展, 2021, 58(6): 1248-1260. |
[2] | 杨尧林, 和红杰, 陈帆, 原长琦. 基于预测误差自适应编码的图像加密可逆数据隐藏[J]. 计算机研究与发展, 2021, 58(6): 1340-1350. |
[3] | 冯云, 刘宝旭, 张金莉, 汪旭童, 刘潮歌, 申明喆, 刘奇旭. 一种无监督的窃密攻击及时发现方法[J]. 计算机研究与发展, 2021, 58(5): 995-1005. |
[4] | 李明慧, 江沛佩, 王骞, 沈超, 李琦. 针对深度学习模型的对抗性攻击与防御[J]. 计算机研究与发展, 2021, 58(5): 909-926. |
[5] | 周纯毅, 陈大卫, 王尚, 付安民, 高艳松. 分布式深度学习隐私与安全攻击研究进展与挑战[J]. 计算机研究与发展, 2021, 58(5): 927-943. |
[6] | 张颖君, 陈恺, 周赓, 吕培卓, 刘勇, 黄亮. 神经网络水印技术研究进展[J]. 计算机研究与发展, 2021, 58(5): 964-976. |
[7] | 宋蕊, 李童, 董鑫, 丁治明. 基于元路径嵌入的移动应用需求偏好分析方法[J]. 计算机研究与发展, 2021, 58(4): 749-762. |
[8] | 屈凌峰, 和红杰, 陈帆, 张善俊. 基于块调制-置乱的图像加密算法安全性分析[J]. 计算机研究与发展, 2021, 58(4): 849-861. |
[9] | 魏征, 窦禹, 高艳珍, 马捷, 孙凝晖, 邢晶. 一种基于条带的一致性散列数据放置算法[J]. 计算机研究与发展, 2021, 58(4): 888-903. |
[10] | 谢震, 谭光明, 孙凝晖. 基于PPR模型的稀疏矩阵向量乘及卷积性能优化研究[J]. 计算机研究与发展, 2021, 58(3): 445-457. |
[11] | 甘新标, 谭雯, 刘杰. 基于双向位图的CSR大规模图存储优化[J]. 计算机研究与发展, 2021, 58(3): 458-466. |
[12] | 吴宗友, 白昆龙, 杨林蕊, 王仪琦, 田英杰. 电子病历文本挖掘研究综述[J]. 计算机研究与发展, 2021, 58(3): 513-527. |
[13] | 廖海斌, 徐斌. 基于性别和年龄因子分析的鲁棒性人脸表情识别[J]. 计算机研究与发展, 2021, 58(3): 528-538. |
[14] | 刘颖, 杨轲. 基于深度集成学习的类极度不均衡数据信用欺诈检测算法[J]. 计算机研究与发展, 2021, 58(3): 539-547. |
[15] | 徐坤浩, 聂铁铮, 申德荣, 寇月, 于戈. 基于CPU-GPU异构体系结构的并行字符串相似性连接方法[J]. 计算机研究与发展, 2021, 58(3): 598-608. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4349