1(江西师范大学计算机信息工程学院 南昌 330022);2(中国科学技术信息研究所 北京 100038) (xianminhe@jxnu.edu.cn)
出版日期:
2021-08-01基金资助:
国家自然科学基金项目(61662031);中国科学技术信息研究所重点工作项目(ZD2020-18)Siamese BERT-Networks Based Classification Mapping of Scientific and Technological Literature
He Xianmin1, Li Maoxi1, He Yanqing21(School of Computer Information and Engineering, Jiangxi Normal University, Nanchang 330022);2(Institute of Scientific and Technical Information of China, Beijing 100038)
Online:
2021-08-01Supported by:
This work was supported by the National Natural Science Foundation of China (61662031) and the Fund of the Institute of Scientific and Technical Information of China (ZD2020-18).摘要/Abstract
摘要: 国际专利分类法(international patent classification, IPC)和中国图书馆分类法(Chinese library classification, CLC)作为重要分类标识,分别在专利信息和期刊文献的组织以及管理中发挥着重要作用.如何准确地建立它们之间的映射关系对实现专利信息、期刊资源交叉浏览和检索有着重要的意义.提出了基于BERT预训练上下文语言模型的孪生网络用于建立IPC类目和CLC类目之间的映射关系,利用孪生网络模型分别抽象这2个分类法类目描述文本,通过平均池化抽象后的向量表示计算得到它们相同维度的句子向量,基于余弦相似度计算句子之间的相似度得分,完成类目映射.在人工标注一定规模的IPC类目和CLC类目之间的映射语料库上进行实验验证,结果表明提出的方法显著优于基于规则的方法和Sia-Multi,Bi-TextCNN,Bi-LSTM等深度神经网络的方法.相关的代码、模型和人工标注语料库已经公开发布.
参考文献
相关文章 15
[1] | 刘艳芳,李文斌,高阳. 基于被动-主动的特征演化流学习[J]. 计算机研究与发展, 2021, 58(8): 1575-1585. |
[2] | 王原,陈名,邢立宁,吴亚辉,马武彬,赵宏. 用于求解旅行商问题的深度智慧型蚁群优化算法[J]. 计算机研究与发展, 2021, 58(8): 1586-1598. |
[3] | 储晓恺,范鑫鑫,毕经平. 基于K阶互信息估计的位置感知网络表征学习[J]. 计算机研究与发展, 2021, 58(8): 1612-1623. |
[4] | 马扬, 刘泽一, 梁星星, 程光权, 阳方杰, 成清, 刘忠. 基于病毒传播网络的基因序列表示学习[J]. 计算机研究与发展, 2021, 58(8): 1642-1654. |
[5] | 黄训华,张凤斌,樊好义,席亮. 基于多模态对抗学习的无监督时间序列异常检测[J]. 计算机研究与发展, 2021, 58(8): 1655-1667. |
[6] | 谢娟英,鲁银圆,孔维轩,许升全. 基于改进RetinaNet的自然环境中蝴蝶种类识别[J]. 计算机研究与发展, 2021, 58(8): 1686-1704. |
[7] | 丁宗元,孙权森,王涛,王洪元. 基于融合多尺度标记信息的深度交互式图像分割[J]. 计算机研究与发展, 2021, 58(8): 1705-1717. |
[8] | 刘凡, 王君锋, 陈峙宇, 许峰. 基于并行注意力UNet的裂缝检测方法[J]. 计算机研究与发展, 2021, 58(8): 1718-1726. |
[9] | 郑海斌, 陈晋音, 章燕, 张旭鸿, 葛春鹏, 刘哲, 欧阳亦可, 纪守领. 面向自然语言处理的对抗攻防与鲁棒性分析综述[J]. 计算机研究与发展, 2021, 58(8): 1727-1750. |
[10] | 史存会, 胡耀康, 冯彬, 张瑾, 俞晓明, 刘悦, 程学旗. 舆情场景下基于层次知识的话题推荐方法[J]. 计算机研究与发展, 2021, 58(8): 1811-1819. |
[11] | Amrita,Bhattacharjee,舒凯,高旻,刘欢. 网络信息生态系统中的虚假信息:检测、缓解与挑战[J]. 计算机研究与发展, 2021, 58(7): 1353-1365. |
[12] | 陈慧敏,金思辰,林微,朱泽宇,仝凌波,刘一芃,叶奕宁,姜维翰,刘知远,孙茂松,金兼斌. 新冠疫情相关社交媒体谣言传播量化分析[J]. 计算机研究与发展, 2021, 58(7): 1366-1384. |
[13] | 胡斗,卫玲蔚,周薇,淮晓永,韩冀中,虎嵩林. 一种基于多关系传播树的谣言检测方法[J]. 计算机研究与发展, 2021, 58(7): 1395-1411. |
[14] | 徐铭达,张子柯,许小可. 基于模体度的社交网络虚假信息传播机制研究[J]. 计算机研究与发展, 2021, 58(7): 1425-1435. |
[15] | 陈波冯,李靖东,卢兴见,沙朝锋,王晓玲,张吉. 基于深度学习的图异常检测技术综述[J]. 计算机研究与发展, 2021, 58(7): 1436-1455. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4478