依据《中国图书馆分类法》的英文图书分类探索
蒋彦廷1,21. 四川省水文水资源勘测中心, 成都 6100362. 中共金堂县委党校, 成都 610400
收稿日期:
2022-05-13修回日期:
2022-08-03出版日期:
2023-01-20发布日期:
2023-01-20通讯作者:
蒋彦廷, E-mail: jiangyanting(at)mail.bnu.edu.cnEnglish Books Automatic Classification According to CLC
JIANG Yanting1,21. Sichuan Hydrological and Water Resources Survey Center, Chengdu 6100362. CPC Party School of Jintang County, Chengdu 610400
Received:
2022-05-13Revised:
2022-08-03Online:
2023-01-20Published:
2023-01-20Contact:
JIANG Yanting, E-mail: jiangyanting(at)mail.bnu.edu.cn 摘要/Abstract
摘要: 针对带有中图分类号的英文图书数据量小以及类别不平衡的问题, 将图情领域的文本增强策略(《美国国会图书馆分类法》到《中国图书馆分类法》的类目映射方法和基于中-英文平行的《汉语主题词表》的语义增强方法)与一般领域文本增强策略(向原始英文文本插入标点或连词)相结合, 旨在增强模型泛化能力。实验表明, 综合后的策略能有效地提高模型在测试集的表现, 正确率和宏F1值分别上升3.61和3.35个百分点, 效果优于其他单一的文本增强方法。最后, 通过BERT词向量可视化与词语信息熵计算, 分析出丰富的邻近词和语法上的连缀功能是插入标点或连词方法有效的原因。
引用本文
蒋彦廷. 依据《中国图书馆分类法》的英文图书分类探索[J]. 北京大学学报自然科学版, 2023, 59(1): 11-20.
JIANG Yanting. English Books Automatic Classification According to CLC[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2023, 59(1): 11-20.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3822