随着科研项目申请迅速增长,学科划分不断细化,申请者及科研管理人员如何在具有层次结构的学科体系中选择项目申请所属的细分学科领域,是需要解决的重要问题。申请书数据是由标题、摘要、关键词、额外属性、正文等不同类别数据组成的复杂结构文本。并且,在申请书的分类过程中,专家知识可以在较为容易判断的大类学科中提供对模型的指导,并利用模型生成最为合适粒度的层级标签。
该研究成果提出了一个Encoder-Decoder架构的层次多标签分类算法(Hierarchical Multi-label Classification)。编码器部分,通过利用多层次的Transformer组件实现对申请书中文本文档内的字词、文本文档间的互动关系进行建模,从而完成多类别文本的语义抽取。解码器部分,利用自注意力机制抽取专家知识以及已生成标签的特征,并结合编码器所抽取的语义信息,依照学科体系结构逐层生成标签序列。这一研究成果为科研项目分类场景提供了结合人工智能的解决方案,有着丰富的应用场景。(撰稿:肖濛)
相关成果:Meng Xiao, Ziyue Qiao, Yanjie Fu, Yi Du*, Pengyang Wang, and Yuanchun Zhou. "Expert Knowledge-Guided Length-Variant Hierarchical Label Generation for Proposal Classification." 2021 IEEE International Conference on Data Mining (ICDM). IEEE, 2021.

图1.专家知识指导的层次多标签生成任务

图2. 专家知识指导的科研项目申请书变长层次多标签生成模型图
附件下载
中国科学院基本建设项目档案建档规范 科研课题档案建档规范 -->