1(大连理工大学计算机科学与技术学院 辽宁大连 116024);2(北京理工大学光电学院 北京 100081) (zhihengli@mail.dlut.edu.cn)
出版日期:
2018-01-01基金资助:
国家自然科学基金项目(61272373,61340020,61572102,61572098);新世纪优秀人才支持计划基金项目(NCET-13-0084);中央高校基本科研业务费专项资金项目(DUT14YQ213)Chemical-Induced Disease Relation Extraction Based on Biomedical Literature
Li Zhiheng1, Gui Yingyi2, Yang Zhihao1, Lin Hongfei1, Wang Jian11(School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning 116024);2(School of Optoelectronics, Beijing Institute of Technology, Beijing 100081)
Online:
2018-01-01摘要/Abstract
摘要: 化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-induced disease, CID)关系.在句子级别分类器训练阶段,将特征核和图核特征看作2个独立的视图,采用基于半监督的Co-training方法,利用少量人工标注的训练集和大量未标注语料训练模型.之后,CDRExtractor利用文档级别的化学物质与疾病信息特征训练一个文档级别的分类器用于实现文档级别跨句子的CID关系抽取.最后,利用规则将2个分类器的抽取结果进行整合,生成最终的输出结果.实验结果表明:CDRExtractor在BioCreative V CDR评测任务CID子任务提供的测试集上F值达到67.72%.
参考文献
相关文章 15
[1] | 张永, 陈蓉蓉, 张晶. 基于交叉熵的安全Tri-training算法[J]. 计算机研究与发展, 2021, 58(1): 60-69. |
[2] | 王婷, 王娜, 崔运鹏, 李欢. 基于半监督学习的无线网络攻击行为检测优化方法[J]. 计算机研究与发展, 2020, 57(4): 791-802. |
[3] | 佟威,汪飞,刘淇,陈恩红. 数据驱动的数学试题难度预测[J]. 计算机研究与发展, 2019, 56(5): 1007-1019. |
[4] | 袁莎,唐杰,顾晓韬. 开放互联网中的****画像技术综述[J]. 计算机研究与发展, 2018, 55(9): 1903-1919. |
[5] | 韩朝,苗夺谦,任福继,张红云. 基于粗糙集知识发现的开放领域中文问答检索[J]. 计算机研究与发展, 2018, 55(5): 958-967. |
[6] | 许勐璠,李兴华,刘海,钟成,马建峰. 基于半监督学习和信息增益率的入侵检测方案[J]. 计算机研究与发展, 2017, 54(10): 2255-2267. |
[7] | 刘峤,钟云,刘瑶,吴祖峰,秦志光. 基于语义一致性的集成实体链接算法[J]. 计算机研究与发展, 2016, 53(8): 1696-1708. |
[8] | 秦兵,刘安安,刘挺. 无指导的中文开放式实体关系抽取[J]. 计算机研究与发展, 2015, 52(5): 1029-1035. |
[9] | 李佳静,李晓明,孟涛. TML:一种通用高效的文本挖掘语言[J]. 计算机研究与发展, 2015, 52(3): 553-560. |
[10] | 刘钰峰,李仁发. 异构信息网络上基于图正则化的半监督学习[J]. 计算机研究与发展, 2015, 52(3): 606-613. |
[11] | 张焕龙,胡士强,杨国胜,. 基于外观模型学习的视频目标跟踪方法综述[J]. 计算机研究与发展, 2015, 52(1): 177-190. |
[12] | 朱 俊, 殷建平, 赵志恒, 祝 恩, 班荣军,. 基于文本挖掘的精子发生各阶段的相关基因/蛋白名称提取[J]. 计算机研究与发展, 2014, 51(6): 1352-1358. |
[13] | 郭躬德 李 南 陈黎飞. 一种基于混合模型的数据流概念漂移检测算法[J]. 计算机研究与发展, 2014, 51(4): 731-742. |
[14] | 丁兆云, 贾 焰, 周 斌,. 微博数据挖掘研究综述[J]. 计算机研究与发展, 2014, 51(4): 691-706. |
[15] | 谭文堂 王桢文 殷风景 葛 斌 肖卫东. 一种面向多文本集的部分比较性LDA模型[J]. 计算机研究与发展, 2013, 50(9): 1943-1953. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3615