(山西大学大数据科学与产业研究院 太原 030006) (计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006) (山西大学计算机与信息技术学院 太原 030006) (aike0229@163.com)
出版日期:
2019-07-01基金资助:
国家自然科学基金项目(61672332,61432011,U1435212);山西省海外归国人员研究项目(2017023)A Classification Method of Scientific Collaborator Potential Prediction Based on Ensemble Learning
Ai Ke, Ma Guoshuai, Yang Kaikai, Qian Yuhua(Institute of Big Data Science and Industry, Shanxi University, Taiyuan 030006) (Key Laboratory of Computational Intelligence and Chinese Information Processing(Shanxi University), Ministry of Education, Taiyuan 030006) (School of Computer and Information Technology, Shanxi University, Taiyuan 030006)
Online:
2019-07-01摘要/Abstract
摘要: 科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为****选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于****-文章大数据,经过特征分析和优化,综合考虑****的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,以文章所发表的期刊会议等级作为合作者序列对的样本标签,表示当前合作者的潜力高低,利用集成方法的强学习特性,提出了基于集成学习分类方法的科研合作者潜力预测模型.分析并构造对应于科研合作者潜力预测问题的特征集后,采用分类方法解决这一问题.实验中准确率、召回率、F1分数都远高于传统机器学习方法,并能以较少的样本和时间收敛于较高值(80%以上),说明了模型的优越性.
参考文献
相关文章 15
[1] | 贺一笑, 庞明, 姜远. 蒙德里安深度森林[J]. 计算机研究与发展, 2020, 57(8): 1594-1604. |
[2] | 程光, 钱德鑫, 郭建伟, 史海滨, 吴桦, 赵玉宇. 基于散度的网络流概念漂移分类方法[J]. 计算机研究与发展, 2020, 57(12): 2673-2682. |
[3] | 郭颖婕,刘晓燕,吴辰熙,郭茂祖,李傲. 基于U统计量和集成学习的基因互作检测方法[J]. 计算机研究与发展, 2018, 55(8): 1683-1693. |
[4] | 许行,王文剑,任丽芳. 一种基于决策森林的单调分类方法[J]. 计算机研究与发展, 2017, 54(7): 1477-1487. |
[5] | 傅艺绮,董威,尹良泽,杜雨晴. 基于组合机器学习算法的软件缺陷预测模型[J]. 计算机研究与发展, 2017, 54(3): 633-641. |
[6] | 熊冰妍,王国胤,邓维斌. 基于样本权重的不平衡数据欠抽样方法[J]. 计算机研究与发展, 2016, 53(11): 2613-2622. |
[7] | 张虎,谭红叶,钱宇华,李茹,陈千. 基于集成学习的中文文本欺骗检测研究[J]. 计算机研究与发展, 2015, 52(5): 1005-1013. |
[8] | 万猛, 何良华. 基于科研合作网络的自动审稿人选择研究[J]. 计算机研究与发展, 2015, 52(4): 789-797. |
[9] | 周全强 张付志. 基于仿生模式识别的用户概貌攻击集成检测方法[J]. 计算机研究与发展, 2014, 51(4): 789-801. |
[10] | 付忠良. 通用集成学习算法的构造[J]. , 2013, 50(4): 861-872. |
[11] | 刘伍颖, 王 挺,. 结构化集成学习垃圾邮件过滤[J]. , 2012, 49(3): 628-635. |
[12] | 刘 明, 袁保宗, 苗振江, 唐晓芳, 李昆仑,. 从局部分类精度到分类置信度的变换[J]. , 2008, 45(9): 1612-1619. |
[13] | 黎 铭 周志华 . 基于多核集成的在线半监督学习方法[J]. , 2008, 45(12): 2060-2068. |
[14] | 眭俊明 姜 远 周志华. 基于频繁项集挖掘的贝叶斯分类算法[J]. , 2007, 44(8): 1293-1300. |
[15] | 姜 远 周志华. 基于词频分类器集成的文本分类方法[J]. , 2006, 43(10): 1681-1687. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3959