删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

开源代码对论文引用的影响机理与实证分析:以计算机领域为例

本站小编 Free考研考试/2022-01-02

汪舒雯,1,2, 许元杰,1,2, 陈远平,3, 李建平,4, 吴登生,1,2,*1.中国科学院科技战略咨询研究院,北京 100190
2.中国科学院大学公共政策与管理学院,北京 100049
3.中国科学院计算机网络信息中心,北京 100190
4.中国科学院大学经济与管理学院,北京 100190

Influence Mechanism of Code-Sharing on Paper Citations:An Empirical Analysis on Computer Science Field

WANG Shuwen,1,2, XU Yuanjie,1,2, CHEN Yuanping,3, LI Jianping,4, WU Dengsheng,1,2,*1. Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190, China
2. School of Public Policy and Management, University of Chinese Academy of Sciences, Beijing 100049, China
3. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China
4. School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100049, China

通讯作者: *吴登生(E-mail:wds@casipm.ac.cn

收稿日期:2021-04-1网络出版日期:2021-04-20
基金资助:国家自然科学基金项目.72022021
国家自然科学基金项目.71874180
中国科学院前沿科学重点研究项目.QYZDB-SSW-SYS036


Received:2021-04-1Online:2021-04-20
作者简介 About authors

汪舒雯,中国科学院大学,中国科学院科技战略咨询研究院,在读硕士研究生,主要研究兴趣为科技文本数据挖掘和文献计量。
在本文中负责文章撰写和模型分析。
WANG Shuwen is a master student of University of Chinese Academy of Sciences and Institutes of Science and Development, Chinese Academy of Sciences. Her research fields are scientific text data mining and bibliometrics.
In this paper, she is responsible for model analysis and paper writing.
E-mail: wangshuwen20@mails.ucas.ac.cn


许元杰,中国科学院大学,中国科学院科技战略咨询研究院,在读博士研究生,主要研究兴趣为科技文本数据挖掘和知识发现。
在本文中负责研究数据获取、清洗、预处理的工作和文章相应部分的写作。
XU Yuanjie is currently a PhD student of University of Chinese Academy of Sciences and Institutes of Science and Development, Chinese Academy of Sciences. Her current research interests include scientific text data mining and knowledge discovery.
In this paper, she is responsible for conducting and writing the parts of research data sampling, cleaning, and preprocessing.
E-mail: xuyuanjie18@mails.ucas.ac.cn


陈远平,中国科学院计算机网络信息中心,高级工程师,主要研究方向为数据分析、决策分析模型研究、数据挖掘应用。
在本文中的主要负责数据分析工作。
CHEN Yuanping is a senior engineer from the Computer Network Information Center of the Chinese Academy of Sciences. His main research interests are data analysis, decision analysis model research, and data mining applications.
In this paper, he is mainly responsible for data analysis.
E-mail: ypchen@cnic.cn


李建平,中国科学院大学经济与管理学院,教授,主要研究方向为风险管理、大数据管理决策。
在本文中承担论文引用概念框架研究工作。
LI Jianping is a professor at the School of Economics and Management, University of Chinese Academy of Sciences. His main research interests are risk management and big data in management decision making.
In this paper, he is responsible for the conceptual framework of paper citation.
E-mail: ljp@ucas.ac.cn


吴登生,中国科学院科技战略咨询研究院,副研究员,主要研究方向为数据驱动的科技管理与决策和风险管理方面研究,主持NSFC优秀青年科学基金项目等课题10余项,在Risk Analysis、EJOR、《中国管理科学》等领域知名期刊上发表学术论文60余篇。
在本文中承担总体统稿和引用模型的研究工作。
WU Dengsheng is currently the associate professor at the Institutes of Science and Development, Chinese Academy of Sciences. His research interests include scientific data analysis, decision making, and risk analysis. He has been the Principal Investigator for more than 10 grants sponsored by the National Natural Science Foundation of China. He has published more than 60 papers in the leading journals, such as Risk Analysis, European Journal of Operational Research, and Chinese Journal of Management Science.
In this paper, he is responsible for the review of the overall manuscript and the research of the citation model.
E-mail: wds@casipm.ac.cn



摘要
[目的] 开源代码是计算机领域内研究成果可验证和可复现的重要依据,本文旨在探究计算机领域论文是否开源代码以及不同开源代码类型对论文被引量的影响。[方法] 以Papers with Code上2043篇计算机领域期刊论文为样本,采用基于稳健标准误差的多元回归模型进行分析。[结果] 研究表明,论文开源代码与被引量呈显著正相关,不同开源代码类型的论文被引优势有别。[结论] 计算机领域论文开源代码不仅提供了研究成果复现的手段,还有助于增加论文被引次数,且在Github代码仓库的README文件中提及原文信息利于促进论文被引。
关键词: 引用优势;代码开源;多元回归;计算机科学

Abstract
[Objective] Open source code is an important basis for verifiable and reproducible research results in the field of computer science. This article aims to explore whether the codes in a papers is open source or not has an impact on the citation number of the paper, and also the impact of different types of code-sharing on paper citations. [Methods] Using papers from Papers with Code as the research objects, this paper analyses 2043 papers of the computer field by applying the least square method based on robust standard error to carry out the regression analysis. [Results] The results show that the citation frequency of a code-sharing paper is expected to be significantly higher than those of closed source papers, and different code-sharing types have different effects on citation amount. [Conclusions] For papers in the field of computer, code-sharing not only provides a mechanism of reproducing research results, but also helps to increase the number of citations of the papers. Besides, the README file of GitHub code repository that refers to the original information facilitates the citation of the paper.
Keywords:citation advantage;code-sharing;multiple regression;computer science


PDF (7337KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
汪舒雯, 许元杰, 陈远平, 李建平, 吴登生. 开源代码对论文引用的影响机理与实证分析:以计算机领域为例. 数据与计算发展前沿[J], 2021, 3(2): 93-102 doi:10.11871/jfdc.issn.2096-742X.2021.02.011
WANG Shuwen, XU Yuanjie, CHEN Yuanping, LI Jianping, WU Dengsheng. Influence Mechanism of Code-Sharing on Paper Citations:An Empirical Analysis on Computer Science Field. Frontiers of Data and Computing[J], 2021, 3(2): 93-102 doi:10.11871/jfdc.issn.2096-742X.2021.02.011


引言

可验证性和可复现性是衡量科学研究价值的重要标准[1]。科研数据和科研方法在很大程度上决定了科学研究的可验证性和可复现性强弱。随着近年来计算机领域论文数量的快速增长,要求论文开源代码成为了一些期刊审稿的标准之一。论文开源代码和数据有助于审稿人快速判断某项研究的真实性,同时有利于科研成果的传播与应用。共享研究代码本质上是开放科学的一种表现形式,随着互联网媒介的多元发展,开放科学的渠道越来越宽,开放研究的理念也越来越普遍。Ning和Zhao提出开放科学旨在基于网络工具,将实验方法、过程和数据完全公开,进而促进科学合作[2]。在计算机领域,开放科学最直接的体现就是代码开源,但是关于计算机领域论文开源代码是否具有显著优势,****观点不一。有研究者认为不应强制论文开源代码,因为可复现性并不是评价论文的唯一标准;也有观点指出应该鼓励论文开源代码,因为论文共享数据和代码可以帮助打破知识壁垒,缩小领域内技术差距,推动建立全面、平等、创新的开放科学新标准。由于计算机领域论文区别于其他领域,其可复现性很大程度上依赖于论文源代码。但是向读者开源论文代码需要耗费大量时间用来整理、维护和更新代码仓库,一些研究者认为这些开源工作对他们的后续研究工作并无益处,因此很多人拒绝开源代码[3]

论文被引量是衡量论文影响力和学术价值的重要指标,探讨论文被引规律是重要的研究主题。在社会科学领域内对这一主题的研究较多,有****通过回归综合验证了论文作者、论文研究方法和论文内容层面的多重因素对被引量的影响[4]。在医学领域,有研究证实了开源实验数据可以帮助提升被引量[5]。在计算机领域,也有研究者就论文代码是否开源对论文被引量的影响展开了趋势分析,认为论文开源代码能够影响论文的被引量[6],但尚未就这一结论进行严谨的实证。此外,论文开源代码有多种类型,有些论文由作者直接在文章中注明代码获取网址,有些论文是作者将论文代码上传至开源网站(如广泛使用的Github网站)并注明了原文链接但未在文章中注明代码链接,有些作者将原文和代码上传至第三方平台进行开源。总的来说,论文和代码在空间上的异质性,导致读者获取源码的渠道不一,因此不同开源类型对被引量的影响具有一定研究价值。

基于上述背景,本研究以计算机领域期刊论文为研究对象,拟回答以下三个研究问题:

问题一:开源代码论文相较于未开源代码论文,其引用优势如何?

问题二:不同开源代码类型的论文,相较于未开源代码论文,其引用优势如何?

问题三:不同开源代码类型的论文之间,引用优势对比如何?

1 数据来源和样本

1.1 数据获取

随着计算机领域内论文数量的增长以及代码托管平台的发展,论文和论文代码在空间上的不同步问题日益突显,为了帮助读者快速获取论文和源代码,计算机领域内出现了一些提供分类检索和代码查找功能的论文搜索平台,较为常见的有Papers with Code,Aminer,Microsoft academic[7]等。这些平台有利于帮助研究者了解最新研究动态,获取文章代码,促进知识的高效传播。其中由Robert Stojnic和Ross Taylor联合创立的Papers with Code(https://www.paperswithcode.com/),以其丰富的论文资源、多元的领域分类和准确的开源代码链接,成为了计算机领域研究者和从业者追踪领域发展最常用的网站之一,因此本研究利用Papers with Code网站获取实验样本。

Papers with Code为每篇收录的领域论文创建主页,展示论文信息和代码链接(如图1所示)。网站提供了所收录论文的元数据下载,包含论文的标题和开源代码链接等,其中有代码链接的论文92 650篇。由于网站具有领域专业性且是开放编辑的,可以认为网站所收录的论文是否开源经过了领域读者的充分检验。本文基于Papers with Code网站所收录的论文构建本研究使用的样本,首先使用上述开源代码论文的标题在Web of Science(WOS)中检索并下载WOS相关记录,以得到论文被引量和论文所在期刊、论文发表时间、作者等补充信息,共检索到11 219篇论文,剔除非计算机领域的论文,共得到7 383篇论文数据,其中期刊论文1 623篇。由于2010年之前的论文数量很少,选取2010年及之后的论文1 598篇,作为样本中的开源代码论文。统计1 623篇期刊论文的所属期刊,作为本研究中的计算机领域期刊,收集这些期刊在2010年及之后发表的论文与Papers with Code网站所收录的没有开源代码的论文进行匹配,获得2 129篇未开源代码的论文数据,作为样本中的非开源代码论文。

图1

新窗口打开|下载原图ZIP|生成PPT
图1Papers with Code论文主页

Fig.1Page of papers on Papers with Code



1.2 数据预处理

接下来对实验样本数据进行预处理,使用stata对样本数据进行描述性统计分析,去除含有异常值和缺失值的少数观测记录之后得到3 315条数据。由于2020和2021年发表的文章还不足以积累足够的被引量,故删去这部分数据,最后得到2010-2019年间的2 043条有效论文数据。

2 研究方法

2.1 变量定义

实验的自变量是文章代码是否开源(coding),取值为0或1,判断标准是论文在Papers with Code网站上是否有开源代码的Github仓库链接,若有则coding=1,反之coding=0;实验的控制变量包括论文的基本特征和影响文章是否开源代码的一些因素。研究认为论文标题长度[8,9]、摘要长度[10]、作者人数和期刊影响因子[11]、关键词数量[12]、是否有基金资助[13]、参考文献数量[14]、文章页数[15]、作者来自国家数[16]、作者所属机构数量[17]、论文是否是开放获取[18]对被引量有影响,其中作者人数、作者国家数和作者所属机构数量从一定程度上反映了科研合作水平的高低,随着互联网技术不断突破,科研合作成为科研发展的重要趋势,也是近几年文献计量领域的重要研究方向之一[19,20]。现有实证结果已经证明这些因素会对被引量造成影响,因此,为了排除这些因素对因变量的替代性解释[21],本文将这些因素作为控制变量,并且在表1中给出定义。特别地,由于开源代码论文一般属于开放获取文章,于是进一步将是否为开放获取论文和论文是否开源代码这两个变量的交互项考虑为一个新的变量oa*coding(if_oa*coding),验证是否开放获取和是否开源代码对被引量的交互影响。同时为了控制不同年份的论文被引量之间的差异,文章引入了论文发表时间到统计被引量的时间之间的年份差,记为py2。

Table 1
表1
表1重要变量
Table 1Key variables
变量名含义
if_fund论文是否有基金资助,取值为1表示论文有基金资助
if_oa论文是否是开放获取,取值为1表示论文是开放获取文章
au_num论文合著作者人数
kw_num关键词个数
ref_num参考文献数量
country_num作者所属国家数量
school_num作者所属机构数量
ti_len论文标题单词个数
ab_len论文摘要单词个数
py2表示论文发表迄今(2021)年份差
page论文页数
JIF2论文所属期刊影响因子(2年),来自JCR2019

新窗口打开|下载CSV

2.2 研究设计

Papers with Code网站提供的开源论文数据集中有mentioned_in_papermentioned_in_github两个分类变量,用以指示论文和代码的链接途径。Papers with Code网站创始人之一Robert Stojnic对这两个变量给出如下定义:前者为“True”时表示论文在原文中提及开源代码的Github仓库网址,为“False”时表示论文在原文中未提及开源代码的Github仓库网址;后者为“True”时说明在论文对应Github仓库的README文件中提及这篇论文,为“False”时表示在论文对应Github仓库的README文件中未提及这篇论文。基于这两个变量定义规则,本文进一步由问题一扩展到对后两个问题的研究。

本文主要使用的研究方法是回归分析,因为回归分析能够很好地揭示因果效应。具体研究过程如下:首先对数据进行描述性统计分析,然后分别通过回归分析对三个问题进行实证。首先基于多阶段回归模型研究文章是否开源论文代码对被引量的影响,解释问题一;然后基于mentioned_in_papermentioned_in_github两个变量组合成新的变量,研究不同开源类型对被引量的影响程度,以进一步解释问题二和问题三。

问题一:开源代码论文相较于未开源代码论文,其引用优势如何?

本文在加入了其他影响被引量的因素作为控制变量之后,首先使用了回归分析研究了论文是否开源代码对被引量的影响。根据Thelwall得出的结论——在研究被引量及其影响因素之间的关系时,一种较好的方法是将被引量加一之后进行对数处理,然后使用一般线性模型(普通最小二乘法)进行回归[22]。因此本文使用“lg_citation”作为新的因变量,并将其定义为log10(citation+1),其中citation指的是单篇文章从发表开始到统计被引量期间积累的被引量总和;以表1中的重要变量作为自变量,构建多元线性回归模型,采用基于稳健标准误差的普通最小二乘法进行回归分析。回归方程表示如下:lg_citation =b0+b1coding+b2if_fund+b3if_oa+b4au_num+b5kw_num+b6ref_num+b7country_num+ b8school_num+b9ti_len+b10ab_len+b11py2+b12page+b13JIF2+b14if_oa*coding

问题二:不同开源代码类型的论文,相较于未开源代码论文,其引用优势如何?

在研究问题一的基础之上,本文继续研究不同代码开源类型对论文被引量的影响。去掉coding=1且mentioned_in_papermentioned_in_github同时为0的样本数据;基于Papers with Code提供的mentioned_in_papermentioned_in_github的定义,创建三个哑变量,取值均为0或1。对于coding=0的文章,这三个变量的取值全部为0;对于coding=1的文章,取值如表2所示。这样设置哑变量进行分析时是以未开源代码的论文作为参照对象。

Table 2
表2
表2问题二哑变量定义
Table 2Dummy variables definition of question 2
变量名含义
bothmentioned_in_github=1 &
mentioned_in_paper=1
Github_
only
mentioned_in_github=1 &
mentioned_in_paper=0
paper_
only
mentioned_in_github=0 &
mentioned_in_paper=1

新窗口打开|下载CSV

当both取值为1其他哑变量取值为0时表示论文在原文中提供代码链接,且在代码对应的Github代码仓库的README文件中提及论文;当Github_only取值为1其他哑变量取值为0时表示论文在原文中未提供代码链接,在代码对应的Github代码仓库的README文件中提及论文;当paper_only取值为1其他哑变量取值为0时表示论文在原文中提供代码链接,在代码对应的Github代码仓库的README文件中未提及论文。

问题三:不同开源代码类型的论文之间,引用优势对比如何?

由于只有coding=1(开源代码)的论文有mentioned_in_githubmentioned_in_paper两个变量的取值,对于coding=0(封闭代码)的论文不存在这两个变量,因此对于问题三限制样本范围为coding=1的观测记录,研究不同开源代码类型的论文之间的被引优势对比情况。通过创建三个哑变量,分析时以既未在原文中提供代码链接,也未在Github代码仓库中提及原文的论文(以其他方式进行代码开源的论文)作为参照,此时三个变量的取值均为0。

3 实证结果

3.1 描述性分析

表3中分别对研究中的重要自变量和因变量进行了描述性统计分析,实验总共有2 043条观测记录。在统计时间范围内,所有论文的平均被引量是40.26,可以看到论文的最高被引量达到了8 346次,但同时也存在0被引论文,且标准差明显大于均值,说明被引量的离散程度较大,不符合标准正态分布,因而有必要对被引量进行加一对数变换的方法以避免高被引论文对结果造成的影响。在连续变量中,论文合著作者数量的均值为3.874名;关键词数的均值为4.86个;论文引用参考文献数量的均值为52.256篇,综述型论文的参考文献相对较多,对参考文献数量的均值有一定的影响。标题和摘要的平均单词长度为8.899个和194.123个,文章页数平均每篇17.572页;合著作者来自不同的国家数量和机构数量的均值分别为1.546个和2.292个;从论文发表至统计被引量的时间间隔均值为3.628年,论文来自期刊的平均影响因子为5.809。

Table 3
表3
表3描述性统计分析
Table 3Descriptive statistical analysis
VariableObsMeanStd. Dev.MinMax
citation204340.26234.0908346
coding2043.423.49401
if_fu2043.772.4201
if_oa2043.272.44501
au_num20433.8742.415144
kw_num20434.861.961144
ref_num204352.25632.5696571
country_num20431.546.865115
school_num20432.2921.587132
ti_len20438.8993.097120
ab_len2043194.12361.33930975
py20432017.3721.83320102019
py220433.6281.833211
page204317.5729.701386
if220435.8094.49.49623.7

新窗口打开|下载CSV

3.2 回归分析

问题一:开源代码论文相较于未开源代码论文,其引用优势如何?

问题一的主要研究目的是分析论文是否开源代码对被引量的影响,文章构建了三个阶段的最小二乘回归,表4中三个阶段的回归结果中Prob > F的取值都小于0,说明每个阶段的回归都具有统计显著性。第一阶段的回归在使用是否有基金资助、是否OA文章、关键词数量、参考文献数量、标题长度、摘要长度、文章页数、文章所在期刊影响因子这些有关文章和期刊层面的变量和年份作为控制变量之后,得到R-squared是0.346;第二个阶段向其中加入作者层面的控制变量:作者数量、作者来自国家数、作者来自机构数量,得到R-squared为0.3648;第三个阶段向其中加入是否开源和是否开放获取文章的交叉项,R-squared为0.3652,但是加入的交叉项在模型中并不显著,说明是否开放获取文章与是否开源代码文章之间没有明显的交互效应。本文重点分析第三阶段的结果,在控制了作者、文章、期刊和年份等变量之后,发现论文是否开源代码对被引量的影响呈现出显著正相关关系。此外,文章的关键词数量、文章页数、作者来自国家数量与被引量有显著的负相关性;文章的参考文献数量、所在期刊的影响因子、作者数量、文章发表时间、标题长度和摘要长度与被引量显著正相关。文章是否受基金资助、是否是开放获取文章、作者来自机构数量与被引量无明显相关性。

Table 4
表4
表4多阶段回归分析结果
Table 4Results of multi-stage regression analysis
变量Stage1Stage2Stage3
Coding.187***.193***.209***
If_fu-.039.012.011
If_oa-.059**-.074***-.048
Kw_num-.013***-.013***-.013***
Ref_num.005***.005***.005***
Ti_len.008**.006*.006*
Ab_len0***.0004**.0004**
Page-.005***-.005***-.005***
If2.035***.033***.033***
Au_num.037***.037***
Country_num-.033*-.034*
School_num.006.007
Py2.15(0) ***.154***.154***
oa_coding-.056
constant-.034-.101-.102
R-squared0.3460.36480.3652
F-test88.97173.70169.247
Prob > F0.0000.0000.000
Note: *** p<.01, ** p<.05, * p<.1

新窗口打开|下载CSV

问题二:不同开源代码类型的论文,相较于未开源代码论文,其引用优势如何?

问题二对筛选后的样本数据进行最小二乘回归分析,在问题一中第三阶段模型的基础之上,加入了三个哑变量,去掉coding变量和交互项,分析不同开源代码类型的论文,相较于未开源代码论文的被引优势。

表5的回归结果中,Prob > F的取值小于0.01,说明回归结果具有统计显著性。加入了新的变量后发现,bothgithub_only回归系数检验p值均小于0.05,说明在原文中提供代码链接,且在对应的Github代码仓库中提及原文的论文与未开源代码的论文之间存在显著的统计差异。进一步观察回归系数可知,三个哑变量的回归系数均为正,进一步验证了开源代码有助于提高被引。且在控制其他影响被引量的变量的前提下,在Github仓库的中被提及的论文相对未开源代码论文最容易获得较高被引量,既在原文中提供代码链接,又在对应的Github代码仓库中也提及原文的论文比仅在原文中提供代码链接的论文更容易被引用,对此可能的解释是在计算机领域,Github是研究者最常使用的代码托管平台,相比隐藏在论文中的网址,在Github中提及论文更容易被研究者注意到;另外,可能有一些未在论文中直接开源的论文由不同研究者多次复现发布在Github中并提及了原文,从而提高了论文的影响力。

Table 5
表5
表5回归分析结果(问题二)
Table 5Results regression analysis(question 2)
lg_citationCoef.Sig
if_fu.012
if_oa-.076***
au_num.037***
kw_num-.012**
ref_num.005***
country_num-.031*
school_num.004
ti_len.007**
ab_len0**
page-.004***
if2.032***
py2.147***
both.082**
github_only.296***
paper_only.055
Constant-.066
R-squared0.369Number of obs1963.00
F-test61.539Prob>F0.000
Note: *** p<.01, ** p<.05, * p<.1

新窗口打开|下载CSV

问题三:不同开源代码类型的论文之间,引用优势对比如何?

问题三在研究问题一的基础之上选择coding=1的样本,删去所有coding=0的观测记录,旨在通过最小二乘回归得出文章总结出的几种不同开源代码类型的论文,相较于既未在原文中提供代码链接,也未在Github代码仓库中提供原文链接的论文(称为通过其他渠道进行开源代码)的论文的被引优势。表6的回归结果中Prob > F的取值小于0.01,说明回归结果具有统计显著性。从实验结果中可以看出,github_onlypaper_only的回归系数检验p值均小于0.1,说明在原文中未提供代码链接,但在对应的Github代码仓库中未提及原文的论文与通过其他渠道进行代码开源的论文之间存在显著的统计差异。通过观察回归系数可知,在控制其他影响被引量的变量的前提下,仅在Github仓库的Readme文件中被提及的论文相对其他渠道进行代码开源的论文最容易获得较高被引量,仅在原文中提供代码链接论文比通过其他渠道进行代码开源的论文不易被引用,结果与问题二的结果一致。

Table 6
表6
表6回归分析结果(问题三)
Table 6Results of regression analysis(question 3)
lg_citationCoef.Sig
if_fu-.006
if_oa-.091**
au_num.04***
kw_num-.016**
ref_num.005***
country_num-.002
school_num-.022
ti_len.006
ab_len.001**
page-.004**
if2.043***
py2.172***
both-.08
github_only.099*
paper_only-.113*
Constant-.044
R-squared0.448Number of obs864.000
F-test41.553Prob>F0.000
Note: *** p<.01, ** p<.05, * p<.1

新窗口打开|下载CSV

4 结论与展望

本文以计算机领域期刊论文为研究对象,通过多元回归分析验证了论文开源代码的被引优势,比较了不同开源代码类型的被引优势差异,通过对结果进行进一步分析,得出对计算机领域促进开放科学发展有用的结论。

总的来说,通过问题一的研究发现开源代码的论文更容易被引用,此外论文的关键词越多、文章页数越多,合著作者来自国家越多,被引量反而越低;文章的参考文献数量越多、所在期刊的影响因子越高、作者数量越多、文章发表时间越长,标题和摘要越长,被引量越高。其次,通过对问题二的研究发现在Github仓库中有原文链接的论文相对非开源代码论文最容易获得较高被引量,既在原文中提供代码链接,又在对应的Github代码仓库中提及原文的论文比仅在原文中提供代码链接的论文更容易被引用。最后,通过对问题三的研究发现在控制其他影响被引量的变量时,仅在Github仓库中有原文链接的论文相对其他渠道进行代码开源的论文最容易获得较高被引量,仅在原文中提供Github代码链接的论文与通过其他渠道进行代码开源的论文相比不易被引用。

本文的研究结果表明,开源代码不仅提供了研究成果可验证性和可重复性的依据,还能够促进论文提升影响力,增加文章被引次数。基于此,建议计算机领域的研究者更多地选择开源论文代码,并且优先在Github代码仓库上传代码并在说明文档中标注论文信息,同时也可以在论文当中附上开源代码的链接,以促进论文中代码和思想的传播交流,帮助提升作者在领域内的影响力,营造计算机领域内开源共享、合作进步的良好科研氛围。

此外,本研究还存在一定的局限性。影响被引量的因素众多,即便本文已考虑了十数个控制变量,但仍然不够完善;文章判断论文是否属于开源论文的标准是在Papers with Code上是否有代码链接,虽然Papers with Code上的开源资源相对丰富,但是也可能存在一些实际上开源代码的文章但是在该网站上没有收集到;本文主要提到的两种开源类型是在文章中有相关代码的Github链接以及在Github代码仓库中有论文原文的链接,但是还有其他种类的开源类型文章还未涉及,比如作者可能将代码链接放在个人博客或者个人网站上,而没有在论文中给出代码链接,且在Github代码仓库中也没有论文原文链接;本文使用的样本量是2 000条左右,如以后要进行更为全面的研究,还需要更大的数据量来支撑更严谨的实证。

利益冲突声明

所有作者声明不存在利益冲突关系。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

Christensen G, Dafoe A, Miguel E, et al. A study of the impact of data sharing on article citations using journal policies as a natural experiment
[J]. PloS One, 2019,14(12):e0225883.

DOI:10.1371/journal.pone.0225883URL [本文引用: 1]

Ning B, Zhao Y. To Embrace open science more closely
[J]. Innovation, 2020,1(1):100012.

[本文引用: 1]

Stodden V. The Scientific method in practice: reproduci-bility in the computational sciences
[J]. 2010. MIT Sloan Research Paper No. 4773-10.

[本文引用: 1]

Bergh D D, Perry J, Hanke R. Some predictors of SMJ article impact
[J]. Strategic Management Journal, 2006,27(1):81-100.

DOI:10.1002/(ISSN)1097-0266URL [本文引用: 1]

Piwowar H A, Day R S, Fridsma D B. Sharing detailed research data is associated with increased citation rate
[J]. PloS One, 2007,2(3):e308.

DOI:10.1371/journal.pone.0000308URL [本文引用: 1]

Vandewalle P. Code sharing is associated with research impact in image processing
[J]. Computing in Science & Engineering, 2012,14(4):42-47.

[本文引用: 1]

Sinha A, Shen Z, Yang S, et al. An overview of microsoft academic service (mas) and applications
[C] // the 24th International Conference. ACM, 2015.

[本文引用: 1]

魏瑞斌. 论文标题特征与被引的关联性研究
[J]. 情报学报, 2017,36(11):1148-1156.

[本文引用: 1]

Guo F, Ma C, Shi Q. Succinct effect or informative effect: the relationship between title length and the number of citations
[J]. Scientometrics, 2018. 116(3):1531-1539.

DOI:10.1007/s11192-018-2805-8URL [本文引用: 1]

Didegah F, Thelwall M. Which factors help authors produce the highest impact research? Collaboration, journal and document properties
[J]. Journal of Infor-metrics, 2013,7(4):861-873.

[本文引用: 1]

马荣康, 李真真. 高被引还是零被引:基于论文被引的最佳科研合作规模研究——来自Financial Times TOP 45商学院期刊的证据
[J]. 情报学报, 2020,39(11):54-62.

[本文引用: 1]

Uddin S, Khan A. The impact of author-selected keywords on citation counts
[J]. Journal of Informetrics, 2016,10(4):1166-1177.

DOI:10.1016/j.joi.2016.10.004URL [本文引用: 1]

Yan E, Wu C, Song M. The funding factor: a cross-disciplinary examination of the association between research funding and citation impact
[J]. Scientometrics, 2018,115(1):369-384.

DOI:10.1007/s11192-017-2583-8URL [本文引用: 1]

Judge T A, Cable D M, Rynes C. What causes a management article to be cited-article, author, or journal?
[J]. Academy of Management Journal, 2007,50(3):491-506.

DOI:10.5465/amj.2007.25525577URL [本文引用: 1]

Mingers J, Xu F. The drivers of citations in management science journals
[J]. European Journal of Operational Research, 2010,205(2):422-430.

DOI:10.1016/j.ejor.2009.12.008URL [本文引用: 1]

Sooryamoorthy R. Do types of collaboration change citation? A scientometric analysis of social science publications in South Africa
[J]. Scientometrics, 2017,111(1):379-400.

DOI:10.1007/s11192-017-2265-6URL [本文引用: 1]

Yan E, Wu C, Song M. The funding factor: A cross-disciplinary examination of the association between research funding and citation impact
[J]. Scientometrics, 2018,115(1):369-384.

DOI:10.1007/s11192-017-2583-8URL [本文引用: 1]

Gaule P, Maystre N. Getting cited: Does open access help?
[J]. Research Policy, 2011,40(10):1332-1338.

DOI:10.1016/j.respol.2011.05.025URL [本文引用: 1]

李若筠, 吴登生, 徐伟宣, 李建平. 中国管理科学学科发展态势计量分析
[J]. 中国管理科学, 2020,28(3):226-233.

[本文引用: 1]

吴登生, 李若筠. 中国管理科学领域机构合作的网络结构与演化规律研究
[J]. 中国管理科学, 2017,25(9):168-177.

[本文引用: 1]

Bernerth J B, Aguinis H. Acritical review and best-practice recommendations for control variable usage
[J]. Personnel Psychology, 2016,69(1):229-283.

DOI:10.1111/peps.12103URL [本文引用: 1]

Thelwall M, Wilson P. Regression for citation data: An evaluation of different methods
[J]. Journal of Infor-metrics, 2014,8(4):963-971.

[本文引用: 1]

相关话题/论文 代码 数据 计算机 控制