删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

构建支撑科技创新的新一代计算基础设施

本站小编 Free考研考试/2022-01-02

钱德沛,1,2,*1. 北京航空航天大学,北京 100191
2. 中山大学,广东 广州 510275

Building the New Generation of Computing Infrastructure Supporting Technology Innovation

Qian Depei,1,2,*1. Beihang University,Beijing 100191,China
2. Sun Yat-Sen University,Guangzhou,Guangdong 510275,China

通讯作者: * 钱德沛(E-mail:depeiq@buaa.edu.cn

收稿日期:2019-01-20网络出版日期:2020-02-20

Received:2019-01-20Online:2020-02-20
作者简介 About authors

钱德沛,北京航空航天大学计算机学院,教授,主要研究方向为高性能计算机体系结构与实现技术、网格计算、主动网络、计算机网络管理与性能测量等。
Qian Depei, Professor of School of Computer, Beihang University. The main research directions are high-performance computer architecture and implementation technology, grid computing, active network, computer network management and performance measurement.E-mail:depeiq@buaa.edu.cn



摘要
[背景]理论分析、实验观察与计算模拟是科学研究的三大手段。高性能计算作为一个国家综合国力的主要标志之一,具有重要的战略意义。[方法]本文从我国高性能计算机的研制、高性能计算机环境的建设以及计算应用的发展等方面,重点回顾了我国高性能计算在过去20年的发展历程和取得的主要成就,进而对当前“十三五”期间我国对高性能计算重点研发项目的部署和进展进行介绍。[结论]并基于对当前高性能计算发展形势的分析,对加强新一代计算基础设施的建设以及应用的构建提出设想并展开讨论。
关键词: 高性能计算;计算基础设施;计算应用;软件基础平台

Abstract
[Context] Theoretical analysis, experimental observation and computational simulation are the three major methods of scientific research. High performance computing, as one of the main symbols of a country's comprehensive national strength, has important strategic significance.[Methods] This article focuses on the development of high-performance computing, the construction of high performance computer environments, and the development of computing applications in China, which reviews the development history and main achievements of high-performance computing in the past 20 years . Furthermore, the deployment and progress of China's key R&D projects in high-performance computing during the current "13th Five-Year Plan" period are introduced.[Conclusions] Based on the analysis of the current high-performance computing development situation, the author proposes and discusses that strengthening the construction of new-generation computing infrastructure and applications.
Keywords:high performance computing;computing infrastructure;computing applications;software foundation platforms


PDF (12713KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
钱德沛. 构建支撑科技创新的新一代计算基础设施. 数据与计算发展前沿[J], 2020, 2(1): 1-17 doi:10.11871/jfdc.issn.2096-742X.2020.01.001
Qian Depei. Building the New Generation of Computing Infrastructure Supporting Technology Innovation. Frontiers of Data and Computing[J], 2020, 2(1): 1-17 doi:10.11871/jfdc.issn.2096-742X.2020.01.001


本文根据第五届中国科研信息化发展研讨会上作者同名报告整理汇编完成

引言

随着科学技术的迅猛发展,高性能计算已经成为科学技术发展中的重要研究手段,与传统的理论研究和实验观察一起构成了现代科学技术和工程设计中相互补充、相互关联的研究方法[1]。以超级计算机的发展和应用为代表的高性能计算更是人类解决能源、材料、环境、健康等方面所面临的重大挑战性问题的利器和重要手段,是国家创新体系的组成部分,也是国家经济基础和综合实力的表现之一。高性能计算以其基础性、前沿性和前瞻性的特点决定了它是世界主要发达国家激烈竞争的战略制高点[2],其发展将促进产生原始创新和高端技术,进而影响到下游产业。加快发展高性能计算对于提升我国科技自主创新能力、增强国家竞争力、保障国家安全、促进国民经济建设、建设创新型国家具有十分重要的战略意义。

过去20年里,我国通过部署多项国家级科技项目和资助计划来推动中国高性能计算能力的提升,成功研制出多款超级计算机,逐步形成了具有一定规模的国家级高性能计算服务环境,支撑了一批重大的领域应用。本文首先从我国高性能计算机的研制、高性能计算机环境的建设以及计算应用的发展等三个方面,回顾了过去20年里我国高性能计算的发展历程和主要成果;第二部分对我国当前高性能计算的重点部署及相关进展进行介绍;第三部分则对当前形势及面临的主要问题进行分析;最后对新一代计算基础设施和环境的建设进行讨论,以期对我国高性能计算下一步的发展提出一些建议。

1 我国高性能计算建设发展回顾

在国家级战略中,由科技部和国家自然科学基金委员会,尤其以国家高技术研究发展计划(863计划)为主要力量之一,通过多个“五年”的周期规划对我国高性能计算进行了投资建设。上世纪九十年代后期,科技部就开始着手部署高性能计算基础设施的研发计划,通过“863计划”连续20年对高性能计算的研究机构进行持续支持[3]。进入二十一世纪后,自2002年起,“863计划”分别在“十五”“十一五”和“十二五”期间连续实施部署了“高性能计算机及核心软件” “高性能计算机与网格服务环境”和“高性能计算机与应用服务环境”三个重大专项(图1)。

图1

新窗口打开|下载原图ZIP|生成PPT
图1国家高技术研究发展计划(863计划)支持下的高性能计算机及服务发展

Fig.1Development of high-performance computers and services supported by the National High Technology Research and Development Program of China (863 plan)



随着“863计划”对我国高性能计算机的重点项目部署及任务建设,我国高性能计算机的发展也经历了孕育期、成长期和发展期三个阶段[2]

(1)孕育期。这一阶段是“九五”(1996-2000年)和“十五”期间(2001-2005年)。其中,“十五”期间部署的“高性能计算机及核心软件”项目强调资源共享与协同工作的建设,以网格支持多领域应用,并成功研发出10万亿次量级计算机。该成果使得中国成为继美国、日本之后的第三个能制造和应用10万亿次级商用高性能计算机的国家。

(2)成长期。“十一五”期间(2006-2010年),部署了“高效能计算机与网格服务环境”项目,该项目的建设强调了除性能之外计算机其他的指标,包括程序开发的效率、程序可移植性、系统的鲁棒性等。强调计算机系统、环境及应用三位一体的发展和环境的服务特征。在该项目的支持下,我国成功研发了千万亿次量级计算机,创建了国家高性能计算服务环境。

(3)发展期。“十二五”期间(2011-2016年),部署的“高效能计算机及应用服务环境”项目,重点强调了高性能计算环境新的运行模式和机制,探索建立计算服务业的途径,发展应用社区,以便更好地支持应用。这一阶段,高性能计算机的研制取得了长足的发展,研制了包括“天河二号”和“神威·太湖之光”等世界领先的计算系统,标志着我国在超级计算机领域已走在世界前列。

Table 1
表1
表1国家高技术研究发展计划(863计划)支持下的高性能计算机及服务发展三线表绘制
Table 1Development of high-performance computers and services supported by the National High Technology Research and Development Program of China (863 plan)
内容“十五”
(2002-2005年)
“十一五”
(2006-2010年)
“十二五”
(2011-2016年)
重大项目高性能计算机及核心软件高效能计算机与网格服务环境高效能计算机与应用服务环境
建设阶段孕育期成长期发展期
建设目标资源环境运行与管理研发中国国家网格实验床,支持多领域应用机器、环境、应用三位一体发展,建立国家高性能计算服务环境探索建立计算服务业途径,发展领域应用
机器量级十万亿次千万亿次十亿亿次
超级计算机的研制深腾6800
曙光4000A
深腾7000
曙光5000A
曙光6000
天河一号
神威蓝光
天河二号
神威·太湖之光
最快的机器计算能力11.2万亿次4700万亿次12.5亿亿次以上
(最好)TOP 500排名1011
国家高性能计算环境聚合能力节点数81415
计算资源18 万亿次8000 万亿次18亿亿次
存储资源200TB15PB34PB
应用并行规模数百核数万核千万核
项目经费国拨1亿元,自筹2亿元国拨9.2355亿元,自筹17.89亿元国拨13.09亿元,自筹24.02亿元
项目规模32个研究课题,参研单位71个,参研人员713人41个研究课题,参研单位59个,参研人员2872人15个研究课题,参研单位51个,参研人员3878人

新窗口打开|下载CSV

下面将分别从高性能计算机的研制、高性能计算机环境的建设以及计算应用的发展等三个方面,对我国高性能计算方面的建设进行介绍。

1.1 我国高性能计算机的研制

我国高性能计算机研制从1996年到2016年的20年间得到了快速发展,总的计算能力从1996年的以“曙光1000”为代表的25亿次/秒,快速提升到2016年以“神威·太湖之光”为代表的12.5亿亿次/秒,提高了五千万倍。从“十五”“863计划”开始,高性能计算机的研发打破了过去定向委托一家承担的做法,引入了竞争机制,注重发挥用户的作用。这期间,在国家科技计划的支持下,我国研制出一系列的里程碑系统,如“曙光3000” “联想6800” “曙光4000A” “天河1号”等(表2)。其中,由国防科学技术大学研制,安装在国家超算广州中心的超级计算机系统“天河二号”,在2013年6月以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居全球超级计算机500强(TOP 500)榜首,成为当时全球最快超级计算机[4] 。此后从2013年的6月到2015年的11月,共6次在世界榜上连续第一,目前排世界第四[5]。2016年,“神威·太湖之光”超级计算机研制成功,该超级计算机由国家并行计算机工程技术研究中心研制,安装在国家超级计算无锡中心。“神威·太湖之光”超级计算机安装了40 960个中国自主研发的“申威26010”众核处理器,该众核处理器采用64位自主申威指令系统,峰值性能为12.5亿亿次/秒,持续性能为9.3亿亿次/秒。在2016年6月的法兰克福世界超算大会上,国际TOP 500组织发布的榜单中,“神威·太湖之光”超级计算机系统登顶榜单之首,不仅速度比时年第二名的“天河二号”快出近两倍,其效率也提高3倍[6]。此后,从2016年6月到2017年的11月,该计算机连续四次在世界五百强排名第一,目前排名世界第三[6]

Table 2
表 2
表 2我国1996年到2016年高性能计算机发展概览三线表绘制
Table 2Overview of the development of high-performance computers in China from 1996 to 2016
年份(年)计算机名称理论峰值实际持续运算速度LINPACK值架构部署地
1996曙光100025.6亿次/秒15.8亿次/秒MPP
2001曙光30004032亿次/秒2800亿次/秒机群
2003联想深腾68005.32万亿次/秒4.183万亿次/秒机群北京
2004曙光4000A11.2万亿次/秒8.06万亿次/秒机群上海
2008联想深腾7000157万亿次/秒106.5万亿次/秒异构机群北京
2008曙光5000A233万亿次/秒160万亿次/秒机群上海
2010曙光60003000万亿次/秒1.271万亿次/秒异构加速结构深圳
2010天河一号4700万亿次/秒2566万亿次异构加速结构天津
2011神威蓝光1000万亿次/秒796万亿次国产多核济南
2013天河二号5.49亿亿次/秒3.39亿亿次异构加速广州
2016神威·太湖之光12.5亿亿次/秒9.3亿亿次国产众核无锡

新窗口打开|下载CSV

1.2 我国高性能计算环境建设

除了研发高性能计算机系统以外,建设高性能计算机环境,努力改变过去计算机的孤立使用状态,提高其使用率,让计算普惠化,将计算资源服务于更多的科学家,也是我国亟待解决和重点建设的问题之一。

回顾1996年,我国只有一个国家高性能计算中心,即国家高性能计算中心(合肥)。该中心配置的主机为峰值计算能力6.4亿次定点计算的“曙光一号”。2002年启动的“高性能计算机及核心软件”重大专项研究和突破网格关键技术,建立了聚合计算能力18万亿次的国家高性能计算环境实验床(即中国国家网格)。

经过多年的建设,中国的高性能计算环境从无到有,得到了长足发展。到了2016年已建成由17个高性能计算中心组成的中国国家高性能计算服务环境,其资源能力列世界前列,总峰值计算能力超过20亿亿次,总存储能力也超过200PB字节,提供数百个应用软件,汇聚了数万用户,用以支持数千国家科研和工程项目(图2)。

图2

新窗口打开|下载原图ZIP|生成PPT
图2中国国家高性能计算服务环境资源分布(2016年)

Fig.2National High-Performance Computing Services Environmental resources distribution (2016) in China



1.3 我国高性能计算应用的发展

随着我国高性能计算机及高性能计算环境的建设,高性能计算应用也有了巨大进步。1996年,我国高性能计算资源有限,应用范围也局限在气象预报、石油勘探等少数领域,并行计算规模仅为几十个核处理器,其应用软件还主要依赖进口。经过20年的发展,到了2016年,我国高性能计算应用领域已经广泛扩展到众多领域,普及度得到大幅提升。自主研发了一大批大规模并行应用软件,并在相关行业和领域得到实际应用,包括大飞机研发、高铁列车设计、石油勘探、新药发现、集合气象预报、汽车研发、流体机械优化设计、电磁环境计算等(图3),为我国的国民经济建设和科技强国发展提供了有力的支持。

图3

新窗口打开|下载原图ZIP|生成PPT
图3我国高性能计算应用领域得到广泛提高

Fig.3High-performance computing applications have been widely improved in China



某些应用的并行规模已经达到千万核处理器。其中,由中国科学院软件研究所、清华大学、北京师范大学、国家并行计算机工程技术研究中心和国家超级计算无锡中心的联合团队合作完成的“千万核可扩展全球大气动力学全隐式模拟”,以及由清华大学与山东大学、南方科技大学、中国科学技术大学、国家并行计算机工程技术研究中心和国家超级计算无锡中心等共同完成的“非线性地震模拟”项目,分别在2016年和2017年获得戈登·贝尔奖,实现了我国在此奖项上零的突破,成为我国高性能计算应用发展的新的里程碑。

2 我国E级计算的建设

我国在“十三五”阶段持续提高在高性能计算应用领域的投入[7],设立高性能计算重点研发专项,并在在机器、应用和环境这三个方面部署了一批重点研究任务(表3)。总体目标是依托自主可控技术实现E级计算机,使我们国家高性能计算机性能保持世界领先水平,同时研发一批关键领域高性能计算机应用软件,建立国家级高性能计算应用软件中心,构建高性能计算应用生态环境。建成具有世界一流资源能力和服务水平的国家高性能计算环境。

Table 3
表 3
表 3我国“十三五”高性能计算研发的重点任务部署三线表绘制
Table 3Key tasks for high-performance computing research and development in China during the "13th Five-Year Plan"
E级计算机系统研制高性能计算应用软件研发高性能计算环境研发
基础前沿高性能互连计算、编程及运行模型E级计算的可计算建模与新型计算方法
面向E级计算的并行算法库
计算服务化模型及体系架构
虚拟数据空间
共性关键技术E级机验证原型
E级计算机系统
并行编程框架
应用软件开发环境与工具
国家高性能计算环境服务化机制与支撑体系研究
应用示范数值装置
领域应用软件
基于高性能计算环境的服务系统(集成业务平台、领域应用社区、HPC教育实践平台)

新窗口打开|下载CSV

2.1 我国E级计算机系统的研发

我国“十三五”高性能计算专项课题对E级计算机系统的研发进行了全面部署。三个E级超算的原型机系统分别为神威E级原型机、“天河三号”E级原型机和曙光E级原型机系统(表4)。

Table 4
表4
表4我国E级计算机系统的研发三线表绘制
Table 4Research and development of Exascale computer systems in China
E级原型机系统曙光E级原型机“天河三号”E级原型机神威E级原型机
体系结构特点加速体系结构(节点内异构)基于应用需求的柔性体系结构(系统级异构)面向多目标优化的多态多尺度自适应体系结构(片内异构)
节点数512 节点512节点512节点
峰值计算能力3.18PFlops3.14 PFlops3.13 PFlops
Linpack性能2.27PFlops2.46PFlops2.55 PFlops
Linpack效率71.5%78.5%81.51%
安装部署地点国家超算上海中心、国家超算深圳中心国家超算天津中心国家超算济南中心

新窗口打开|下载CSV

(1)曙光E级原型机

曙光E级原型机验证系统采用加速体系结构,我们称之为节点内异构,包含512个节点,采用1 024个海光X86处理器和512个海光DCU加速器,通过6D Tours实现节点间200Gbps/node的互联(图4)。该系统实现了对现有软件资产的保护和利用。

图4

新窗口打开|下载原图ZIP|生成PPT
图4曙光E级原型系统设计

Fig.4Exascale prototyping system design of Sugon



(2)“天河三号”E级原型机

“天河三号”E级原型机验证系统,可以称之为“天河三号”的前身。该机器的设计强调了系统级异构或者分区异构,可满足不同应用需求的柔性体系结构(图5)。其所有处理器通过互联网对应高速互联,可由软件来定义系统的组态,例如单纯CPU,或单纯加速器,或者CPU和加速器协同工作。该系统基于128核迈创处理器实现,目前已投入运行,饱和使用。

图5

新窗口打开|下载原图ZIP|生成PPT
图5天河E级原型验证系统设计

Fig.5Tianhe Exascale prototype verification system design



(3)神威E级原型机

神威E级原型机验证系统采用片内异构,实现了面向多目标优化的多态多尺度自适应体系结构。该系统基于国产申威众核处理器,采用260核的众核处理器,核分成四组,每组一个大核加64个小核。系统实现了高密度弹性超节点,通过高性能互连网络互连。整个系统包括512个节点,总计算性能3.13PFlops,Linpack效率达到了81.51%(图6)。该系统从硬件层、软件层到应用层,全面验证了未来E级计算机的关键技术。

图6

新窗口打开|下载原图ZIP|生成PPT
图6神威E级原型验证系统设计

Fig.6Sunway Exascale prototype verification system design



2.2 E级计算的应用软件

重点研发专项在应用软件方面,强调以应用为驱动。例如,可计算建模方法和计算方法基础研究项目从四类应用问题中提取出超大规模线性、非线性方程组求解、矩阵特征值求解等共性问题,研发新型的可扩展基础算法,构建适应于E级计算的可计算物理模型与新型计算方法(图7)。

图7

新窗口打开|下载原图ZIP|生成PPT
图7构建适应于E级计算的可计算建模与新型计算方法

Fig.7Computational modeling and new computing methods suitable for E-level computing



图8展示了数值装置项目之一数值地球系统的研究内容。该项目通过数学模式、物理参数、算法关键计算方面的研究,建立地球系统的模式,把大气、陆地、海洋等等模式通过耦合器耦合起来,进行地球系统科学研究。

图8

新窗口打开|下载原图ZIP|生成PPT
图8地球系统模式研究项目研究内容

Fig.8Research content of the Earth System Model research project



为了支持应用软件开发,“十三五”高性能计算专项还专门设置了支持应用软件开发工具与环境的项目。该项目研发了跨平台的超算应用开发框架、工作流、数据管理、资源管理以及数学库工具等,形成应用软件的开发环境[8]。还提供面向大规模的前后处理和可视化、程序性能与能效调优、大规模并行应用软件资源库等(图9)。

图9

新窗口打开|下载原图ZIP|生成PPT
图9应用软件协同开发工具与环境

Fig.9Application software collaborative development tools and environment



2.3 “十三五”国家高性能计算环境的建设

国家高性能计算环境在“十三五”期间也得到了持续发展。在前20年的建设基础之上,高性能计算环境整体得到了进一步提升,包括从单中心(合肥)拓展到双中心(北京、合肥)运行,节点数也由2016年的17个扩展到19个,主要节点间的互联带宽拓展到1Gbps,同时开发了基于微服务的计算门户以及基于应用的全球调度与预测(图10)。

图10

新窗口打开|下载原图ZIP|生成PPT
图10“十三五”国家高性能计算环境

Fig.10"13th Five-Year Plan" National High-Performance Computing Environment



截至2019年底,经国家科技部批准,已经建成的国家超级计算中心有6家(表5),分别是国家超级计算天津中心、国家超级计算广州中心、国家超级计算深圳中心、国家超级计算长沙中心、国家超级计算济南中心、国家超级计算无锡中心。

Table 5
表5
表5“十三五”国家超级计算中心简表三线表绘制
Table 5Summary table of the "13th Five-Year Plan" National Supercomputing Center
名称配置主机计算能力批准建设时间
国家超级计算天津中心天河一号4.7PFlops2009年
国家超级计算深圳中心曙光60003PF2009年
国家超级计算长沙中心天河一号1.37PF2010年
国家超级计算济南中心神威蓝光1.07PF2010年
国家超级计算广州中心天河二号100PF2012年
国家超级计算无锡中心神威·太湖之光125PF2013年

新窗口打开|下载CSV

专项支持了10个基于国家高性能计算环境的服务系统项目,例如,由中国科学院微电子研究所正在研发的“基于高性能计算的EDA平台”项目(图11)是其中之一。该平台提供常用的商业和自研的EDA软件。目前100个用户以上可以同时在平台上设计IC,千万门级电路仿真加速达到2~10倍。

图11

新窗口打开|下载原图ZIP|生成PPT
图11基于HPC的EDA平台

Fig.11HPC-Based EDA platform



3 当前形势及挑战

性能更强更高效的超级计算机是全球研究机构、大学与公司正在追求的目标。大数据、人工智能处理技术等新技术的发展也给计算与存储平台、计算能力等提出了很高的要求[9]

3.1 超级计算机发展遇到瓶颈

过去20年间,超级计算机的研制得到了快速发展,从1993年到2012年,超级计算机的性能增速为每10年提高1000倍。但从最新的TOP500曲线(图12)来看,从2013年起,这一上升速率变缓。2019年11月最新发布的TOP500榜单[7]中前10名较该年6月的发布名单中并没有发生变化。超级计算机的发展遇到了瓶颈。其中包括:(1)能效指标的约束。计算架构师们一直信奉的摩尔定律和 Dennard Scaling已接近极限;(2)体系结构变化缓慢;(3)尚无换代的颠覆性技术出现;(4)新原理器件缺少突破;(5)算法、软件和硬件之间匹配不良等等。基于此,如果未来几年没有大的突破,则超级计算机的性能增速可能降低为每10年提高100倍,甚至更低。

图12

新窗口打开|下载原图ZIP|生成PPT
图12TOP500曲线图

Fig.12TOP500 curve



3.2 国际竞争日趋激烈

超级计算机问世以来,持续推动着全球经济社会的转型升级,世界各主要国家均把高性能超级计算机开发列入本国的优先发展规划,竞争日趋激烈。

(1)美国

2015年7月29日,美国总统奥巴马签发行政令,正式启动美国国家战略性计算计划(National Strategic Computing Initiative,NSCI),将制定统一的、多部门协同参与的战略愿景和联邦投资战略,并与产业界和学术界通力合作,实现HPC利益最大化。NSCI将制定一项综合性技术与科学方案,将针对硬件、系统软件、开发工具、应用程序的HPC研究有效融入系统开发中,并最终实现系统运行(图13)。

图13

新窗口打开|下载原图ZIP|生成PPT
图13美国国家战略计算计划组织结构设计[10]

Fig.13Organization structure design of the US National Strategic Computing Plan[10]



其中,能源部(DOE)实行的ECP计划,投入18亿美元用于研制3台E级计算机,单独投资18亿美元用于应用的研发。在E级计算机的研发中,持续性能1EF的A21将在2021年上半年完成,持续性能1.5-3EF的Frontier在2021-2022完成,Serra的后续E级(4-5EF)将在2023完成,预计2024年达到8-12EF性能(图14)。

图 14

新窗口打开|下载原图ZIP|生成PPT
图 14美国E级计算机的规划(数据来源:Hyperion Research 2018)

Fig.14Planning for an Exascale computer in the United States (Data source: Hyperion Research 2018)



(2)日本

在2019年11月结束的最新一届世界超算大会(SC19)上,日本新一代超级计算机——基于ARM架构的“富岳”(Fugaku,原名POST-K)的初阶系统以能效比16.9 GFlops/W一举夺得了超算节能Green500榜单的第一名,证明基于众核处理器的系统能效可以超过基于GPU的异构加速系统。

“富岳”初阶系统基于新一代ARM处理器实现,配备了768个富士通开发的“A64FX”芯片,具有多功能、大规模并行、省电的优点,能效指标高,方便软件的开发、移植,扩展了512位的向量部件,系统的Linpack性能为2P。目前该机在T0P500上排名第159位,也是继Astra之后第二个进入TOP500的ARM架构系统[10]。同时,该机器在内存系统上采用了非常豪华的配置,配以HBM2,内存带宽1TB/s,内容容量大(内存字节/Flops=0.4,同比太湖之光约为内存字节/Flops=0.01),性能好,系统软件同步研发,用以支持新处理器的微内核操作系统。

图15

新窗口打开|下载原图ZIP|生成PPT
图15富士通“A64FX”芯片

Fig.15Fujitsu "A64FX" chip



“富岳”全机预计将在2020年10月部署完成,2021年左右投入使用。日本在“富岳”的研发项目上投入约1100亿日元(折合人民币约70亿元),研发目标是对之前在“京”上运行的某些应用可以加速100倍,但能耗却控制在只有“京”的3倍。按照计划,其峰值性能可超400PF。可支持企业和大学在新药开发、地震海啸模拟和集中暴雨预测等方面的研究。日本希望藉此力争在运算速度和节能性上达到全球超级计算机领先水平,并对于后续E级系统的研发进行了部署。图16为日本理化学研究所科学计算中心主任Satoshi Matsuoka教授在SC19大会上对“富岳”的介绍[11]

图16

新窗口打开|下载原图ZIP|生成PPT
图16“富岳”在9个目标应用领域的性能表现(数据来源:Satoshi Matsuoka教授在SC19大会上的介绍)[10]

Fig.16Performance of "Fuyue" in 9 target application fields (Data source: Prof. Satoshi Matsuoka's presentation at the SC19 conference) [10]



此外,日本在国家高性能计算基础设施和计算环境的建设方面,进行了一系列战略部署。日本的国家高性能计算机基础设施(HPCI),以当时世界最高水平计算能力的超级电脑“京”为核心,通过高速网络将国内大学的计算机和存储器连接,包含10个高性能计算中心和数据中心,实现了应对多样使用者需求的创新性计算环境。日本于2012年9月开始实施“HPCI战略计划”,以最大效能地应用“京”和“HPCI”,构建了“下一代制造”等战略领域的研发和计算机科学技术体制。同时政府还采取了完善研究支撑体制、开展人才培育等措施。

(3)欧盟

欧洲高性能计算具有良好的研究基础和应用基础。截至目前,欧盟2020地平线(H2020)已提供3亿欧元资助,总研发投入已超过7亿欧元,在欧盟层面组建高性能超级计算公私伙伴关系(HPC-PPP)和技术平台(HPC-ETP)[1]。欧盟计划在现有的高性能计算基础设施与技术服务平台(PRACE)基础上,研制开发新一代百亿亿次高性能超级计算机,包括低功耗高性能计算芯片和光子计算等。计划于2023年左右建立欧洲的E级计算基础设施,预计包括3台左右的百亿亿次高性能超级计算机。

在此过程中,将加强对自主研发处理器的投入,由Atos公司牵头专门研究欧洲处理器。欧盟重视开放硬件体系结构,依托巴塞罗那超算中心建立欧洲开放计算机体系结构实验室(LOCA),研究开源处理器架构。

欧盟通过规划整合现有的高性能计算基础设施与技术服务平台(PRACE)、泛欧高速互联网(GEANT)和大数据重大专项(ECCEL)等,创建欧盟高性能超级云计算服务中心和成员国云计算服务分中心,泛欧大数据传输与软件支撑中心,高速宽带互联互通基础设施,全面提升欧盟超级计算服务能力。在软件研发和应用方面,进一步加强对新的计算模型、语言、算法,以及大规模数值模拟的研发。

3.3 国内形势变化

在信息技术高速发展的客观环境下,我国国内形势也发生了变化。一方面,新的技术热点层出不穷,如大数据、人工智能、区块链等等,这些热点不断出现可能会降低对于我们高性能计算关注的程度或者投资的强度。另一方面,近年来我国高性能计算机连续多年夺得世界第一、我国已成为事实上超算大国,社会对于这个领域期望值很高,加之国际环境的变化多端与激励竞争,压力也随之倍增。但是我们要看到机遇和挑战并存,我们坚持发展支持科技创新的基础设施信念不能动摇。

3.4 面临的挑战

我国超算行业处于快速发展期,虽取得了不小的成绩,但也存在一定的不足。包括应用水平方面与国外相比还有一定差距,企业用户的数量依然不高等问题。此外,我国高性能计算的下一步发展还面临诸多挑战。

(1)关键技术“卡脖子”问题

当前,全球的超级计算机正在进入E级计算时代,核心技术研发成为关键。但我国高性能计算机系统的关键部件仍依赖进口,其关键技术亟待突破,在E级计算上还面临着一系列卡脖子问题。包括高性能的处理器、加速器、内存芯片(尤其是3D内存和新型的存储器件)、高性能互连网(基于光传输、光交换器件所实现的高速互连网)等。此外,用于IC设计的EDA软件方面也是我们所面临的严重的瓶颈问题,此外还有先进的芯片制造工艺以及工程计算软件等等。另外,我国超级计算机能耗较高的问题依然存在,需要加大研发力度,实现创新突破。

(2)高性能计算基础设施的可持续发展存在一定困难

我国的超级计算基础设施近年来得到了快速发展,社会需求也越来越大,但在资源建设和分布上还存在不均。与发达国家项目相比,我国在高性能计算的组织管理方面都有很大差距。此外,还面临着可持续发展的困难。首先运行资金不足,另外服务模式存在不足,目前主要还是靠提供机时的模式来提供服务,而真正提供解决方案的能力还有待提高。

(3)应用软件资源不足

我国在高性能计算领域的投入,过去更多是对硬件研发上的投入。相比较而言,我国在超算应用上的能力,包括应用的软件和水平,都与国际领先水平存在差距,软件资源明显不足。主要体现在以下两个方面:一方面,自主软件不足。我国虽然这些年在高性能计算软件的研发方面加强投入并产出不少成果,但在整个国际环境和发展背景下,我国自主研发的应用软件占比较少,尚未形成体系。另一方面,国际资源使用有限。国际上现有的开源软件不一定满足需求,同时也存在着使用受限的潜在风险;而商业化的软件价格昂贵,并行度有限,和我国国产超算系统也不匹配,使用有限制。

(4)人才短缺

我国超算人才缺口很大。当前各超算中心的人员构成还面临很多问题。例如,中心人员结构不合理,能够利用超算解决应用问题的的高素质人才短缺。我国学科交叉尚没有形成风气,现行的评价体系不利于学科交叉人才的培养。这也直接影响到应用软件的研发和普及应用。超算的进一步发展急需培养更多具有国际视野、前沿技术思维的复合型专业人才。

4 构建新一代计算基础设施

基于上述分析,在当前形势下,加快构建新一代高效、新型的计算基础设施,满足科研创新的需求是我们迫切要解决的问题。

4.1 新一代国家计算基础设施要素

新一代国家计算基础设施的建设目标是能够有效支撑科学发现和技术创新,应主要包含以下要素:

(1)基础设施是基石,应具有世界一流的软、硬件资源;并在此基础之上,打造能为学科交叉的研究开发和服务提供资源的平台。

(2)能够帮助用户解决问题,以提供解决方案为主。即具有为用户提供解决问题的服务能力。因此要求基础设施的成员单位人员结构合理,素质高,具有很强的研发和技术推广能力,以及为用户提供解决方案的研发、优化等能力,对基础设施能够有效管理,保障资源的高效利用和稳定运行。

(3)与科技界和工业界有密切的合作关系。

(4)能通过多渠道保证运行经费的充足。例如以政府支持为主,并通过优质服务和技术研发获得经济收益作为辅助支撑。

4.2 合理有效的资源整合

国家计算基础设施应分为不同层级进行建设。可将其设想为一个金字塔结构(图17),顶层是少数国家级超算中心,这些中心必须要符合具有世界领先的软硬件设施能力和服务水平的要求,国家的有限财力要集中支持少数的国家超级计算中心。中层是数量较多的区域级或者行业超算中心,充分发挥地方和行业的积极性。底层是众多的单位和部门级计算资源,而且这些资源要择优整合后进入国家超级计算基础设施。这样设计的目的就是让不同的应用适配最适合的资源。本地资源支持开发,中等规模应用在区域和行业中心运行,大规模应用则可在国家超算中心运行。

图17

新窗口打开|下载原图ZIP|生成PPT
图17国家计算基础设施金字塔层次概念图

Fig.17Conceptual map of the national computing infrastructure pyramid



基础设施中各层级的计算资源需要互联互通,合理调度,确保计算、软件和数据资源有效使用,发挥资源的最大效用。

国家超级计算基础设施需要设置进入和退出机制,如对成员的资源能力和服务水平进行定量评估,设立进入门槛,保证设施的高效率运行。

4.3 加强对高性能互联网络的建设

实现金字塔型国家基础设施的高效运行的基础条件是高性能互联网络,所以改善基础设施互联必然成为一个紧迫的事情。我国超算基础设施目前依托公共网络,互联性能远远低于国际同类系统。美国能源部的超算中心,从若干年前互联带宽就达到了40GB,几年间不断升级后更是达到100GB,并且还在不断提高。我国由于运行经费限制,只能租用公用网络带宽,最高目前只有1GB,与国际先进网络性能相差几十到上百倍。由于网络带宽不足严重阻碍了有大量数据输入输出的应用,用户体验也造成影响。因此需要在未来增加网络带宽购买运行的费用,同时要争取与中国下一代互联网示范工程(CNGI)等其他国家计划项目的合作来科学解决网络性能的问题。

4.4 探索新的运营模式和机制

新的基础设施还需要探索新的运行模式和机制。总体思路就是要从提供机时为主向提供解决方案为主转变。同时,国家对于这些基础设施的运营经费的投入,也可从实际应用需求出发进行合理配置。我们基于以往建设情况和国内外先进案例,提出几点建议。例如,建议国家把是否采用计算手段来开展科研作为衡量科研项目的指标,从立项阶段就开始实施对相关经费的投入。我国每年大概几百亿科研经费,如果部分项目列支一定比例的计算费用,则总体上就可满足国家计算基础设施的运行要求。此外,国家可以设立专项的“计算基金”支持科学研究,也可通过让市场上的数值模拟公司、应用软件公司等相关公司有偿使用国家计算基础设施的资源,盘活国有资产,提供计算服务,研发计算软件产品。以上可以通过少数几个超算中心联合进行试点后再逐步地扩大。

5 高性能计算软件基础平台亟待发展

众所周知,没有软件就没有稳定的用户,没有应用软件,基础设施就不可能持续发展。单纯追求硬件指标不可能解决高性能计算可持续发展的问题,对于高性能计算的发展,应用软件是关键。对于应用软件资源建设,我们提出以下几点建议和意见,供大家参考。

5.1 应用软件资源建设建议

对应用软件的资源建设问题,我们简单归纳了以下几点建议:

(1)应用软件的资源问题应多渠道解决。需将自主研发软件、开源软件和商业软件统筹结合考虑。

(2)应用软件的研发应该和基础设施建设互动形成良性循环,并且要“有利可图”。软件的开发,是一个循环往复的过程。首先开发出的软件需在基础设施上进行试用验证,验证基础上进行功能性的完善,在完善的基础上逐渐使软件产品化,同时再把产品在基础设施上提供对外服务来获得收益,从而使应用软件开发有利可图,积累资金再促进新的开发。

(3)应用软件的开发还需充分发挥群智作用,保障充足的研发力量。

(4)应用软件的研发必须和国产超级计算机平行发展,从而保持我国高性能计算软硬件发展的动力。这是我们需要特别注意,也是一项长期的战略任务。

5.2 发展建设我国高性能计算软件的基础平台

什么是高性能计算软件基础平台?我们可以将其想象为应用软件生产的工作母机。依托该平台可以灵活快速地开发各个不同学科领域的计算应用软件,比如数值装置、科研虚拟仪器、物理系统模拟、科研大数据分析软件等等。该平台的建设对我国各科研机构和大学而言,是一项刻不容缓工作。

高性能计算软件基础平台的概念层次结构如图18所示。底层为我国国产超级计算机构成的硬件层。其上提供一个支撑平台,该平台包含了各种各样的模型库(或者说常用的典型模型库)、算法库(高效与硬件匹配的算法以及它们的实现)、工具库(与硬件相结合的优化工具、调试工具等)、基础模块库等。在这些算法、模型库的基础上,构造一些常用的、有一定功能的基础软件模块并且形成应用软件资源库。通过流程编排工具例如工作流等来把这些库或者模块连接起来,形成更高层次的功能。同时还要有数据存储、传输、分析的功能。另外,该平台还提供对编程的支持。基于这样一个支撑平台,大家就可以按照功能目标进行流程编排,灵活地组合各种各样的资源库和各种模块来生成所需要的应用软件。

图18

新窗口打开|下载原图ZIP|生成PPT
图18高性能计算软件基础平台设想

Fig.18High-performance computing software basic platform



以上仅是我们关于发展高性能计算软件的基础平台的设想。我们认为,该平台的建设应从顶层设计,并且它应该是一个可生长、可扩展,可以通过长期积累来形成的功能丰富、性能良好的平台,应该尽快着手启动。

6 小结

过去二十多年来,我国持续进行的高性能计算系统、高性能计算应用软件和高性能计算环境的研发和部署使得我国的计算能力得到快速发展,处于世界前列。为了在未来数十年维持并努力扩大优势,满足日益增长的计算能力需求,使得高性能计算的收益最大化,并应对新兴应用带来的挑战与机遇,在激烈的国际竞争中占据有利地位,我们经过思考,抛砖引玉,提出以上设想和建议。希望能对我国新一代计算基础设施的建设有所裨益。

利益冲突声明

所有作者声明不存在利益冲突关系。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

中国科学院数理学部. “高性能计算战略研究”咨询组. 加速发展我国高性能计算的若干建议
[J]. 科研信息化技术与应用, 2008,1(3):1-7.

[本文引用: 2]

迟学斌等 . 国家高性能计算环境发展报告[M]. 北京: 科学出版社, 2019.
[本文引用: 2]

谢向辉, 胡苏太 . 中国“863计划”高性能计算的发展
[J]. 科研信息化技术与应用, 2015,6(4):3-10.

[本文引用: 1]

TOP 500 list for June 2013
[WB/OL]. .

URL [本文引用: 1]

TOP 500 list for November 2019
[WB/OL]. .

URL [本文引用: 1]

TOP 500 list for June 2016
[WB/OL]. .

URL [本文引用: 2]

迟学斌等. 国家重点研发计划助力国家高性能计算环境服务化建设迈上新台阶
[J]. 科研信息化技术与应用, 2016,7(4):84-88.

[本文引用: 2]

迟学斌, 赵莲, 王姗姗, 张鉴, 姜金荣 . 高性能计算框架软件——SC_Tangram
[J]. 数据与计算发展前沿, 2019,1(1):11-21.DOI: 10.11871/jfdc.10-1649.2019.01.003.PID:21.86101.2/ jfdc.10-1649.2019.01.003.

[本文引用: 1]

李肯立 . 面向人工智能和大数据的高效能计算
[J]. 数据与计算发展前沿, 2020,2(1):27-37.

[本文引用: 1]

历军 .我国高性能计算科技政策分析——与美国NSCI计划对比
[WB/OL].中国网2019.03.20. .

URL [本文引用: 5]

日本新一代超算系统神秘面纱即将揭晓,有望改变世界超算现有格局[WB/OL]. .
URL [本文引用: 1]

欧盟加速研制开发高性能超级计算机.2016/06/23 . .
URL

相关话题/计算 计算机 环境 系统 软件