Analysis of High Performance Computing Capability Construction in Aviation Manufacturing Industry and Research on the Integrated Construction Method
YANG Rufeng,*AVIC DIGITAL CORPORATION LTD., Beijing 100028, China通讯作者: 杨如峰(E-mail:yangrf@avic-digital.com)
收稿日期:2020-11-13网络出版日期:2021-02-20
Received:2020-11-13Online:2021-02-20
作者简介 About authors
杨如峰,金航数码科技有限责任公司,学士,系统集成部副部长,主要研究方向为制造业企业IT基础设施、高性能计算机、信息安全、工控安全。
YANG Rufeng, Bachelor, is the deputy Minister of IT infrastructure and infor-mation security Department of AVIC Digital Corporation Ltd. His recent research interest areas follow IT infrastructures of manufacturing enterprises, high performance computers, information security, and industrial control system security.He completed the entire paper.E-mail:
摘要
[目的]高性能计算技术在航空制造业应用不断深入,加快了科技进步的步伐,美国在此方面表现较为突出。相比之下,我国此方面能力较为薄弱,能力不足、不均衡问题较为突出,本文基于当前面临的问题和新的发展趋势,尝试提出一套建设框架和规划设计方法。[方法]本文分析了美国情况、国内同行业高性能计算基础设施情况,对航空制造业在高性能计算技术应用面临的问题进行了总结,对趋势进行了分析。[结果]结合问题和发展趋势,给出建设参考框架和规划设计方法,推动系统建设高质量发展。[结论]高性能计算机已经成为颠覆产品设计研发、引领创新的重要保障手段和技术,在当前航空制造业快速发展阶段,需推动快速建设,补齐短板,做好人才队伍的建设,实现行业/领域全面能力水平提升。
关键词:
Abstract
[Objective] As high performance computing (HPC) technology goes deep into the aviation manufacturing industry, the pace of scientific and technological progress is accelerated. Compared to the United States, which achieves outstanding achievements in this regard, China holds an inferior status because of two major problems of insufficient and imbalanced constructions. Based on the current status and development trend, this paper attempts to propose an architecture and associated design framework for HPC capability construction. [Methods] The HPC infrastructure in the United States and in China are studied, problems faced by the aviation manufacturing industry in the application of HPC are summarized, and the trends in HPC development are analyzed. [Results] An architecture and design framework for HPC capability construction are proposed to promote high quality development of the system. [Conclusions] High performance computing has become an important technology which subverts the traditional product design method and leads innovation. In the current development stage of the aviation manufacturing industry, it is necessary to promote rapid construction and make efforts to build up talent teams in high performance computing, so as to improve the overall ability of the domestic industry.
Keywords:
PDF (7274KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
杨如峰. 航空制造业高性能计算能力建设情况分析及建设集成方法研究. 数据与计算发展前沿[J], 2021, 3(1): 88-97 doi:10.11871/jfdc.issn.2096-742X.2021.01.007
YANG Rufeng.
引言
航空制造业是高端装备制造业(也称先进装备制造业)典型代表,是国防科技工业的重要组成部分,是国家工业技术能力的集大成者。高性能计算技术作为其技术革新、科技进步的重要抓手,在其发展过程中起到非常关键的作用。我国高性能计算基础设施能力建设在航空制造业方面的储备相比美国等先进国家还比较薄弱,发展面临的问题比较严峻。在企业数字转型的关键阶段,机遇和挑战并存,如何有序、健康地推动高性能计算基础设施能力建设,释放高性能计算的效能,对于当下发展十分重要。1 国内外相关领域高性能计算能力建设情况
1.1 美国相关领域情况
高性能计算基础设施能力的不断增强推动着航空制造业仿真计算应用的不断深入,加快了科技进步的步伐,美国在此方面表现较为突出,例如美国战斗机YF-23采用CFD进行气动设计后比前一代YF-17减少了60%的风洞实验量[1],使之大大缩短了物理试验时间和降低了成本。高性能计算技术是美国科技创新重要基础,已经成为美国的战略资源,布局长远。美国国家航空航天局(National Aeronautics and Space Administration,简称NASA)是航空航天领域高性能计算技术应用和发展的佼佼者。据其官网目前信息显示,其计算能力已从2004年的一个50兆次浮点系统发展到2019年的四个系统,包括8.32万亿次的Electra和7.24万亿次的Pleiades超级计算机,已研制出一批优秀的仿真计算软件,在高性能计算领域投入巨大、效果显著,为其国际战略地位和国防产品研制提供了有力支撑。另一方面,波音公司和NASA于2014年联合发布了航空CFD技术2030发展愿景,提出2025年前实现E量级和2030年实现30Eflops计算能力,以满足航空CFD技术发展需要[2]。
美国国防部空军实验室在2019年2月26日项目启动仪式上,被称为“美国航空百年神魂”的空军研究实验室(AFRL)正式公布了“共享国防部机密高性能计算资源”计划,该计划将首次共享国防部四台最新的超级计算机,其中,性能最强大的“野马”是唯一一台对非涉密项目研究开放的超级计算机,“野马”系统是一台价值1500万美元,带有56 448个计算核心的惠普SGI8600超级计算机。其余三台则共享给各类涉密项目,分别以著名的飞机机型暗影、幽灵、巫毒命名,专门处理涉密项目,被安装在美国国防部空军研究实验室超级计算机资源中心(DSRC)的一个新安全附加装置中,以便在国防部和美国其他政府机构之间可以安全地共享超算能力 [3]。
1.2 中国相关领域情况
我国作为高性能计算技术的后起之秀,从2006年开始,在国家重大科技专项的支持下,通过多个“五年”的周期计划,分别以国家高技术研究发展计划、国家重点基础研究发展计划、国家自然科技基金重大研究计划等对国家高性能计算方面的研究和基础设施进行资助,建设了天津、深圳、济南、长沙、无锡、广州等一大批超级计算中心,以天河一号、天河二号、神威太湖之光为代表的中国超级计算机多次位列高性能计算 TOP500榜首,成绩傲人。我国航空制造业领域高性能计算技术的引进和应用也取得了长足的进步和发展,过程贯穿产品设计、试验和验证,部分代替物理试验,缩短研制周期和降低物理试验成本,用虚拟试验填补不具备条件的物理试验空白。随着产品研制由实物模型向数字模型转变,高性能计算技术受到越来越多的科研人员青睐。目前大部分主研制单位具备了百万亿次量级的计算能力,其中部分单位已经具备了千万亿次量级的计算能力,拥有上千计算核心的计算资源。在空气动力学、多体动力学、力学、材料、液压、控制、电子、电磁、噪声等多个学科开展了应用,大部分领域具备了定性分析的能力,部分领域具备了定量分析的能力。
2 航空制造业高性能计算面临的主要问题
我国航空制造业高性能计算基础设施能力相比国外同类企业较为薄弱,能力建设不足、发展不均衡。(1)在系统能力供给方面
①资源供给不足。高性能计算系统的硬件资源的最佳使用周期一般为5年,具有显著的前期投入大、连续性要求高的特点。当前我国大部分航空制造业基础设施能力建设以型号任务为单元的计划投入为主,存在规模小、配置不均衡、架构不合理等普遍问题,资源在峰谷时期不均衡的情况明显。据国家超级计算广州中心官网信息显示,商飞北京民用飞机技术研究中心利用2.4万CPU核开展了大型商用飞机全参数气动优化设计,在天河二号计算6天,完成了在其自身计算平台上约需要2年的工作量[4],可以看出企业的工程需求和基础能力的不匹配问题突出。同时,随着企业数字转型的不断深入,多单位协同研制模式逐渐形成,多产品并行开展成为常态,一些协同配套单位高性能计算基础设施能力建设刚刚起步,资源和能力存在较大差距,导致一些领域存在明显的木桶效应。
②软件自主能力不足。制约我国高性能计算技术在制造业发展的另一个主要问题是工具软件问题,特别是涉及到大型工业产品设计,如飞机、船舶、汽车等,对工具依赖性较强。目前以采购国外进口软件为主,比较有代表性的包括Abaqus、Ansys、CFX、Dytran、Fluent、HFSS、MSC Marc、MSC Nastran、FEKO、Tecplot360等。这些软件采购投入成本较高,中小型企业难以承受,部分软件功能对国内存在封锁情况,自主可控问题突出。从国外经验看,这些工具软件大部分都产生在工业部门,需要长时间的积累和工程的不断试验,而高性能计算基础设施能力是开展相关验证试验的基础。我国航空制造领域虽然已经研制了一批像HAJIF、ARI_CFD等专业软件,但工程试验支撑能力较弱,用于科学论证的计算资源不足,在工程全面应用还需时间。同时,人才储备和培养也成为当前另一个发展问题。
(2)在系统规划设计方面
①业务与规划脱节。大部分企业在进行高性能计算系统规划、建设过程中往往“拍脑袋”的情况居多,尤其在部件级研制企业比较普遍。在规划设计时,很难给出连续建设路线和新旧系统融合协同的方案;在需求确认过程中,业务部门无法提出具体的需求或提出的需求太过专业无法转化成信息化部门听得懂的语言,规划/运维部门对需求如何落地无从下手,专业性太强、跨学科等因素最终导致规划、建设、使用过程中问题层出不穷。
②过度依赖外部能力。以曙光、浪潮、联想、华为为代表的高性能计算厂商占据了90%以上的市场份额,其营销网络遍布全国各地,具有不同领域的技术专家,根据各种行业和领域的特点也总结了一套较为通用的解决方案。但由于投资规模限制,往往大部分企业在进行系统规划、建设甚至售后服务过程中无法获取这些优质的资源。对于照本宣科的设计,再根据经费预算进行不同层次的配置削减,虽然能解决使用问题,但会出现系统可持续、可扩展性不强等问题,例如配置了多颗CPU而只配置了少量的内存等问题,给企业后期使用带来了很多问题。
③在资源共享方面
航空制造业在科学研究和工程应用需求均较高,机密性程度高,多单位资源共用问题一直是难题,尤其是对社会资源的远程使用和数据高效传输、数据异地携带等技术问题和知悉范围控制等管理问题。
李国杰院士曾指出:美国发展超级计算机主要是应用牵引,而我国侧重于技术驱动。对于我国高性能计算生态环境而言,最薄弱的环节是软件和企业应用[5]。航空制造业企业作为应用和科技创造的主力军和国际同类计算软件的发源地,加快推动航空制造业高性能计算基础设施能力建设,对我国高性能计算产业发展和能力提升意义重大。
3 航空制造业高性能计算应用发展趋势
随着信息科学技术的不断进步,航空制造业高性能计算系统带来了一些新的变化。3.1 系统集成融合趋势
(1)按需定制的环境要求随着数字化技术的不断深入,仿真计算环境被越来越多地嵌套或关联到企业数据管理、试验管理等系统中,以实现协同。同时,由于仿真计算软件版本变化和学科应用越来越多,对于计算资源配置、计算工作环境需求会有所差别,快速定制计算环境也成为当前的另一个发展趋势。
(2)业务融合的安全要求
在仿真计算过程,根据作业的大小和迭代的次数会产生大量数据、大规模任务,过程中需要频繁的数据交换和快速的数据处理、结果反馈。在多单位协同、多用户使用时,保障应用的机密性、完整性,提供有效的信息安全体系,是在系统建设中必须考虑的因素之一。同时,随着恶意攻击方式变得多样,信息安全在建设过程中越来越受重视。
(3)应用可视化
在计算的前、中、后阶段可视化有助于使用者决策,可及时发现问题、纠正问题,在问题发生前能及时处置,同时通过可视化的展示和数据可视化分析可提高用户的作业质量和降低用户入门门槛。
(4)运维数字化
高性能计算系统的高效运行不但需要具备操作系统、网络、存储及其硬件知识,还需要具备计算环境、作业调度以及计算软件等配置调优的能力。而这些对于中、小型企业来说挑战巨大。因此,一套高效、友好的可视化、数字化运维管理平台显得十分重要,已经成为企业建设系统的必备工具。
3.2 新兴技术融合趋势
(1)云计算与高性能计算高性能计算机有两种基本类型,一是能力(capability)型,强调解决单一复杂问题的最高计算速度,尽量缩短求解一个最大最难问题的时间;二是容量(capacity)型,强调同时处理多个大任务,每个任务只用到计算机的一部分能力[5]。航空制造业在这两个方面需求均比较迫切,建设高性能计算基础设施能力首选是希望计算能力越强越好,使其具备同时开展科学研究、技术攻关和工程设计验证工作的条件。但这种建设方式会面临资源的供给平衡等问题,而高性能计算技术与云计算技术的融合应用能刚好解决削峰填谷的问题,AWS云、阿里云、中国科技云·超算云等用实践已经给出了答案。当前航空、航天、船舶、电子等多家高端装备制造业企业开始或已经开展云平台建设/应用,云上协同成为数字转型的主要抓手,高性能计算技术与云计算技术的融合应用也将成为数字转型时期的新的模式。
(2)量子计算与高性能计算
量子计算是一种遵循量子力学规律调控量子信息单元进行计算的新型计算模式,与高性能计算系统的融合成为新的热点,空客、霍尼韦尔、洛克希德·马丁、雷神等航空制造企业纷纷在量子计算领域开展了大量的研究工作。其中空客早在2015年就开始在量子计算技术方面进行了布局,其坚信量子计算与更传统的高性能计算解决方案相结合,可以帮助解决关键的计算密集型任务。为此,空客2016年投资QC Ware,2019年发起空客量子计算挑战赛(AQCC),并提出了从简单的数学到飞行物理学,包括飞机爬升优化、计算流体动力学、用于求解偏微分方程的量子神经网络、机翼设计优化、飞机装载优化五个不同类型的问题。
(3)人工智能与高性能计算
作为“新基建”的重要组成,人工智能将继高性能计算之后成为企业的又一科技创新的利器。近几年大数据分析和机器学习等人工智能应用已经成为高性能计算的主要负载,美国、日本等国纷纷将正在研制的超级计算机成为智能计算机。当前国内HPC进入了以应用需求牵引系统研制的理性阶段,也涌现一大批积极探索新型的HPC类型应用,包括数据分析、机器学习、信息服务等[6]。在航空制造领域,近期欧洲航空安全局发布人工智能路线图中提出了8个航空特定领域将深受人工智能的影响,包括:飞机设计与运行,飞机生产与维修,空中交通管理,无人机、城市空中机动和U型空间,安全风险管理,网络安全,环境,欧盟条例。该路线图还预计机器学习在“飞行控制律优化、传感器校准、油箱数量评估、结冰探测”等飞机系统中的潜在应用,在这些飞机系统中,机器学习可以取代对可能组合和相关参数值的人类分析[7]。
4 航空制造业高性能计算系统建设
航空制造业的高性能计算系统建设不但要考虑系统建设所承载的软件特性,也需考虑建设投入的持续性、系统的扩展性。以下基于航空制造业目前面临的问题,集成新的发展需求,提出如下集成建设方法。4.1 建设参考框架
航空制造业高性能计算系统建设要兼顾科学计算和工程应用两个方面的需求,科学计算在计算时需要大量的机器投入使用,随着科学研究的深入,需要的机器会越来越多,而在闲时这些资源需要被充分利用起来,实现投资效益最大化;另一方面,由于各类软件所依赖的开发环境有所不同,计算环境的配置质量直接会影响计算的质量,环境切换时不但要保证平滑还要保证质量,同时也要兼顾在一套环境下多种计算环境的情况。考虑到投资的连续性和资源的充分利用,以传统科学仿真计算的高性能计算框架为基础,融合云计算技术,本文提出一套“混合”高性能计算专有云框架,实现灵活配置、动态调度、按需供给和融合持续发展。(1)高性能计算专有云采用裸金属架构和虚拟化、容器架构的融合基础设施环境。其中虚拟化技术提供的虚拟机适合类型多样、需求各异的中小规模高性能计算应用需求;容器技术的高度定制灵活的特性,通过构建高性能计算应用环境镜像库,为临时搭建特定高性能计算集群应用环境提供快速场景;裸金属架构适合于长期多任务、高并发的任务[8,9],对这类资源的充分利用可以考虑配置无盘启动的集群管理方式,通过对操作系统打包镜像管理,保证切换的环境是调优后的环境。
(2)在高性能计算专有云中构建协同研制环境,使用平台实现需求供给侧的对接;充分利用云环境下人才资源的互动性,有效弥补人才资源的不足;通过多单位互惠协议,赋予软硬件资源供给方和使用方双重角色,通过高性能计算专有云的安全API构建安全通道,可在满足各自的需求的同时在资源峰值需求和平时闲时进行相互租赁,充分调动资源,提高资源的利用率。
(3)通过构建专业领域高性能计算生态社区,建立历史模型库,降低用户使用的门槛,提高知识的共享;通过将开发库、通用软件库组件化,实现高性能计算环境随需提供科学计算、人工智能、数据分析等服务环境。
基于上述特性定义,本文提出下图高性能计算专有云架构,全局采用统一高性能计算操作系统,使用一套云环境,可满足产品生命周期中不同阶段、不同任务、不同层次的计算需要,与各分领域协同实现削峰填谷。参考图如图1[9]。
图1
新窗口打开|下载原图ZIP|生成PPT图1高性能计算专有云参考框架
Fig.1High performance computing proprietary cloud reference framework
在基础设施层面由各类计算、存储、网络设备组成计算资源池,以有效支撑上层不同层次的计算需求;总体的资源使用统一由高性能计算云操作系统来完成管理。
在平台服务层,通过对各类常见的模型进行抽象形成不同场景的资源模型,供软件服务层进行调度使用,实现系统环境、资源状态、调度模式等灵活定制。资源调度器由作业调度器引擎、云计算调度引擎、分布式搜索引擎等组成。
在软件服务层,支持应用交付对外窗口,是系统的入口,供用户访问使用,也是第三方互动主要接口。
在以上三个层面的背后配置历史资源数据库,通过利用相关技术对提交作业的质量、行为进行预判。在用户提交作业前提供最佳实践指导,有效提高系统效率,降低系统的使用成本;在作业运行完成后,通过提取作业数据进行问题分析和提炼经验,纳入历史资源库供后续同类应用参考。同时,在系统每个环节嵌入信息安全防护能力,包括身份鉴别、访问控制、完整性等措施,保障各业务模块开展过程中的机密性和完整性。
4.2 规划设计方法
基于航空制造业的特点和发展现状以下给出方案设计选择方法。4.2.1 业务方案设计
在进行高性能计算技术选型时,要从业务的实际使用场景出发,在有些方面需要大内存、大容量、高主频,而有些方面对于内存、容量要求并不高。在某种程度上,应用软件的特性决定了硬件平台的选择。
从对计算资源的需求来说,隐式解法的基本特点是内存占用多、磁盘IO大、进程通信量大,因此,隐式解法要求系统的内存容量大、访存带宽高、磁盘IO速度快、通信延迟低;相对而言,显式解法对内存、磁盘IO和通信延迟的要求要低一些。
从软件的扩展性上来说,采用静态隐式算法的软件,扩展性相对较差,计算性能在8-16 CPU核以上就很难获得进一步的提升;而采用动态隐式算法的软件,扩展性要好的多,在64-128 CPU/核以内都能获得较好的并行性能。显式算法的软件,扩展性非常好,可支持数百CPU核甚至更多的并行。另外CFD应用的扩充性也非常好,无论是结构化网格还是非结构化网格,都可支持上百个CPU核的并行。电磁分析软件如FEKO通常对CPU的要求不高,但需要大内存[9]。
在硬件资源的配置和选择上要考虑计算任务各个阶段的使用需要。以CAE为例,目前应用在CAE当中的计算技术在实际应用中包括三个步骤:首先是建模亦即前处理,是指对需要计算的问题建立几何和物理模型并划分网格,以便可以将非线性的力学方程离散为计算机可以识别的代数方程,这一过程需要较好的显示能力,并且要求具有一定的内存空间能够容纳大量的网格信息,通常在工作站上进行;模型建立后就是求解过程,这一过程需要大量的CPU、内存资源以及存储空间,通常利用作业调度系统提交到高性能计算机上执行,结果数据存放在大容量磁盘阵列中;之后是后处理过程,即对计算得到的数据进行分析处理,得到各种曲线和图形信息,这一过程同样对显示能力要求较高,通常在工作站上进行[10]。
4.2.2 硬件资源选择
(1)计算资源选择
高性能计算系统中的计算核心硬件资源,一般由Cluster集群、SMP服务器和异构处理器、众核处理器的服务器组成,在选择过程中需要充分考虑处理器、内存、IO接口卡等各组件之间关联性,保证资源的合理分配。
在处理器架构选择上,X86架构为主流,其生态环境较为完善。ARM架构由于其低功耗的特性,也开始在高性能计算领域崭露头角,在2020年6月发布的TOP 500中排名第一的日本研制的Fugaku采用了A64FX处理器,其对企业的自主开发能力要求较高。
图2
新窗口打开|下载原图ZIP|生成PPT图2业务阶段划分和资源需求
Fig.2Business phase division and resource requirements
在处理器的主频、核数选择方面,虽然没有绝对的配比关系,但一般主频越高,核数会越少,是选择高主频还是选择多核心,需要根据仿真软件的需要和计算量来配置。对于处理器的数量需按偶数配置。对于处理器型号选择建议可以以TOP500(由国际组织“TOP500”编制,每半年发布一次,是给全球已安装的超级计算机排座次的知名榜单)和HPC TOP100(中国高性能计算机性能TOP100排行榜,简称HPC TOP100,是指依据Linpack测试性能进行排序的中国最快的100台计算机系统的榜单列表,是衡量中国高性能计算机系统及应用发展的重要参考依据)的数据作为参考。
在内存的配置方面,一般和所选择的机型、处理器型号有非常密切的关系。作为介于处理器和硬盘存储之间的高速存储,对于处理器能否发挥出最大效能影响非常大。一般要求所配置的内存条数量需和处理器架构中通道数量成正比关系,需尽量保证处理器访问内存路径最短。而内存的总容量因需求而异,一般建议在96GB以上。
除了选择用于计算的服务器外,用于资源管理的服务器的选择也不容忽视。一般主要由IO节点、管理节点、对外服务节点服务器组成。其中管理节点主要是外部管理访问的入口计算机,一般以逻辑访问控制区域为单位配置为宜;对外服务节点一般根据对外服务用户数量来配置,建议采用双机冗余架构,对外接口建议采用多端口捆绑配置;IO节点服务器的配置需要和所选择的后端存储类型来确定是否配置,一般所有IO节点服务器的HBA卡接口、IB接口(若使用此接口与计算节点通信)或以太网接口中每种接口类型的总带宽不能小于存储接口总带宽。
(2)存储资源选择
良好的存储系统方案设计可以大幅度提高高性能计算平台的计算效率。选购存储资源时可以采用磁盘阵列、光纤交换机、IO节点、并行文件系统的松耦合式方式,也可以采用紧耦合方式的并行存储。前者具有良好的扩展性,不会受限于品牌的限制,但工程中系统的调试情况会影响系统性能;后者集成度高、出厂已经完成调优,但受品牌限制。
存储的可用容量大小选择需要根据项目建设实际使用需要以及长期存储数据量、临时数据存储量的要求进行选择,一般建议配置至少30%以上的存储空间余量。存储系统性能指标主要关注读写带宽,其中松耦合方式除考虑前文提到的IO节点服务器的接口卡带宽的问题时,还要考虑存储设备前端、后端接口带宽和磁盘总带宽的匹配问题,避免出现“木桶效应”。
(3)网络通信资源选择
高性能计算网络通信资源从功能上分为高性能计算网络、高性能管理网络、高性能监控网络组成。三个网络需实现不同接口卡的物理隔离部署。在网络结构设计上,其中特别需要注意对于高性能计算网络的选择,当前较为流行的是Infiniband、Intel Omni-Path、万兆以太网,从2020年6月TOP500榜单看万兆以太网占据了“半壁江山”。
图3
新窗口打开|下载原图ZIP|生成PPT图32020年6月TOP500排名网络类型统计
Fig.3Statistics of top 500 network types in June 2020
从技术发展和管理上各自有优缺点,需要根据配置的服务器数量和网络的整体冗余性和可靠性进行选择部署,原则上尽量保证节点与节点通信的无阻塞,最大限度减少由于计算网络的延迟、阻塞带来的整体平台计算能力下降。
(4)软件资源选择
①高性能计算基础软件资源
高性能计算基础软件资源主要由操作系统和用于计算支撑开发环境软件组成。这些软件的选择需要根据计算软件特性进行配置。
②集群管理软件
集群管理软件是运维管理人员的主要工作平台,也是高性能计算云的核心组件,根据企业建设的规模和是否要建设成计算云平台来选择。若建设规模比较小可选择国内将集群管理软件和作业调度门户集成的产品,也可选择BrightComputing、xCAT等成熟的产品;若建设成云平台,需要选择具有集群管理能力的云操作系统软件。
③作业调度引擎
作业调度引擎是利用高性能计算平台开展并行技术的核心组件,可选择包括LSF、PBS、Slurm等。
④用户门户
用户门户是用户通过WEB界面访问、提交、查看、下载作业的主要窗口,是用户日常操作的主要平台。在产品选择上,中小规模建议选择集成了作业调度引擎、集群管理模块的系统,便于维护。长期发展,建议单独配置。
(5)前后端设计资源选择
根据计算软件的特性和工作特点,一般前端设计资源可采用远程处理、本地处理多种方式组成,可以配置高端图形工作站也可以采用远程可视化来完成。
后置处理一般为将后期处理的结果进行分析和显示处理,对显卡处理能力要求较高,同时需要配置相应的3D图形处理软件。为了更好的显示分析,可以配置3D显示系统进行处理数据的三维显示。
(6)安全体系资源设计
系统不能完全单独采用一种安全防护技术,在设计中须充分利用操作系统的一些安全的特性,通过与传统的安全防护技术相融合,来提升系统的安全性。结合信息安全技术体系及基础资源关系,采用身份鉴别、认证与授权、病毒与恶意代码的防治、系统层安全防范、网络管理、监控与审计、漏洞扫描、数据传输加密与压缩、运行安全、准入控制、入侵行为检测、边界防护和运行安全为系统建设一套可靠的安全屏障[11]。
4.2.3 系统建设及验收
系统集成工作是设计落地的重要保障,其集成要求不同于一般的信息系统集成。对于工程师来说不但需要了解高性能内部组件的组成和逻辑关系结构,同时也要考虑到计算软件特性和应用模式。因此在系统建设时一定要明确好集成服务内容和标准。在最后确认系统稳定性和性能方面,需要至少开展以下几方面的测试:
(1)浮点运算测试。即HPL(High Performance Linpack),也叫高度并行计算基准测试,是针对现代并行计算机提出的测试方式,是评价高性能计算平台的好坏的公用标准。在不修改任意测试程序的基础上,可以调节问题规模大小、使用到的CPU数目、使用各种优化方法等来执行该测试程序,以获取最佳的性能。HPL采用高斯消元法求解线性方程组。
(2)内存访问性能测试。一般采用STREAM为简单向量内核(Simple Vector Kernels)持续内存带宽和相应的计算速度基准测试。
(3)存储带宽测试。一般采用IOzone工具为文件系统进行数据的读取、写入基准测试。
(4)软件调优和集成。根据软件的特性,充分将软件使用简单化,充分结合作业调度软件的特性简化使用操作,开展调度策略调试、功能集成等工作。
4.3 推荐建设路线
企业在初期建设,可采用行业/领域的一些最佳实践,可做量的裁剪,不做配置的裁剪,建议可采用集成度较高的作业调度引擎+集群管理+作业门户集成的方式建设;建设过程中,可根据技术能力储备程度和未来业务发展需要选择商业/开源的作业调度引擎,同时建议将集群管理、作业门户分开部署,实现专业化管理,在集群管理平台的选择上要考虑未来云计算平台的接口衔接问题;新旧系统更换阶段,在选择技术路线上,可根据资源的利用率和能耗开销上逐步替代,优化队列配置和集群管理系统的配合,实现资源的最优使用。5 结论与展望
高性能计算机已经成为颠覆产品设计研发、引领创新的重要保障手段和技术。在当前航空制造业快速发展阶段,航空制造业高性能计算基础能力建设需加快建设步伐,补齐短板,首先解决高性能计算基础能力与日常研制所需仿真计算需求严重不匹配的刚需问题,做好适应发展的合理规划设计,保证系统建设的可持续;其次,充分利用云计算技术,多单位联合,盘活一切可用计算资源,让有限的投资发挥最大的能效。同时,兼顾人才队伍的建设,加强高性能计算复合型人才的培养和储备,需要借助各个领域力量打造培育行业高性能计算领域高端智库,打造良性生态圈,实现领域能力的全面能力水平提升。随着人工智能、工业大数据逐步从理论走向实践,高性能计算技术在航空制造业的应用场景将更加多样,做好储备和需求牵引,推动整体发展。利益冲突声明
所有作者声明不存在利益冲突关系。参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子
[C]. .
[本文引用: 1]
. NASA/CR-2014-218178.
[本文引用: 1]
[EB/OL]. [
URL [本文引用: 1]
[EB/OL].[
URL [本文引用: 1]
[J]. ,
[本文引用: 2]
[J]. ,
[本文引用: 1]
[N]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]
[本文引用: 3]
[J]. ,
[本文引用: 1]
[J]. ,
[本文引用: 1]