删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

复杂异构计算系统HPL的优化

本站小编 Free考研考试/2022-01-02

摘要:当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(high performance Linpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与挑战.针对带有GPU的异构超级计算机系统,提出一套新的CPU与加速器计算任务分配方式,提出平衡点理论指导HPL性能优化.为了优化HPL程序,提出了使用CPU与加速器协同工作的look-ahead算法和行交换连续流水算法,实现了加速器、CPU、网络等部件的高度并行.此外,为带有加速器的系统设计了新的panel分解和行交换的实现方法,提高了加速器的利用率.在每个节点带有4个GPU的系统上,单节点HPL效率达到了79.51%.



Abstract:Nowadays, the mainstream supercomputers in the world adopt heterogeneous systems with accelerators more and more. The increase of float point computation performance of the accelerators requires other components to match its speed, including CPU, memory, bus, and network. High performance Linpack (HPL) is the traditional benchmark for high performance computers. Complex heterogeneous systems have brought both opportunities and challenges to the benchmarking with HPL. Therefore, for heterogeneous supercomputers, a new task partitioning scheme between the CPU and the accelerators is proposed, using the balance point theory to guide the optimization of HPL. For optimizing HPL, a look-ahead algorithm is proposed to coordinate the collaboration of CPU and the accelerators, as well as a contiguous row-swap algorithm, enabling the parallelism among CPU, accelerators, and network. Besides, new panel factorization and row-swap implementations have been designed for the system with accelerators, improving the effectiveness and efficiency of the usage of accelerators. With the configuration of 4 GPUs on each computing node, HPL efficiency of 79.51% on a single node.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6003
相关话题/系统 计算机 网络 程序 计算

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 国产异构系统上HPL的优化与分析
    摘要:随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统 ...
    本站小编 Free考研考试 2022-01-02
  • 国产异构系统上的HPCG并行算法及高效实现
    摘要:HPCG基准测试程序是一种新的超级计算机排名度量标准.该测试基准主要用于衡量超级计算机解决大规模稀疏线性系统的能力,更贴近实际应用,近年来广受关注.基于国产超级计算机研究异构众核并行HPCG软件具有非常重要的意义,其不仅可以提升国产超级计算机HPCG的排名,还对很多应用提供了并行算法、优化技术 ...
    本站小编 Free考研考试 2022-01-02
  • 面向异构计算机平台的HPL方案
    摘要:HPL(highperformanceLinpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在 ...
    本站小编 Free考研考试 2022-01-02
  • 面向异构计算的高性能计算算法与软件
    摘要:研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.首先,简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场 ...
    本站小编 Free考研考试 2022-01-02
  • SW26010众核任务并行调度系统及其嵌套并行算法应用
    摘要:任务并行是并行程序设计的基础设计模式.但由于算法本身的复杂性及目标平台的特殊性,设计实现高效率的任务并行程序对程序员来说往往充满挑战.基于新兴的SW26010众核CPU,提出了支持任务嵌套并行模式的通用运行时框架SWAN.SWAN对任务并行程序的实现提供了高层次的抽象,使程序员能够专注于算法逻 ...
    本站小编 Free考研考试 2022-01-02
  • 一种超低损失的深度神经网络量化压缩方法
    摘要:深度神经网络(deepneuralnetwork,简称DNN)量化是一种高效的模型压缩方法,使用少量位宽表示模型计算过程中的参数和中间结果数据.数据位宽会直接影响内存占用、计算效率和能耗.以往的模型量化研究缺乏有效的定量分析,这导致量化损失难以预测.提出了一种超低损失的DNN量化方法(ultr ...
    本站小编 Free考研考试 2022-01-02
  • 泛在嵌入式智能系统专题前言
    摘要:目前,世界范围的科技革命和产业变革正在孕育兴起,一些重要科学问题和关键核心技术正在呈现革命性的突破先兆.同时,“万物智联”时代正在加速到来,IOT/CPS、AIOT等蓬勃发展,以泛在感知、泛在互联、泛在智能为特征的各类智慧系统,以嵌入式系统为基础,与大数据、区块链、云计算呈现融合发展趋势.随着 ...
    本站小编 Free考研考试 2022-01-02
  • 基于关联记忆网络的中文细粒度命名实体识别
    摘要:细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息 ...
    本站小编 Free考研考试 2022-01-02
  • 多等级通信半径的无源传感器网络中的覆盖问题
    摘要:无源传感器网络是近年来兴起的一种新型的网络结构,可用于解决传统无线传感器网络能量有限、寿命受限的问题.在无源传感器网络中,每个无源传感器节点配备有能量收集模块,可以从周围环境中获取能量.由于周围环境中的能量是无限的,这样,从能量的角度来讲,无源传感器网络的网络寿命是无限的.这样就解决了传统无线 ...
    本站小编 Free考研考试 2022-01-02
  • 复杂软件系统的不确定性
    摘要:复杂软件系统(如信息物理系统CPS、物联网IoT以及自适应软件系统等)在其开发和运行过程中会遇到各种类型的不确定性问题.针对这些不确定性问题,研究人员开展了大量的研究工作,提出了一系列的方法,取得了诸多成果.然而,由于此类系统本身固有的复杂性和其内在与外在不确定性的共同作用,截止目前研究人员针 ...
    本站小编 Free考研考试 2022-01-02