删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

神威太湖之光上分子动力学模拟的性能优化

本站小编 Free考研考试/2022-01-02

摘要:“神威·太湖之光”国产超级计算机的特点是适用于高通量计算系统,此类系统往往存储器访问延迟,网络延迟较长.在实际应用中,有一大类问题是时间演化的模拟问题,往往需要高频状态迭代,每次迭代需要通信.此类应用问题的典型代表是分子动力学模拟,分子的性质依赖于时间演化,导致状态相关的时间尺度上难以并行化.实际应用中,全原子模型需要模拟超过ms时间尺度,每一步的物理时间为1fs~2.5fs,这意味着所需时间步个数超过1012个.众核处理器中,不同核心访存时需较长的“排队”等待,造成访存延迟.另外,网卡通信延迟以及较长的数据通路会带来网络延迟,由此导致在长延迟的众核处理器上进行一次有效的模拟几乎是不可能的.解决此类问题的主要挑战是提高迭代频率,即每秒执行尽可能多的迭代步.针对神威高性能芯片处理器的体系结构特点,以分子动力学模拟为例,研究了一系列优化策略以提高迭代频率:(1)单核通信与片上核间同步相结合,降低通信成本;(2)共享内存等待与从核同步相结合,优化异构体系结构中的核间同步;(3)改变计算模式,减少核间数据关联和依赖关系;(4)数据传输与计算重叠,掩盖访存延迟;(5)规则化问题,以提高访存凝聚性.



Abstract:Sunway TaihuLight supercomputer is suitable for high-throughput computing systems, which tend to have memory access latency and network latency. There is a large class of problems namely time-to-solution, which requires high frequency iterations. The typical application of time-to-solution problems is molecular dynamics simulation. Computations in molecular dynamics simulation depend on the time. Therefore, the iterative computations are difficult to be parallelized. Time scale usually exceeds microsecond, which means that the number of steps is more than 1012. It is impossible to finish effective simulation in a limited time on long latency system. Therefore, the main performance bottleneck on long latency Sunway system is how to increase the iterative frequency. This study proposes a series of optimization strategies to improve the iterative frequency:(1) Reducing communication overhead and network competition costs through single-core communication combined with on-chip synchronization; (2) Optimizating the speed of synchronization between cores through waiting the shared memory variable and synchronizing the computing processing elements; (3) Reducing the data dependencies by changing the computation patterns; (4) Covering up the memory access latency by overlapping computation and communication; (5) Regulating the data structure to improve accessibility.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5978
相关话题/通信 优化 数据 网络 计算

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 国产异构系统上HPL的优化与分析
    摘要:随着异构系统成为建造超级计算机的重要选择,如何让CPU与加速器协调工作以充分发挥异构系统的计算性能具有重要意义.HPL是高性能计算领域最重要的基准测试程序,传统面向纯CPU系统的HPL算法通过加速器加速矩阵乘法的做法已经无法取得很好的性能.针对这一问题,提出了基于国产处理器-国产加速器异构系统 ...
    本站小编 Free考研考试 2022-01-02
  • 复杂异构计算系统HPL的优化
    摘要:当今世界的主流超级计算机越来越多地使用带有加速器的异构系统.随着加速器的浮点性能不断提高,超级计算机内计算节点的CPU、内存、总线、网络以及系统架构都要与之相适应.HPL(highperformanceLinpack)是高性能计算机评测的传统基准测试程序,复杂异构系统给HPL评测带来很多机遇与 ...
    本站小编 Free考研考试 2022-01-02
  • 异构HPL算法中CPU端高性能BLAS库优化
    摘要:异构HPL(high-performanceLinpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系 ...
    本站小编 Free考研考试 2022-01-02
  • 面向异构计算机平台的HPL方案
    摘要:HPL(highperformanceLinpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在 ...
    本站小编 Free考研考试 2022-01-02
  • 面向异构计算的高性能计算算法与软件
    摘要:研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.首先,简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场 ...
    本站小编 Free考研考试 2022-01-02
  • 一种超低损失的深度神经网络量化压缩方法
    摘要:深度神经网络(deepneuralnetwork,简称DNN)量化是一种高效的模型压缩方法,使用少量位宽表示模型计算过程中的参数和中间结果数据.数据位宽会直接影响内存占用、计算效率和能耗.以往的模型量化研究缺乏有效的定量分析,这导致量化损失难以预测.提出了一种超低损失的DNN量化方法(ultr ...
    本站小编 Free考研考试 2022-01-02
  • 面向优先车辆感知的交通灯优化控制方法
    摘要:智慧交通灯控制能够有效地改善道路交通的秩序和效率.在城市交通网络中,具有紧急任务的特殊车辆对于通行效率的要求更高.目前已有的智慧交通灯控制算法通常对路网中的所有车辆一视同仁,没有考虑到特殊车辆的优先性;而传统的控制特殊车辆优先通行的方法基本上都是采用信号抢占的方式,对普通车辆的通行干扰过大.为 ...
    本站小编 Free考研考试 2022-01-02
  • 一种基于功率调控的WiFi Direct节能优化机制
    摘要:WiFiDirect(WFD)是安卓系统广泛支持的Device-to-Device(D2D)通信技术.相比于蓝牙,WFD在传输速率和连接距离上更具优势;同时,WFD能够比WiFi热点更快速地创建连接.因此被广泛应用于构建D2D通信网络,用以支持边缘计算、流量卸载、移动众包等研究.但是WFD同时 ...
    本站小编 Free考研考试 2022-01-02
  • 基于关联记忆网络的中文细粒度命名实体识别
    摘要:细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息 ...
    本站小编 Free考研考试 2022-01-02
  • Storm平台下的线程重分配与数据迁移节能策略
    摘要:作为流式大数据计算的主要平台之一,Storm在设计过程中由于缺乏节能的考虑,导致其存在高能耗与低效率的问题.传统的节能策略并未考虑Storm的性能约束,可能会对集群的实时性造成影响.针对这一问题,设计了资源约束模型、最优线程重分配模型以及数据迁移模型.进一步提出了Storm平台下的线程重分配与 ...
    本站小编 Free考研考试 2022-01-02