摘要:HPL(high performance Linpack)是一套被广泛用于测评计算机性能的测试程序,几十年来学术界及产业界十分关注对HPL测试程序的定制化优化工作,以充分反应同时代新兴计算机平台的性能.面向当今主流多设备异构计算平台,尝试为HPL的优化工作提供一种解决方案:Hetero-HPL.在Hetero-HPL中,进程与协处理器的对应关系可被改变,因此HPL算法在单节点独立运行情况下可以完全避免进程间数据传输开销.算法各个重要步骤有能力完全利用物理节点的所有资源,如内存容量、CPU核心、协处理器、PCI-e总线等.Hetero-HPL并不引入冗余计算量及通信量,并在任意设备数量下妥善应对锁页内存分配限制,确保多设备负载均衡和设备内高效的大规模同质运算.在实验平台上,Hetero-HPL效率可以达到平台峰值性能的76.5%(其中,dgemm函数效率为84%).进一步的实验结果表明,Hetero-HPL在多节点联机运行情况下也是一种可行的方案.
Abstract:HPL (high performance Linpack) is a widely used benchmark for measuring computer performance. Over the decades, the practice of optimizing and tuning of HPL has constantly drawn great attention in both industrial and academic circle, to evaluate the performance of contemporary cutting-edge computer platforms. For current heterogeneous HPC platforms with multiple accelerating co-processors, an approach of high-performance HPL benchmark, Hetero-HPL, is proposed in this paper. In Hetero-HPL, the mapping between process set and (co-) processor set becomes adjustable, so that the computation within each computing node may avoid inter-process message exchange, and each important procedure of the HPL algorithm may make full use of the hardware resources of the computing node, such as memory, CPU cores, co-processors, and PCI-e bus etc.Without redundant computation and communication, the working set of Hetero-HPL is not restricted by the limit of pinned memory size in a single allocation, and is distributed in a way that the workload is balanced among all the co-processors and massive fine-grained parallelism can be exploited. On one experimental platform with four co-processors, Heter-HPL can reach an efficiency of 76.5% (the efficiency of function dgemm is 84%) in one computing node, and further experiment suggests that Hetero-HPL is also a feasible approach in distributed environment.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/6005
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
面向异构计算机平台的HPL方案
本站小编 Free考研考试/2022-01-02
相关话题/优化 实验 计算机 测试 计算
面向异构计算的高性能计算算法与软件
摘要:研发适应国产异构计算环境的高性能计算算法与软件是非常重要的课题,对我国高性能计算软件研发匹配高性能计算硬件高水平发展的速度具有重要意义.首先,简要介绍高性能计算应用软件的现状、趋势和面临挑战,并对几类典型高性能计算应用软件开展并行计算算法特征分析,涵盖了宇宙N体模拟、地球系统模式、计算材料相场 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向优先车辆感知的交通灯优化控制方法
摘要:智慧交通灯控制能够有效地改善道路交通的秩序和效率.在城市交通网络中,具有紧急任务的特殊车辆对于通行效率的要求更高.目前已有的智慧交通灯控制算法通常对路网中的所有车辆一视同仁,没有考虑到特殊车辆的优先性;而传统的控制特殊车辆优先通行的方法基本上都是采用信号抢占的方式,对普通车辆的通行干扰过大.为 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种基于功率调控的WiFi Direct节能优化机制
摘要:WiFiDirect(WFD)是安卓系统广泛支持的Device-to-Device(D2D)通信技术.相比于蓝牙,WFD在传输速率和连接距离上更具优势;同时,WFD能够比WiFi热点更快速地创建连接.因此被广泛应用于构建D2D通信网络,用以支持边缘计算、流量卸载、移动众包等研究.但是WFD同时 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向分布式图计算作业的容错技术研究综述
摘要:随着图数据规模的日益庞大和图计算作业的日益复杂,图计算的分布化成为必然趋势.然而图计算作业在运行过程中面临着分布式图计算系统内外各种来源的非确定性所带来的严峻的可靠性问题.首先分析了分布式图计算框架中不确定性因素和不同类型图计算作业的鲁棒性,并提出了基于成本、效率和质量3个维度的面向分布式图计 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02自动驾驶智能系统测试研究综述
摘要:随着人工智能技术的深入发展,自动驾驶已成为人工智能技术的典型应用,近十年来得到了长足的发展,作为一类非确定性系统,自动驾驶车辆的质量和安全性得到越来越多的关注.对自动驾驶系统,特别是自动驾驶智能系统(如感知模块、决策模块、综合功能及整车)的测试技术得到了业界和学界的深入研究.调研了56篇相关领 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于偶然正确性概率的回归测试选择方法
摘要:数据驱动的智能系统的核心是处理数据的算法,对算法正确性的要求高,导致其测试开销大,需要有效地缩减测试的规模,其中回归测试选择是控制测试规模的有效手段.数据驱动的智能系统由于其动态信息流强度弱的原因,发生偶然正确性现象的概率较高,并且该现象会导致常用的回归测试选择技术所选择出的测试集包含大量检测 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向ROS的差分模糊测试方法
摘要:机器人操作系统(robotoperatingsystem,简称ROS)是一种广泛应用于机器人开发的开源系统,它可以为开发者提供硬件抽象、设备驱动、库函数、可视化、消息传递和软件包管理等诸多功能,应用前景广阔.ROS集成了可以实现不同功能的功能包,例如定位绘图、行动规划、感知、模拟等等,但其中可 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于理性信任模型的理性委托计算协议
摘要:传统的委托计算需要额外开销验证计算结果的正确性,导致委托计算效率较低、开销较大.针对此问题,结合博弈论与理性信任建模(rationaltrustmodeling,简称RTM)的思想,提出了基于理性信任模型的理性委托计算协议.通过设置恰当的效用函数,激励计算方诚实执行协议,以此来保证计算结果的可 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种优化的数据流驱动的微服务化拆分方法
摘要:近年来,微服务架构已经成为软件工程领域比较流行的架构风格,其天然支持DevOps和持续交付以及可伸缩性、可扩展性好等特性,驱动着业界实践者纷纷向微服务架构迁移.然而,采用微服务架构也面临诸多挑战,其中最关键的是缺乏自动化、一体化的解决方案来高效支持面向微服务的拆分设计以及候选微服务架构的评估. ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于深度学习的混合模糊测试方法
摘要:随着软件技术的快速发展,面向领域的软件系统在广泛使用的同时带来了研究与应用上的新挑战.由于领域应用对安全性、可靠性有着很高的要求,而符号执行和模糊测试等技术在保障软件系统的安全性、可靠性方面已经发展了数十年,许多研究和被发现的缺陷表明了它们的有效性.但是,由于两者的优劣各有不同,将这两者相结合 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02