删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向国产申威26010众核处理器的SpMV实现与优化

本站小编 Free考研考试/2022-01-02

摘要:世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%.



Abstract:The fastest supercomputer in the world-Sunway TaihuLight with performance of more than 100P has been released. It makes use of heterogeneous many-core processors which is different from the existing pure CPU, CPU-MIC, CPU-GPU architecture. Each processor has 4 core groups (CGs), with each including one management processing element (MPE) and one computing processing element (CPE) cluster of 64 CPEs. The peak performance of single processor is 3TFlops/s, the memory bandwidth is 130GB/s. Sparse matrix-vector multiplication is a very important kernel in scientific and engineering computing, which is bandwidth limited and subject to indirect memory access. Implementing an efficient SpMV kernel is a big challenge in Sunway processor. This paper proposes a general SpMV heterogeneous manycore algorithm for the traditional sparse matrix storage format CSR, which divides the task and LDM space in detail, a cache mechanism of dynamic and static buffers to improve the hit rate of vector x, and a dynamic-static task scheduling method to achieve load balancing. In addition, several key factors affecting the performance of SpMV are analyzed, and adaptive optimization is carried out to further enhance the performance. Finally 16 matrix from matrix market collection are used to perform tests. The experimental results show that the algorithm achieves bandwidth of 86% and average bandwidth utilization of 47%. Compared with the implementation of the controller core, the speedup can be up to 10x, and average speedup is 6.51x.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5309
相关话题/计算机 测试 计算 科学 优化

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 移动云计算中基于延时传输的多目标工作流调度
    摘要:云计算和移动互联网的不断融合,促进了移动云计算的产生与发展.在移动云计算环境下,用户可将工作流的任务迁移到云端执行,这样不但能够提升移动设备的计算能力,而且可以减少电池能源消耗.但是不合理的任务迁移会引起大量的数据传输,这不仅损害工作流的服务质量,而且会增加移动设备的能耗.基于此,提出了基于延 ...
    本站小编 Free考研考试 2022-01-02
  • 基于优化主题模型的临床路径挖掘
    摘要:在健康领域,诊疗过程对于医疗质量至关重要.临床路径集合了各种医疗知识,是对诊疗过程进行标准化的重要途径.然而,当前大多数临床路径由专家研讨制定,往往静态不变,难以部署和实施.在之前的工作中,提出了一种基于主题的临床路径挖掘算法,可以从医疗数据中抽取历史执行路径,客观反映数据中实际存在的医疗模式 ...
    本站小编 Free考研考试 2022-01-02
  • 云环境下基于多目标的多科学工作流调度算法
    摘要:针对现有云环境下的多科学工作流调度算法中存在的未考虑安全调度问题,提出了多科学工作流安全-时间约束费用优化算法MSW-SDCOA(multi-scientificworkflowssecurity-deadlineconstraintcostoptimizationalgorithm).首先, ...
    本站小编 Free考研考试 2022-01-02
  • 不协调本体调试与修复的冲突路径优化策略
    摘要:以基于黑盒法的不协调本体调试与修复技术为研究对象,分析了黑盒法及其优化方法在调试过程中所存在的问题.针对这一问题,提出了一种基于冲突路径的调试与修复策略,证明了该策略能够正确构造出与基本冲突模式相对应的冲突路径.将黑盒法调试目标限定在与该冲突路径相关的冲突集上,以此降低调试目标的规模从而提高调 ...
    本站小编 Free考研考试 2022-01-02
  • 基于互补概念和搜索图的MUPS求解优化方法
    摘要:本体调试是人工智能中非标准推理任务之一,对于本体工程具有很重要的意义.结合互补概念与基于术语集的搜索图提出极小不可满足子术语集求解的优化方法.首先,通过判断扩展的术语集是否包含互补概念,确定该子术语集是否需要进行概念可满足性检测,可以有效减少推理机的调用次数.接着,根据术语集扩展过程构造一个术 ...
    本站小编 Free考研考试 2022-01-02
  • 持续集成测试用例集优化综述研究
    摘要:基于互联网的软件开发要求产品快速迭代,同时保持产品的质量,其关键的环节就是持续集成.持续集成通过自动化测试来保证集成到主干的代码质量.持续集成时的测试用例选择是一个非常有挑战性的问题.如果运行所有的测试用例,需要消耗大量的计算资源,并造成测试反馈周期过长.如果选择的测试用例集不合适,又不足以覆 ...
    本站小编 Free考研考试 2022-01-02
  • 贝叶斯优化方法和应用综述
    摘要:设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法 ...
    本站小编 Free考研考试 2022-01-02
  • 基于森林优化特征选择算法的改进研究
    摘要:在分类中,特征选择一直是一个重要而又困难的问题.最近的研究表明,森林优化特征选择算法(FSFOA)具有更好的分类性能及较好的维度缩减能力.然而,初始化阶段的随机性、更新机制上的局限性及局部播种阶段新树的劣质性严重限制了该算法的分类性能和维度缩减能力.该文采用一种新的初始化策略和更新机制,并在局 ...
    本站小编 Free考研考试 2022-01-02
  • 求解大规模问题协同进化动态粒子群优化算法
    摘要:随着工程技术的发展与优化问题数学模型的完善,许多优化问题从低维优化发展成高维的大规模复杂优化,成为实值优化领域的一个热点问题.通过对大规模问题的特点分析,提出了随机动态的协同进化策略,将其加入动态多种群粒子群优化算法中,实现了对种群粒子和决策变量的双重分组.最后,使用CEC2013的大规模全局 ...
    本站小编 Free考研考试 2022-01-02
  • 基于混合智能优化算法的复杂软件可靠性分配
    摘要:软件可靠性是系统设计、研究和运行过程中必须考虑的关键因素之一.与目前大多数软件可靠性分配的研究主要局限于简单的串并联模型不同,是将最优化算法应用于大型复杂软件系统的可靠性分配.针对分布估计算法收敛速度快、全局搜索能力强但易于陷入局部最优,且差分进化算法局部搜索能力强,但搜索速度略慢的问题,提出 ...
    本站小编 Free考研考试 2022-01-02