摘要:根据申威26010众核处理器的特点提出了基于两层分解的一维FFT众核并行算法.该算法基于迭代的Stockham FFT计算框架和Cooley-Tukey FFT算法,将大规模FFT分解成一系列的小规模FFT来计算,并通过设计合理的任务划分方式、寄存器通信、双缓冲以及SIMD向量化等与计算平台相关的优化方法来提高FFT的计算性能.最后对所提出算法的性能进行了测试,相比于单主核上运行的FFTW3.3.4库,获得了平均44.53x的加速比,最高加速比可达56.33x,且其带宽利用率最高可达83.45%.
Abstract:A two-layer decomposition 1-D FFT multi-core parallel algorithm is proposed according to the characteristics of Sunway 26010 processor. It is based on the iterative Stockholm FFT framework and the Cooley-Tukey FFT algorithm. It decomposes large scale FFT into a series of small scale FFTs. It improves the performance of the algorithm by means of designing reasonable task partitioning, register communication, double-buffering, and SIMD vectorization. Finally, the performance of the two-layer decomposition 1-D FFT multi-core parallel algorithm is tested. It achieves an average speedup of 44.53x, with a maximum speedup of up to 56.33x, and a maximum bandwidth utilization of 83.45%, compared to FFTW3.3.4 library running on the single MPE.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5848
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
申威26010众核处理器上一维FFT实现与优化
本站小编 Free考研考试/2022-01-02
相关话题/计算 测试 优化 通信 设计
距离约束的网格曲面曲线设计方法
摘要:针对现有网格曲面曲线设计方法鲁棒性差、收敛慢、适用范围窄等不足,提出一种基于距离约束的新方法.该方法将复杂的流形约束转化为距离约束,并与光滑、插值(逼近)约束共同描述成优化问题.求解时,用切平面逼近局部曲面,并将距离约束松弛成用点到切平面的距离.由于计算距离所用的曲线上的点与其对应的切点相互依 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02并行帧缓存设备:基于多核CPU的Xorg并行显示优化
摘要:Xorg图形服务器软件在帧缓存设备上采用单线程绘制模式,难以发挥多核CPU的性能.针对多核CPU上的帧缓存设备,设计了带有互斥操作的任务队列,并按照屏幕划分的方法,实现了Xorg的矩形填充操作在帧缓存设备上基于私有任务队列的多线程并行化,并实现了主从线程负载均衡.x11perf测试结果表明,该 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向边缘计算的目标追踪应用部署策略研究
摘要:目标追踪算法虽已在诸多领域得到广泛应用,然而由于实时性和功耗问题,使得基于深度学习模型的算法难以在移动终端设备上部署应用.结合边缘计算技术,从应用部署优化的角度,对目标追踪算法在移动设备上的部署策略进行研究.通过对目标追踪应用特点、移动设备特性以及边缘云网络架构的分析,提出一种面向边缘计算的目 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02SDN数据平面软件一致性测试用例生成方法
摘要:SDN(software-definednetwork)旨在解决架构复杂且分散的传统网络出现的问题,使网络具有更强的灵活性.P4编程语言的特征在于用户可以直接根据自己对处理数据包的需求定义P4程序,然后经过编译过程,生成适配文件将用户需求配置到网络设备.面向P4编程语言的SDN数据平面一致性测 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于视觉显著性的AMOLED显示器多区域功耗优化
摘要:AMOLED显示器作为嵌入式设备的高功耗组件,其功耗由显示内容中所有像素点的像素值决定;同时,人类视觉系统通过视觉关注机制对显示内容的重要区域优先解读,对非重要区域关注较低.基于上述特性,提出基于视觉显著性的AMOLED显示器多区域功耗优化方法.方法的核心是:通过视觉显著性算法对显示内容的重要 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向多读/写头磁畴壁存储器的优化研究
摘要:当前,大数据及人工智能技术向嵌入式系统发展,对嵌入式系统的存储访问能力提出了更高的要求.磁畴壁存储器凭借其高读写速度、高密度以及低功耗等优点,可以用于嵌入式系统,以满足数据密集型应用对访问速度、容量及能耗的需求.但是磁畴壁存储器在进行数据访问之前需要进行移动操作,这将极大影响其存储访问性能.而 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02智能仓储货位规划与AGV路径规划协同优化算法
摘要:智能仓储的优化一般分为货架优化和路径优化两部分:货架优化针对货物与货架两者的关系,对货物摆放位置进行优化;而路径优化主要寻找自动引导小车(automatedguidedvehicle,简称AGV)的最优路径.目前,大多的智能仓储优化仅对这两部分进行独立研究.在实际仓储应用中,只能以线性叠加的方 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向稀疏卷积神经网络的GPU性能优化方法
摘要:近些年来,深度卷积神经网络在多项任务中展现了惊人的能力,并已经被用在物体检测、自动驾驶和机器翻译等众多应用中.但这些模型往往参数规模庞大,并带来了沉重的计算负担.神经网络的模型剪枝技术能够识别并删除模型中对精度影响较小的参数,从而降低模型的参数数目和理论计算量,给模型的高效执行提供了机会.然而 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02一种基于录制/重放的Android应用众包测试方法
摘要:随着Android设备的流行和普及,Android生态系统的碎片化问题越发严重.为了确保应用质量,Android应用需要在多种设备上进行测试.为了应对大量重复机械的测试工作,学术界和工业界提出了众多跨设备的测试方法,但目前的方法还有较多的局限性:(1)手工编写设备无关的测试脚本耗时且容易出错; ...中科院软件研究所 本站小编 Free考研考试 2022-01-02大规模路网图下关键词覆盖最优路径查询优化
摘要:游客倾向于采用个性化的旅游路线,规划这样的路线需要综合考量路径长度、路径开销和路径覆盖的兴趣点.关键词覆盖最优路径查询(KOR)就是用于规划这样的路线的一类查询,其处理过程通常包括预处理和路径拓展.由于路网图规模的不断扩大,现有算法预处理所需内存开销急剧上升,由于内存不足,导致较大规模的路网不 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02