删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于GPU的Hartree-Fock与密度泛函算法及程序

本站小编 Free考研考试/2022-02-14

摘要/Abstract



基于图形处理单元(GPU)的算法和程序为解决量子化学中的计算瓶颈开辟了道路. 作者设计了基于GPU的量子化学算法和程序, 实现了Hartree-Fock方法和密度泛函理论中双电子排斥积分计算、Fock矩阵构造以及交换相关泛函的计算. 由于计算内核使用OpenCL编程框架, 程序可以在多种架构的计算设备上执行. 对于不同计算模块和分子自洽场计算的测试表明, 基于OpenCL的GPU程序相比CPU上的串行程序实现了最快148倍的加速.
关键词: 图形处理单元, OpenCL, Hatree-Fock, 密度泛函理论, 直接自洽场计算
Graphics processing units (GPUs) have become a promising architecture to tackle many computational bottlenecks in quantum chemistry calculations. Herein, we present our new development on using GPU to accelerate Hartree-Fock (HF) and density functional theory (DFT) calculations in Beijing Density Functional (BDF) Package. Our program utilizes the OpenCL platform and thus can execute on a variety of computing devices from different companies as NVIDIA and AMD. All time-consuming steps in HF/DFT, such as calculation of electron repulsion integrals (ERIs), the formation of the Fock matrix, and the exchange-correlation (XC) functional related works, have been implemented on the GPU. In our algorithm, the coulomb- and exchange-matrix are calculated directly on GPU by contracting the primitive ERIs with the density matrix. The 1T1PI (1 thread 1 primitive integral) algorithm in which each thread evaluates one primitive ERI, is used to schedule the computational tasks on GPU. To achieve this task, the primitive Gaussian basis shell pairs μν are first prescreened and sorted according to their values. The Gaussian product theorem (GPT) is applied to each shell pairs and the intermediate values are calculated and copied into the GPU memory for further use. Then, the one-dimensional mapping is used to assign 32 work items (threads) into one workgroup to calculate the J matrix element and the permutation symmetry of the primitive ERIs is fully utilized. To calculate the K matrix, two-dimensional mapping is used and every 64 work items are packed into one workgroup. Permutation symmetry of exchanging the bra pair μλ and the ket pair νσ is ignored for reducing the expensive commutation between different workgroups on GPU. After a batch of coulomb- or exchange-matrix elements are computed on the GPU, the results are copied back to the CPU and accumulated to the Fock matrix. The XC terms are calculated through a numerical procedure due to the complex form of the XC functionals. We first pack the numerical grids as batches in which one batch has 128 grids. Then the none zero Gaussian basis shells on each grid batch are sifted out. The grid batches and the basis function sieving indices are duplicated on CPU and GPU memory to avoid unnecessary communication between CPU and GPU. The computational tasks are scheduled dynamically according to the grid batches on GPU. All steps as calculating the numerical grids and their weights, electron density and density gradient, the XC functional and its derivative, and the XC energy and the matrix elements of the XC potential, are optimized step by step on GPU. All calculations are carried out in 64-bit double-precision accuracy to achieve the same numerical precision as on the CPU. Benchmark calculations are carried out on several different GPUs from NVIDIA and AMD for assessing the performance of our code. The benchmark result indicates that the algorithm implemented on the GPU can achieve up to 148-fold speedup over a serial CPU implementation, and the total energy calculated on the GPU is as accurate as the resulting calculated on the CPU.
Key words: GPU, OpenCL, Hartree-Fock, density functional theory, direct self-consistent-field calculation


PDF全文下载地址:

点我下载PDF
相关话题/计算 程序 测试 化学 道路

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 大孔高镍LiNi0.8Co0.1Mn0.1O2正极材料的制备及其电化学性能研究
    摘要/Abstract本工作以聚甲基丙烯酸甲酯(PMMA)微球组装成的胶晶模板作为铸模,溶胶-凝胶法辅助获得大孔LiNi0.8Co0.1Mn0.1O2(NCM811)正极材料.结果表明,利用PMMA作为造孔剂,形成了由100nm的颗粒堆积而成的大孔结构,这种结构有效地提高了材料的倍率性能和循环稳定性 ...
    本站小编 Free考研考试 2022-02-14
  • 基于几何约束的蛋白质-配体准确结合自由能计算
    摘要/Abstract蛋白质-配体的结合过程伴随着复杂的结构变化,在分子模拟可及的时间尺度内难以完全捕获,这使得准确估计蛋白质-配体的结合自由能十分困难.一种有效的解决途径是采用几何约束减小需要采样的构象空间,再通过后处理方式扣除约束的影响.本文综述了三种几何约束策略&ȁ ...
    本站小编 Free考研考试 2022-02-14
  • 液相合成彩色氮化碳及其光电化学特性研究
    摘要/Abstract减小带隙值和获得有序二维微结构是提高氮化碳光电化学性能的关键.通过调控尿素和柠檬酸的比例,采用室温熟化工艺,合成出不同颜色的氮化碳材料,成功地将其带隙减小至1.74eV,并获得了由有序二维网络构建的多孔微结构.所得氮化碳获得了一定光电转换性能,并随着带隙值的减小和二维网络结构的 ...
    本站小编 Free考研考试 2022-02-14
  • 人工智能助力当代化学研究
    摘要/Abstract以机器学习为代表的人工智能在当代的科学研究中正在发挥越来越重要的作用.不同于传统的计算机程序,机器学习人工智能可以通过对大量数据的反复分析和自身模型的优化,即“学习”过程,从而在大量的数据中寻找客观事物的相互联系,形成具有更好预测和决策能力的新模型,做出合理的判断.化学研究的特 ...
    本站小编 Free考研考试 2022-02-14
  • 中空纳米结构在表界面化学能源存储中的应用
    摘要/Abstract中空纳米结构因具有有效比表面积大、传输路径短、缓冲性能好等优势,在能源转换和存储领域受到人们的广泛关注,本综述详细总结了中空纳米结构材料在以超级电容器为代表的表界面化学能源存储领域的研究进展.首先介绍了表界面化学能源存储的机理和挑战;其次详细讨论了中空材料的微观结构参数对表界面 ...
    本站小编 Free考研考试 2022-02-14
  • 表界面化学调控二维材料电催化生物质转化的研究进展
    摘要/Abstract电催化生物质转化是以间歇式能源产生的电能驱动生物质电转化为高附加值有机化学品的过程,将其与水分解耦合能够产生高纯度氢气,具有有效降低化石燃料消耗、优化能源结构及解决环境问题的潜力.然而,由于生物质具有多个官能团及其转化反应涉及多个电子参与,电催化生物质转化面临着转化效率低、选择 ...
    本站小编 Free考研考试 2022-02-14
  • PEDOT的电化学合成及其在固态染料敏化太阳能电池中的应用研究
    摘要/Abstract本工作主要围绕PEDOT的合成及其在固态染料敏化太阳能电池对电极中的应用开展研究,重点研究了循环伏安法电化学沉积过程中循环次数(10~50次)对PEDOT薄膜的形貌、厚度及光学性质的影响.通过红外光谱、SEM、紫外-可见吸收光谱表征了PEDOT的结构、形貌及光性质;通过J-V、 ...
    本站小编 Free考研考试 2022-02-14
  • 氧化石墨烯的表面化学修饰及纳米-生物界面作用机理
    摘要/Abstract由于具备独特的物理化学性质,氧化石墨烯已被广泛地应用于生命科学与人体健康等相关领域.然而,如何最大化地发挥氧化石墨烯的优势与特点,并克服其自身固有性质导致的生物不良效应,依然是当前面临的难题.为更好地了解该领域的研究现状,本文主要综述了近年来氧化石墨烯的表面化学调控和生物作用机 ...
    本站小编 Free考研考试 2022-02-14
  • 化学链合成氨研究进展
    摘要/Abstract氨不仅是氮肥的主要原料,近年来亦被认为是一种具有重要应用前景的"能源载体".现有的Haber-Bosch合成氨工艺是一严重依赖化石能源、高能耗、高碳排放的过程.开发可再生能源驱动的新型"绿色"合成氨过程是实现人类社会可持续发展的重要课题.将合成氨反应解耦为两个或多个分步反应,即 ...
    本站小编 Free考研考试 2022-02-14
  • 质谱离子源技术用于电化学反应机理研究的进展
    摘要/Abstract电化学反应是连续的动态变化过程,伴随着瞬时中间体和复杂结构物质的产生,因此,精确而有效地捕捉反应过程中的一系列产物,有助于准确推导其电化学反应机理,进而优化反应条件,提高反应效率.目前,主流的电化学在线监测技术包括光谱法、循环伏安法和线性极化曲线等,这些方法能够胜任反应过程中大 ...
    本站小编 Free考研考试 2022-02-14