摘要:带通配符的模式匹配是一个经典的研究问题,带有可变间隙约束的模式匹配是近年来比较热门的研究方向.为适应某些查询精度要求较高的应用领域,提出一种在稀疏间隙约束条件下求解模式匹配完备解的算法SGPM-SAI(pattern matching with sparse gaps constraint based on suffix automaton index).SGPM-SAI通过对文本串预处理,建立一种称为W-SAM的图索引结构,然后对模式串分段查找EndPos集合,最后以集合归并求交的方法得到模式匹配的完备解.实验结果表明:在不考虑预处理时间的情况下,相比几种最典型的模式匹配算法(KMP,BM,AC,suffix array),SGPM-SAI算法性能优势显著,至少高出3~5倍.通过与SAIL算法的最新优化版本(SAIL-Gen)进行比较,在稀疏间隙约束条件下,SGPM-SAI的性能要显著优于SAIL-Gen算法.此外,为有效利用现代处理器的大规模并行处理单元,提出了并行优化后的算法Parallel SGPM-SAI.实验结果表明:Parallel SGPM-SAI算法的加速效果显著,且具有良好的并行可扩展性,能够充分利用现代众核处理器的高并行计算优势.
Abstract:Pattern matching with wildcards is a classic problem, and matching with variable gap constraints is a popular direction in this field in recent years. In order to meet the requirement of high accuracy in some query applications, this paper proposes an algorithm (referred to as SGPM-SAI) to obtain a complete solution of pattern matching under the condition of sparse gaps constraint. SGPM-SAI firstly creates an index structure called W-SAM (wildcard suffix automation) for the preprocessed text, and then get EndPos collection for each pattern segmentation by searching string from W-SAM, and finally get the complete solution of pattern matching by means of EndPos sets intersection. Experimental results show that, regardless of pretreatment time, the performance of SGPM-SAI algorithm is at least 3~5 times higher than other competitive algorithms, such as KMP, BM, AC, suffix array. Compared with the latest version (SAIL-Gen) of SAIL algorithm, the performance of SGPM-SAI is significantly better under the condition of sparse gaps constraint. In addition, this paper introduces parallel process methods for SGPM-SAI algorithm so as to effectively utilize the massive parallel processing units of modern processors. Experimental results show that the acceleration of Parallel SGPM-SAI algorithm has significant effect, as well as good parallel scalability. This indicates that the presented method can take full advantage of the high parallel computation capability of modern many-core processors.
PDF全文下载地址:
http://jos.org.cn/jos/article/pdf/5326
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
一种带稀疏间隙约束的并行模式匹配算法
本站小编 Free考研考试/2022-01-02
相关话题/实验 优化 结构 计算 算法
一种保序加密域数据库认证水印算法
摘要:加密域水印技术适用于云环境下的隐私保护(加密)和数据安全认证(加水印).通过结合保序加密、离散余弦变换、密码哈希和数字水印技术,提出了加密域数据库认证水印算法.首先对数据进行保序加密,以达到对敏感数据内容的隐私保护;对加密后的数据进行分组和离散余弦变换处理,然后将交流系数的哈希(Hashing ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向国产申威26010众核处理器的SpMV实现与优化
摘要:世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sp ...中科院软件研究所 本站小编 Free考研考试 2022-01-02LFA算法的一种高效实现方法
摘要:研究表明,网络中的故障不可避免而且频繁出现.当故障发生时,目前互联网部署的域内路由协议需要经历收敛过程.在此过程中,路由信息可能不一致,从而导致报文丢失,降低了路由可用性.因此,业界提出了利用LFA(loopfreealternates)应对网络中发生的单故障情形,从而提高路由可用性.然而,已 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于行为特征的语义工作流修正算法
摘要:工作流修正是工作流重用的重要任务.目前,在基于工作流的可重用片段——stream的语义工作流修正中,当工作流stream库中不存在与检索语义工作流中的工作流stream结构相似的stream时,无法修正检索语义工作流.针对这种情况,提出了一种改进方法——基于stream行为特征的语义工作流修正 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02移动云计算中基于延时传输的多目标工作流调度
摘要:云计算和移动互联网的不断融合,促进了移动云计算的产生与发展.在移动云计算环境下,用户可将工作流的任务迁移到云端执行,这样不但能够提升移动设备的计算能力,而且可以减少电池能源消耗.但是不合理的任务迁移会引起大量的数据传输,这不仅损害工作流的服务质量,而且会增加移动设备的能耗.基于此,提出了基于延 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于优化主题模型的临床路径挖掘
摘要:在健康领域,诊疗过程对于医疗质量至关重要.临床路径集合了各种医疗知识,是对诊疗过程进行标准化的重要途径.然而,当前大多数临床路径由专家研讨制定,往往静态不变,难以部署和实施.在之前的工作中,提出了一种基于主题的临床路径挖掘算法,可以从医疗数据中抽取历史执行路径,客观反映数据中实际存在的医疗模式 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02云环境下基于多目标的多科学工作流调度算法
摘要:针对现有云环境下的多科学工作流调度算法中存在的未考虑安全调度问题,提出了多科学工作流安全-时间约束费用优化算法MSW-SDCOA(multi-scientificworkflowssecurity-deadlineconstraintcostoptimizationalgorithm).首先, ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于偏好的个性化路网匹配算法
摘要:定位技术的普遍应用,使得随时随地获取个人位置成为可能,进一步推动了基于位置的服务等新型应用的发展,产生了海量轨迹数据.精确的路网匹配对提高这些新型应用的服务质量具有重要的研究意义,然而受众多因素的影响,大部分轨迹的采样率较低,比如由签到类应用或低功耗设备生成的低采样轨迹,给路网匹配带来了巨大的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于扩展规则的启发式#SAT求解算法
摘要:#SAT在人工智能领域取得了广泛应用,很多现实问题可以规约成#SAT进行求解,得到命题理论的模型个数.通过对基于扩展规则的#SAT求解器的深入研究,发现选择规约子句的顺序对极大项空间的大小有着较大的影响,因此提出两种加速#SAT求解的启发式策略:MW和LC&MW.MW每次选择具有最大权值的子句 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02SIMON不可能差分及零相关路径自动化搜索算法
摘要:对于分组密码,不可能差分和零相关线性分析都是很重要的分析手段.通过研究非线性组件与(AND)的性质,首先得到用于刻画SIMON轮函数差分及线性传播特性的约束式,再基于布尔可满足约束问题(SAT),提出一种普适性不可能差分和零相关路径自动化搜索算法,并利用该算法搜索得到SIMON更多的不可能差分 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02