删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于双语URL匹配模式可信度的平行网页识别研究

本站小编 Free考研考试/2022-01-02

摘要平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法: 即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。

PDF全文下载地址:

http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2538
相关话题/优化 基础 实验 计算 介绍

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • DRTE:面向基础教育的术语抽取方法
    摘要术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE:一种利用术语 ...
    本站小编 Free考研考试 2022-01-02
  • 开放域上基于深度语义计算的复述模板获取方法
    摘要利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基 ...
    本站小编 Free考研考试 2022-01-02
  • 融合CNN和结构相似度计算的排比句识别及应用
    摘要排比句具有结构紧凑、句式整齐、富有表现力等鲜明的特点,广泛应用在各种文体之中,在近几年语文高考的鉴赏类问题中也多有考察,但在自动识别方面的研究还鲜有涉及。该文依据排比句结构相似、内容相关的特点,以句子的词性、词语作为基本特征,设计了融合卷积神经网络和结构相似度计算的排比句识别方法。首先将词向量和 ...
    本站小编 Free考研考试 2022-01-02
  • 面向多目标优化的多样性代理辅助进化算法
    摘要:代理辅助进化算法(SAEA)是目前解决昂贵优化问题的一种有效途径.提出一种基于多样性的代理辅助进化算法(DSAEA)来解决昂贵多目标优化问题.DSAEA采用Kriging模型近似每个目标来代替原目标函数进行评估,加速了进化算法的优化过程.其引入参考向量把问题分解为多个子问题,根据解与参考向量之 ...
    本站小编 Free考研考试 2022-01-02
  • 功能分发网络:基于容器的智能边缘计算平台
    摘要:随着大数据、机器学习等技术的发展,网络流量与任务的计算量也随之快速增长.研究人员提出了内容分发网络(CDN)、边缘计算等平台技术,但CDN只能解决数据存储,而边缘计算存在着难以管理和不能跨集群进行资源调度等问题.容器化技术广泛应用在边缘计算场景中,但目前,边缘计算采取的容器编排策略普遍比较低效 ...
    本站小编 Free考研考试 2022-01-02
  • 改进的元启发式优化算法及其在图像分割中的应用
    摘要:元启发式算法自20世纪60年代提出以后,由于其具有可以有效地减少计算量、提高优化效率等优点而得到了广泛应用.该类算法以模仿自然界中各类运行机制为特点,具有自我调节的特征,解决了诸如梯度法、牛顿法和共轭下降法等这些传统优化算法计算效率低、收敛性差等缺点,在组合优化、生产调度、图像处理等方面均有很 ...
    本站小编 Free考研考试 2022-01-02
  • 优化简单表缩减算法求解因子分解编码实例
    摘要:表约束在约束程序(constraintprogramming,简称CP)中被广泛研究.目前,求解表约束问题效率最高的算法是CT(compact-table)和STRbit(simpletabularreductionbit).它们在搜索过程中维持广义弧相容(generalizedarccons ...
    本站小编 Free考研考试 2022-01-02
  • 神威太湖之光上分子动力学模拟的性能优化
    摘要:“神威太湖之光”国产超级计算机的特点是适用于高通量计算系统,此类系统往往存储器访问延迟,网络延迟较长.在实际应用中,有一大类问题是时间演化的模拟问题,往往需要高频状态迭代,每次迭代需要通信.此类应用问题的典型代表是分子动力学模拟,分子的性质依赖于时间演化,导致状态相关的时间尺度上难以并行化.实 ...
    本站小编 Free考研考试 2022-01-02
  • 抗量子计算的多变量盲签名方案
    摘要:盲签名是一种特殊的数字签名,可广泛应用于各种匿名场合.目前,大多数盲签名的安全性主要基于大整数分解问题或离散对数问题的难解性.然而,实用量子计算机的即将诞生会使得传统的盲签名不再安全,而且量子算法的出现对传统的盲签名亦提出了挑战.因此,构造能够防御量子计算攻击的盲签名方案具有重要的意义.多变量 ...
    本站小编 Free考研考试 2022-01-02
  • 异构HPL算法中CPU端高性能BLAS库优化
    摘要:异构HPL(high-performanceLinpack)效率的提高需要充分发挥加速部件和通用CPU计算能力,加速部件集成了更多的计算核心,负责主要的计算,通用CPU负责任务调度的同时也参与计算.在合理划分任务、平衡负载的前提下,优化CPU端计算性能对整体效率的提升尤为重要.针对具体平台体系 ...
    本站小编 Free考研考试 2022-01-02