摘要大数据时代,文本数据量的爆炸式增长使得特征选择成为文本挖掘领域最关键的任务之一。文档中的词语和模式规模庞杂,故需保证所挖掘特征的质量充满挑战。“基于模式”特征选择方法具有传统“基于词语”方法所没有的优越特性,可以进行有效地信息去噪,提升文本挖掘性能。该文提出基于包含度和频繁模式的文本特征选择方法: 首先,定义基于包含度的相似性度量原理;然后,提出基于包含度的冗余文本频繁模式过滤方法。基于包含度度量文本频繁模式间相似性,以此去除子模式及相似度较高的交叉模式。再通过冗余模式去噪,提升文本频繁模式挖掘性能;提出基于关联度的文本特征选择方法。以经过过滤处理后的非冗余文本频繁模式为基础,进行文本特征选择,并利用词语与文档的关联度进行词语类别划分及权重分配。使所选特征与文档关联度更加清晰,分类效果更好。通过在数据集Reuters-21578上的实验得知,基于包含度和频繁模式的文本特征选择算法性能,优于当前普遍应用的传统文本特征选择方法和新的特征选择及特征抽取方法。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2620
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于包含度和频繁模式的文本特征选择方法
本站小编 Free考研考试/2022-01-02
相关话题/数据 信息 质量 实验 基础
基于数据增强技术的神经机器翻译
摘要神经机器翻译是目前机器翻译领域最热门的研究方法。和统计机器翻译相比,神经机器翻译在语料丰富的语种上可以取得非常好的结果,但是在资源比较稀缺的语种上表现一般。该文利用数据增强技术对资源贫乏语种的训练数据进行扩充,以此增强神经机器翻译的泛化能力。该文在藏汉、汉英两种语言对上进行了实验,当训练数据规模 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02蒙古文信息检索系统的设计与实现
摘要该文针对传统蒙古文与西里尔蒙古文设计开发了一个功能完备的信息检索系统。在网页抓取方面,采用MD5算法对爬虫进行了改进,提升了爬虫的速度。在预处理阶段,对蒙古文文档进行了编码转换、词缀切分转换等操作。在检索方面,使用向量空间模型实现了对蒙古文文档的检索。在该文系统中加入了西里尔蒙古文到传统蒙古文转 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于数据并行的神经语言模型多卡训练分析
摘要数据并行训练神经语言模型,旨在不改变网络结构的同时,大幅度降低训练所带来的时间消耗。但由于多设备之间频繁的数据传输,使得整体加速效果并不理想。该文通过实验对比All-Reduce算法和基于采样的梯度更新策略在数据传输上的加速效果,使用了四块NVIDIATITANX(Pascal)GPU设备在循环 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向领域的高质量微博用户发现
摘要在微博系统中,寻找高质量微博用户进行关注是获取高质量信息的前提。该文研究高质量微博用户发现问题,即给定领域词查询,系统根据用户质量返回相关用户排序列表。将该问题分解成两个子问题:一是领域相关用户的检索问题,二是微博用户排序问题。针对用户检索问题,提出了基于用户标签的用户表示方法以及基于维基百科的 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02面向拓片信息的甲骨字网络构建与分析
摘要未识甲骨字的考释是甲骨文研究最重要的内容,也是历史学家和计算机学家研究甲骨文遇到的最大瓶颈。甲骨文研究积累的数据已体现出海量化和系统化。因此,该文以甲骨文拓片为基础数据,通过建模定义甲骨字之间的距离,进而构建甲骨字网络。在此网络之上,分析网络的度分布、局部连接比率、聚类系数、模块度等相关特性。结 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02融合先验信息的蒙汉神经网络机器翻译模型
摘要神经网络机器翻译模型在蒙古文到汉文的翻译任务上取得了很好的效果。神经网络翻译模型仅利用双语语料获得词向量,而有限的双语语料规模却限制了词向量的表示。该文将先验信息融合到神经网络机器翻译中,首先将大规模单语语料训练得到的词向量作为翻译模型的初始词向量,同时在词向量中加入词性特征,从而缓解单词的语法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02儿童外语学习认知数据收集的在线游戏框架
摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02DRTE:面向基础教育的术语抽取方法
摘要术语抽取从非结构化文本中自动抽取专业术语。该工作在中文分词、信息抽取、知识库构建中发挥着重要的作用。当前术语抽取方法很大程度上依赖于词的统计信息,由于基础教育学科中术语具有极强的长尾特性,导致基于统计的术语抽取方法很难抽取出处于尾端的术语。该文结合基础教育的学科特点,提出了DRTE:一种利用术语 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02网络传播信息内容的可信度研究进展
摘要网络中存在着大量的谣言、偏激和虚假信息,这对网络信息的质量、可信度以及舆情的产生与发展趋势具有严重的负面影响。为实现信息可信度的准确判断与高效度量,该文在大量已有最新研究成果与文献的基础上,将不可信信息分为极端突发事件信息、网络偏激信息、网络谣言、虚假信息、误报信息和垃圾信息等类型,并分别针对这 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于多特征信息传播模型的微博意见领袖挖掘
摘要在线社交网络中的意见领袖通常是指在社交网络的信息传播中具有较大社会影响力的个体。针对当前意见领袖挖掘方法中只考虑社交网络的拓扑结构和节点的个体属性,缺乏信息传播中交互特征的问题,该文提出了基于扩展独立级联模型,并融入网络结构特征、个体属性和行为特征的意见领袖挖掘模型(extendedindepe ...中科院软件研究所 本站小编 Free考研考试 2022-01-02