摘要网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进。该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度。实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证。实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性。
PDF全文下载地址:
http://jcip.cipsc.org.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=2568
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
基于潜在语义分析的文本指纹提取方法
本站小编 Free考研考试/2022-01-02
相关话题/实验 空间 数据 网络 信息
基于语义的政策血缘网络演化机理研究
摘要该文将行业政策形式化为一个由微观、中观和宏观政策血缘网络构成的复杂网络体系。分别通过改进的基于语义的政策词语相似度计算方法、依存句分析和基于向量空间模型的方法构建了微观、中观及宏观的政策血缘网络。在此基础上,该文对政策血缘网络进行了层次结构演化和碎片清理,构建了政策血缘森林并提出基于政策血缘森林 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02试题知识点预测:一种教研知识强化的卷积神经网络模型
摘要在各类在线学习系统中,为了给学生提供优质的学习服务,一个基础性的任务是试题知识点预测,即预测一道试题所考察的知识概念、能力等。在这个任务中,已有方法通常基于人工专家标注或者传统机器学习方法。然而,这些传统方法要么耗时耗力,要么仅关注试题资源的浅层特征,忽略了试题文本和知识点之间的深层语义关联。因 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于概念层次网络的知识表示与本体建模
摘要知识表示是自然语言理解的重要基础。知识表示不统一、语义信息无法系统化利用是目前存在的亟待解决的问题。要解决这个问题,就要解决语义知识表示的问题。该文基于概念层次网络,描述了词语、句子和篇章层面的语义知识表示方法。基于文中描述的词汇层面的表示方法,构建了一个多语言本体知识库。该知识库的知识表示方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02分层递阶的网络结构洞占据者挖掘及分析
摘要结构洞是在社会网络信息传播中占据重要位置的一类关键节点。据研究,5%的结构洞控制着50%的信息传播。****们研究了单一粒度网络下结构洞的挖掘方法及分析,然而很多网络存在分层递阶的多粒度结构特性,对分层递阶网络的结构洞挖掘和分析具有现实意义。因此,该文提出了一种分层递阶网络的多粒度结构洞挖掘方法 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02儿童外语学习认知数据收集的在线游戏框架
摘要近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank①等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于空间投影和关系路径的地理知识图谱表示学习
摘要近年来,类人智能技术和相关产品飞速发展,这在很大程度上得益于完备知识图谱的构建,特别是以地理为代表的基础教育知识图谱。传统的知识图谱采用网络知识组织形式进行表示,计算复杂度较高,而且三元组的知识表示形式不能有效地度量和利用实体间语义关联关系。该文构建了基于空间投影和关系路径的知识表示学习算法—P ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于神经网络的体育新闻自动生成研究
摘要面向体育比赛的大规模直播脚本快速及时地反映了比赛的实时进程,但依靠体育新闻记者来据此人工撰写新闻报道往往耗时费力。鉴于此,该文提出了一种自动生成体育直播脚本所对应的体育新闻的神经网络模型,该模型在一定程度上避免了传统模型过于依赖人工选择特征的局限性,同时还能综合考虑脚本中句子级局部信息与全局信息 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于神经网络的片段级中文命名实体识别
摘要命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02网络传播信息内容的可信度研究进展
摘要网络中存在着大量的谣言、偏激和虚假信息,这对网络信息的质量、可信度以及舆情的产生与发展趋势具有严重的负面影响。为实现信息可信度的准确判断与高效度量,该文在大量已有最新研究成果与文献的基础上,将不可信信息分为极端突发事件信息、网络偏激信息、网络谣言、虚假信息、误报信息和垃圾信息等类型,并分别针对这 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02基于双向LSTM神经网络模型的中文分词
摘要中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效 ...中科院软件研究所 本站小编 Free考研考试 2022-01-02