基于标签和分块特征的新闻网页关键信息自动抽取

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-02-06

基于标签和分块特征的新闻网页关键信息自动抽取

王雪梅¹(

),陈兴蜀^1,²,王海舟²,王文贤^3,*(

)

1. 四川大学计算机学院(软件学院), 四川成都 610065
2. 四川大学网络空间安全学院, 四川成都 610065
3. 四川大学网络空间安全研究院, 四川成都 610065

收稿日期:2018-09-27出版日期:2019-03-01发布日期:2019-03-19
通讯作者:王文贤E-mail:ewellwang@163.com;catean@scu.edu.cn
作者简介:王雪梅(1992—),女,硕士研究生,主要研究方向为信息抽取. E-mail:ewellwang@163.com
基金资助:国家自然科学基金资助项目(61802270);国家自然科学基金资助项目(61802271);国家“双创”示范基地之变革性技术国际研发转化平台资助项目(C700011);四川省重点研发项目资金资助(2018G20100);四川省科技支撑计划资金资助(2016GZ0038);中央高校基本科研业务费专项资金资助(2017SCU11065)

Automatic extraction of key information for news web pages based on tag and block features

Xue-mei WANG¹(

),Xing-shu CHEN^1,²,Hai-zhou WANG²,Wen-xian WANG^3,*(

)

1. College of Software Engineering, Sichuan University, Chengdu 610065, Sichuan, China
2. College of Cybersecurity, Sichuan University, Chengdu 610065, Sichuan, China
3. Cybersecurity Research Institute, Sichuan University, Chengdu 610065, Sichuan, China

Received:2018-09-27Online:2019-03-01Published:2019-03-19
Contact:Wen-xian WANG E-mail:ewellwang@163.com;catean@scu.edu.cn

Supported by:国家自然科学基金资助项目(61802270);国家自然科学基金资助项目(61802271);国家“双创”示范基地之变革性技术国际研发转化平台资助项目(C700011);四川省重点研发项目资金资助(2018G20100);四川省科技支撑计划资金资助(2016GZ0038);中央高校基本科研业务费专项资金资助(2017SCU11065)

摘要/Abstract

摘要： 针对抽取新闻关键信息需要人工构造或训练生成模板的问题,提出了基于标签和分块特征的新闻关键信息自动抽取方法。该方法首先通过计算新闻网页相关特征来定位新闻正文标签块,然后通过编辑距离定位新闻标题标签块,最后根据正文块和标题块定位新闻发布时间和来源标签块,并通过抽取各块的文本获得目标新闻关键信息。在该方法的基础上提出了针对新闻站点的目标新闻自动抽取框架,并用该框架对10个新闻站点的30个新闻栏目进行了新闻抽取。对抽取到的1597条新闻随机选择了1000条进行了实验。实验结果表明,该方法对新闻标题、发布时间、来源、正文均表现出良好的抽取效果,且优于实验对比对象。

PDF全文下载地址:

http://lxbwk.njournal.sdu.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3049

相关话题/新闻 信息 实验 四川大学 四川

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
基于信息距离的信息系统等级保护评价方法
基于信息距离的信息系统等级保护评价方法杜瑶瑶(),潘平(),令狐金花贵州大学计算机科学与技术学院,贵州贵阳550025收稿日期:2018-06-25出版日期:2019-01-20发布日期:2019-01-23通讯作者:潘平E-mail:1823554507@qq.com;panping_17@163 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
结合新闻和评论文本的读者情绪分类方法
结合新闻和评论文本的读者情绪分类方法严倩,王礼敏,李寿山*,周国栋苏州大学自然语言处理实验室,江苏苏州215006收稿日期:2017-07-04出版日期:2018-09-20发布日期:2018-09-10作者简介:严倩(1993—),女,硕士研究生,研究方向为自然语言处理.E-mail:qyan@s ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于本体的俄文新闻话题检测设计与实现
基于本体的俄文新闻话题检测设计与实现原伟1,2,唐亮2,易绵竹2*1.上海外国语大学博士后流动站,上海200083;2.信息工程大学洛阳校区,河南洛阳471003收稿日期:2017-12-22出版日期:2018-09-20发布日期:2018-09-10作者简介:原伟(1981—),男,博士,副教授, ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
单边不完全信息重复博弈中的Cav(u)定理的推广
单边不完全信息重复博弈中的Cav(u)定理的推广徐伟呈1,李欣鹏2*1.中国海洋大学经济学院,山东青岛266100;2.山东大学中泰证券金融研究院,山东济南250100收稿日期:2017-07-24出版日期:2018-04-20发布日期:2018-04-13通讯作者:李欣鹏(1984—),男,博士, ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
P-信息智能动态融合与信息规律状态智能识别
P-信息智能动态融合与信息规律状态智能识别陈保会1,张凌1,史开泉21.龙岩学院信息工程学院,福建龙岩364012;2.山东大学数学学院,山东济南250100收稿日期:2017-10-23出版日期:2018-02-20发布日期:2018-01-31作者简介:陈保会(1983—),男,讲师,硕士,研究 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于视频分析的地理信息隐私保护方法
基于视频分析的地理信息隐私保护方法康海燕,黄渝轩,陈楚翘北京信息科技大学信息管理学院,北京100192收稿日期:2017-08-28出版日期:2018-01-20发布日期:2018-01-19作者简介:康海燕(1971—),男,博士,教授,研究方向为网络安全与隐私保护.E-mail:kanghaiy ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于插值图像的可逆信息隐藏算法
基于插值图像的可逆信息隐藏算法孙泽锐1,王继军2,李国祥1,夏国恩11.广西财经学院教务处,广西南宁530003;2.广西财经学院信息与统计学院,广西南宁530003收稿日期:2017-08-20出版日期:2018-01-20发布日期:2018-01-19作者简介:孙泽锐(1988—),男,硕士,助 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
生物信息学分析骨关节炎滑膜炎症相关基因和分子途径
生物信息学分析骨关节炎滑膜炎症相关基因和分子途径华芳1,2,张薇薇1,2,吕波1,2,辛玮1,2发布日期:2021-04-06通讯作者:辛玮.E-mail:weixin@mail.sdu.edu.cn基金资助:国家自然科学基金(81471007)Bioinformaticanalysisofgene ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
基于生物信息学分析乙酰辅酶A酰基转移酶1在肾透明细胞癌中的表达及作用机制
基于生物信息学分析乙酰辅酶A酰基转移酶1在肾透明细胞癌中的表达及作用机制李灿楦,陈洁发布日期:2021-03-05通讯作者:陈洁.E-mail:568161322@qq.com基金资助:国家自然科学基金(81871155)Expressionandactivitymechanismofacetyl- ...
山东大学科研学术本站小编 Free考研考试 2022-02-06
应用生物信息学方法分析肾透明细胞癌中FKBP11的表达
应用生物信息学方法分析肾透明细胞癌中FKBP11的表达栗英林1,2,宋道庆3,徐忠华11.山东大学齐鲁医院泌尿外科,山东济南250012;2.冠县人民医院泌尿外科,山东冠县252500;3.昆山市康复医院泌尿外科,江苏昆山215300出版日期:2020-09-10发布日期:2020-08-30通讯作 ...
山东大学科研学术本站小编 Free考研考试 2022-02-06