删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

HTML页面中的文献记录分析算法

本站小编 Free考研考试/2021-12-25

HTML页面中的文献记录分析算法

曾庆涛1,2, 解凯1, 李业丽1, 王欣刚3, 叶宇姗1, 马少平2
1. 北京印刷学院 信息工程学院, 北京 102600;
2. 清华大学 计算机科学与技术博士后流动站, 北京 100084;
3. 国家新闻出版广电总局 广播电视卫星直播管理中心, 北京 100045
收稿日期:2016-05-26出版日期:2017-09-28

作者简介:曾庆涛(1982-),男,讲师,E-mail:jiakechongbeijing@163.com.
基金资助:北京市教委科技创新服务能力建设项目(PXM2016_014223_000025);北京印刷学院校级重点项目(ea201507);北京印刷学院教师队伍建设—博士启动金项目(27170116005/062);北京印刷学院科研项目—出版物数据资产评估实验室建设项目(20190116005/006).

Analysis Algorithm of Reference Record in HTML Page

ZENG Qing-tao1,2, XIE Kai1, LI Ye-li1, WANG Xin-gang3, YE Yu-shan1, MA Shao-ping2
1. School of Information Engineering, Beijing Institute of Graphic Communication, Beijing 102600, China;
2. Postdoctoral Research Station in Computer Science and Technology, Tsinghua University, Beijing 100084, China;
3. Broadcast and Television Direct Broadcasting Satellite Management Center, The State Administration of Press, Publication, Radio, Film and Television, Beijing 100045, China
Received:2016-05-26Online:2017-09-28







摘要/Abstract


摘要: 为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.
中图分类号:
TP393

引用本文



曾庆涛, 解凯, 李业丽, 王欣刚, 叶宇姗, 马少平. HTML页面中的文献记录分析算法[J]. 北京邮电大学学报, 2017, 40(s1): 85-88.
ZENG Qing-tao, XIE Kai, LI Ye-li, WANG Xin-gang, YE Yu-shan, MA Shao-ping. Analysis Algorithm of Reference Record in HTML Page[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2017, 40(s1): 85-88.





PDF全文下载地址:

https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3076
相关话题/文献 北京印刷学院 数据 设计 北京

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于KTLAD的电力数据网业务流量异常检测
    基于KTLAD的电力数据网业务流量异常检测应斐昊1,邢宁哲2,纪雨彤2,纪晨晨1,李文璟11.北京邮电大学网络与交换技术国家重点实验室,北京100876;2.国网冀北电力有限公司信息通信分公司,北京100053收稿日期:2016-05-30出版日期:2017-09-28作者简介:应斐昊(1992-) ...
    本站小编 Free考研考试 2021-12-25
  • 面向阵列处理器的分布式共享存储结构设计
    面向阵列处理器的分布式共享存储结构设计山蕊1,沈绪榜1,蒋林2,朱筠2,宋辉21.西安电子科技大学微电子学院,西安710071;2.西安邮电大学电子工程学院,西安710121收稿日期:2016-10-18出版日期:2017-08-28发布日期:2017-07-10作者简介:山蕊(1986-),女,博 ...
    本站小编 Free考研考试 2021-12-25
  • 抗数据合并攻击的矢量地理数据数字水印
    抗数据合并攻击的矢量地理数据数字水印王莹莹1,2,3,杨成松4,朱长青1,2,3,任娜1,2,3,方虎生41.南京师范大学虚拟地理环境教育部重点实验室,南京210023;2.江苏省地理环境演化国家重点实验室培育建设点,南京210023;3.江苏省地理信息资源开发与利用协同创新中心,南京210023; ...
    本站小编 Free考研考试 2021-12-25
  • 面向数据密集型应用的细粒度内存管理方案
    面向数据密集型应用的细粒度内存管理方案郝晓冉,倪茂,王力玉,陈岚中国科学院微电子研究所EDA中心,北京100029收稿日期:2016-10-10出版日期:2017-06-28发布日期:2017-05-25作者简介:郝晓冉(1980-),女,助研,E-mail:haoxiaoran@ime.ac.cn ...
    本站小编 Free考研考试 2021-12-25
  • 面向配电网故障数据的BIC评估后向选择方法
    面向配电网故障数据的BIC评估后向选择方法曾兴东1,2,林荣恒1,2,邹华1,张勇31.北京邮电大学网络与交换技术国家重点实验室,北京100876;2.中国电子科技集团公司第五十四研究所通信网信息传输与分发技术重点实验室,石家庄050081;3.国家电网上海电力公司,上海200122收稿日期:201 ...
    本站小编 Free考研考试 2021-12-25
  • 新型命名数据网络校验机制设计
    新型命名数据网络校验机制设计朱轶,康浩浩,黄茹辉,曹清华江苏大学计算机科学与通信工程学院,江苏镇江212013收稿日期:2016-09-30出版日期:2017-06-28发布日期:2017-05-25作者简介:朱轶(1977-),男,副教授,硕士生导师,E-mail:zhuyi@ujs.edu.cn ...
    本站小编 Free考研考试 2021-12-25
  • 校园移动社交网络中基于种子的数据分发算法
    校园移动社交网络中基于种子的数据分发算法王青山1,2,汤颖1,王琦1,王翟1,陈莉君11.合肥工业大学数学学院,合肥230009;2.南京大学计算机软件新技术国家重点实验室,南京210093收稿日期:2016-08-27出版日期:2017-04-28发布日期:2017-04-26作者简介:王青山(1 ...
    本站小编 Free考研考试 2021-12-25
  • 基于平行耦合线和开路枝节的小型带通滤波器设计
    基于平行耦合线和开路枝节的小型带通滤波器设计喇东升1,2,郭经纬3,刘妍4,贾守卿1,马雪莲11.东北大学计算机科学与工程学院,沈阳110819;2.东南大学毫米波国家重点实验室,南京210096;3.燕山大学信息科学与工程学院,河北秦皇岛066004;4.燕山大学国家冷轧板带装备及工艺工程技术研究 ...
    本站小编 Free考研考试 2021-12-25
  • 基于功率分配的空间耦合数据传输性能分析
    基于功率分配的空间耦合数据传输性能分析刘正宣,康桂霞,张宁波,刘奎,司中威北京邮电大学信息与通信工程学院,北京100876收稿日期:2016-02-22出版日期:2017-02-28发布日期:2017-03-14作者简介:刘正宣(1982-),男,博士生,E-mail:liuzhengxuan@bu ...
    本站小编 Free考研考试 2021-12-25
  • 软件定义数据中心网络研究
    软件定义数据中心网络研究于洋,梁满贵,王哲北京交通大学计算机与信息技术学院,北京100044收稿日期:2016-05-04出版日期:2017-02-28发布日期:2017-03-14作者简介:于洋(1987-),女,博士生,E-mail:12112075@bjtu.edu.cn;梁满贵(1963-) ...
    本站小编 Free考研考试 2021-12-25