HTML页面中的文献记录分析算法
曾庆涛1,2, 解凯1, 李业丽1, 王欣刚3, 叶宇姗1, 马少平21. 北京印刷学院 信息工程学院, 北京 102600;
2. 清华大学 计算机科学与技术博士后流动站, 北京 100084;
3. 国家新闻出版广电总局 广播电视卫星直播管理中心, 北京 100045
收稿日期:
2016-05-26出版日期:
2017-09-28作者简介:
曾庆涛(1982-),男,讲师,E-mail:jiakechongbeijing@163.com.基金资助:
北京市教委科技创新服务能力建设项目(PXM2016_014223_000025);北京印刷学院校级重点项目(ea201507);北京印刷学院教师队伍建设—博士启动金项目(27170116005/062);北京印刷学院科研项目—出版物数据资产评估实验室建设项目(20190116005/006).Analysis Algorithm of Reference Record in HTML Page
ZENG Qing-tao1,2, XIE Kai1, LI Ye-li1, WANG Xin-gang3, YE Yu-shan1, MA Shao-ping21. School of Information Engineering, Beijing Institute of Graphic Communication, Beijing 102600, China;
2. Postdoctoral Research Station in Computer Science and Technology, Tsinghua University, Beijing 100084, China;
3. Broadcast and Television Direct Broadcasting Satellite Management Center, The State Administration of Press, Publication, Radio, Film and Television, Beijing 100045, China
Received:
2016-05-26Online:
2017-09-28摘要/Abstract
摘要: 为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.
中图分类号:
TP393
引用本文
曾庆涛, 解凯, 李业丽, 王欣刚, 叶宇姗, 马少平. HTML页面中的文献记录分析算法[J]. 北京邮电大学学报, 2017, 40(s1): 85-88.
ZENG Qing-tao, XIE Kai, LI Ye-li, WANG Xin-gang, YE Yu-shan, MA Shao-ping. Analysis Algorithm of Reference Record in HTML Page[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOM, 2017, 40(s1): 85-88.
PDF全文下载地址:
https://journal.bupt.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3076