民用建筑“四节一环保”数据的清洗与修复方法研究
申鸿怡1, 徐芳芳2, 王新民3,? 1. 北京大学前沿交叉学科研究院大数据科学研究中心, 北京 1008712. 山东科技大学数学与系统科学学院, 青岛 2665903. 北京大学数学科学学院, 北京 100871收稿日期:
2019-08-13修回日期:
2019-11-07出版日期:
2020-09-20基金资助:
国家重点研发计划(2018YFC0704300)和国家自然科学基金(11901359)资助Research on Cleaning and Repairing Methods of Civil Building Data on Resources Saving and Environment Protection
SHEN Hongyi1, XU Fangfang2, WANG Xinmin3,? 1. Center for Data Science, Academy for Advanced Interdisciplinary Studies, Peking University, Beijing 1008712. College of Mathematics and Systems Science, Shandong University of Science and Technology, Qingdao 2665903. School of Mathematical Sciences, Peking University, Beijing 100871Received:
2019-08-13Revised:
2019-11-07Published:
2020-09-20可视化
0复制本文网址
1. 探讨2016版国际胰瘘研究小组定义和分级系统对胰腺术后患者胰瘘分级的影响.PDF(500KB)
-->
摘要/Abstract
摘要: 针对民用建筑“四节一环保”原始数据中存在的数据质量问题, 使用多种方法实现数据清洗与数据修复。数据清洗方面, 重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中, 识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面, 重点关注缺失值的填补及基于模型的数据修正。其中, 缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法, 并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型, 拟合建筑运行能耗与各解释变量间的关系, 对上海市建筑运行能耗相关数据进行数据修复。结果显示, 单栋建筑能耗数据适合采用箱线图内限来识别异常记录, 并使用中位数填补缺失数据; 上海市建筑运行能耗相关数据中, 岭回归模型的拟合情况最好。
引用本文
申鸿怡, 徐芳芳, 王新民. 民用建筑“四节一环保”数据的清洗与修复方法研究[J]. 北京大学学报自然科学版, 2020, 56(5): 785-795.
SHEN Hongyi, XU Fangfang, WANG Xinmin. Research on Cleaning and Repairing Methods of Civil Building Data on Resources Saving and Environment Protection[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2020, 56(5): 785-795.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3517