基于决策树的城市在用车环检首检结果预测模型研究

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-31

秦之湄^1,2, 熊阳欣², 费怡², 田红³, 邓小芸³, 奉竹³, 韩艳山³, 王斌²
1. 四川省环境政策研究与规划院, 成都 610093;
2. 四川大学建筑与环境学院, 成都 610065;
3. 成都市机动车排气污染防治技术保障中心, 成都 610066
收稿日期: 2020-07-12; 修回日期: 2020-10-15; 录用日期: 2020-10-15
基金项目: 四川大学市校战略合作专项资金项目（No.2019CDYB-14）
作者简介: 秦之湄(1992—), 女, E-mail: 814784235@qq.com
通讯作者（责任作者）: 王斌, E-mail: 462511772@qq.com

摘要：在用车环检是机动车环保监督管理的有效手段，本文通过建立环检结果预测模型以达到事前管理的目的.研究使用通过简易瞬态工况法的数据库，采用决策树算法，建立了环检数据库数据预处理规则，证实了整数编码可用性和运算负荷小的优点，并采取过采样方法解决数据不平衡问题，通过ROC曲线确定子模型的超参数，建立了环检结果预警模型.结果显示，等级1级以上级别可涵盖90%的不合格车辆，累计行驶里程数、车龄对环检结果影响最大.研究表明，该方法复用性较强，有利于通过易获取的信息预测环检结果，可有效支持机动车排放分级分类管理和政策制定.
关键词：决策树机动车环检排放劣化预测模型
Modelling the initial emissions inspection of urban in-use vehicles with decision trees
QIN Zhimei^1,2, XIONG Yangxin², FEI Yi², TIAN Hong³, DENG Xiaoyun³, FENG Zhu³, HAN Yanshan³, WANG Bin²
1. Sichaun Academy of Environmental Policy and Planning, Chengdu 610093;
2. College of Architecture and Environment, Sichuan University, Chengdu 610065;
3. Chengdu Technology Center of Vehicle Exhaust Pollution, Chengdu 610066
Received 12 July 2020; received in revised from 15 October 2020; accepted 15 October 2020
Abstract: In-use vehicle emissions inspection is an effective approach to environmental supervision and management of vehicles. In this study, a predictive model of vehicle emissions inspection was developed for proactive management. On the basis of the short-transient-loaded-mode database, the decision-tree algorithm was employed to establish the data preprocessing rules for the database of vehicle emissions inspection, which confirmed the feasibility of integer coding and low computing cost. The oversampling method was adopted to deal with the imbalanced data for training the predictive model, where the hyperparameter was tuned with a receiver operating characteristic (ROC) curve. The results show that 90% of the unqualified vehicles could be identified as level-1 or above by the predictive model, while the cumulative mileages and vehicle age were the most influential factors. This universal method is valuable for predicting the results of vehicle emissions inspection on the basis of readily available information, which can support vehicle-emission classifications and policy making.
Keywords: decision-tree modelvehicle emissions inspectionvehicle degradationpredictive model
1 引言(Introduction)2013—2018年, 我国汽车保有量的年均增长率约为13.0%.《中国移动源环境管理年报(2019)》(中华人民共和国生态环境部, 2019)显示, 从机动车保有量现状来看, 2018年我国机动车保有量为3.27亿辆, 其中, 汽车2.3亿辆(73.4%).机动车多分布在人口密集的区域(金嘉欣等, 2020), 尾气主要集中在低空, 会对人体健康产生巨大的危害(王梦雷等, 2019), 同时其排放的污染物对大气污染的贡献不容忽视.
目前, 国内外针对在用车劣化主要基于统计回归方法, 通过线性、非线性函数分类、分区间构建污染物排放水平、排放因子与车龄、行驶里程、排放标准、车型等特征间数值关系模型.已有研究证实, 车辆排放同车龄、行驶里程呈正相关(Zachariadis et al., 2001；Zhang et al., 2017), 随排放标准提高排放因子逐渐下降(Zhang et al., 2017), 且根据排放标准不同, 排放因子与行驶里程呈正相关的线性回归或指数函数关系(Borken-Kleefeld et al., 2015).国内相关研究涉及哈尔滨市、北京市、长春市等多个城市, 检测方法多为简易瞬态工况法、稳态工况法、双怠速法、加载减速工况法, 部分研究表明, 排放水平与行驶里程存在正相关的线性回归关系, 且按行驶里程分区间拟合效果更佳(郝吉明, 2000；杨瑞, 2001；陈泳钊等, 2015；刘永红等, 2015；2018), 另有研究认为二者满足二次函数关系(王文涛, 2006；周子航等, 2010；冯坚, 2018).不同研究表明, 不同污染物排放浓度与车龄或行驶里程可能为指数函数关系(朱传勇, 2012；黄文伟等, 2012；范菊旺, 2015；温溢等, 2017)、对数函数关系(白广德, 2008；郭栋等, 2013)、二次函数关系(檀忠意, 2017)或非线性关系, 结论的不同受文献选取的区域、排放阶段、车辆类型和样本大小等影响.例如, 有研究指出, 对于小样本台架稳态工况检测的国Ⅳ轻型汽油客车, CO的排放因子受车龄影响较小, CO₂的排放因子随车龄增加而升高, HC、CH₄和NO_x的排放因子在车龄3~11年内呈倒U型(谢岩等, 2020)；但也有其他研究表明, 基于大样本的ASM工况法检测在用汽油车数据, HC、CO、NO排放浓度与车龄的拟合符合二次曲线模型(冯坚, 2018).受到排放阶段、车辆类型影响, 车辆劣化速度存在明显拐点：有研究指出, 北京市国Ⅲ及以上出租车行驶里程在20×10⁴ km后排放物开始缓慢增加, 在40×10⁴ km后劣化加速(于增信等, 2012)；有研究表明, 北京市高里程出租车中的国Ⅲ车辆超过22×10⁴ km、国Ⅳ车辆超过18×10⁴ km后排放出现急剧劣化(王猛等, 2013), 国Ⅰ轻型汽油客车超过4.5×10⁴ km后排放因子明显上升, 超过9.5×10⁴ km后劣化加快(李晓玲等, 2011)；也有研究指出, 拐点出现在行驶里程为9×10⁴ km或车龄满3年后(郭栋等, 2013).
综上, 在用车劣化研究多集中在车龄、行驶里程与排放因子、排放浓度的关系方面, 且按照车辆类型、排放阶段等多因素的不同, 车辆劣化拐点和排放因子与车龄、行驶里程间的函数关系不同, 多为分区间、分类型建立不同分段拟合函数.已有研究多基于小样本量, 少有研究利用多变量大样本数据, 且由于车龄、行驶里程、车辆用途、排放阶段等多种特征间存在一定的相关关系, 一般未代入模型统一考虑.
在机器学习算法中, 决策树方法具有可处理大样本量数据、适合高维数据、简单易理解、可耦合多种特征且能避免特征间相关关系的影响等优点, 因此, 对基于多个存在一定相关性的特征来预测在用车劣化、排放浓度方面有较好的适用性, 且具有计算速度快、方法复用和推广性较强的优势.本研究基于汽油车简易瞬态工况法环检数据, 利用决策树方法, 依据已有研究和数据特性来选择参与模型计算的预测变量, 建立成都市在用车环检首检合格预测模型及模型数据预处理方法.研究结果有助于深化在用车劣化研究的应用, 并为在用车环境管理政策的制定提供参考建议.
2 数据和方法(Data and methods)2.1 研究数据本研究使用数据为成都市在用汽油车简易瞬态工况法首检排气检测数据, 共40余万条.我国目前执行的机动车排放标准体系分为新车的阶段性排放标准和在用车的污染物排放标准, 其中, 在用车标准是新车下线检验、注册登记检验、在用车定期排放检测和监督抽测应该遵循的环境管理要求.在用汽油车环保检验排气污染物测试方法分为简易瞬态工况法和双怠速法, 其中, 简易瞬态工况法能更好地模拟车辆在实际道路上的运行状况, 更方便研究各污染物的排放特征.2019年, 我国实施《汽油车污染物排放限值及测量方法(双怠速法及简易工况法)》(GB 18285—2018代替GB18285—2005、HJ/T240—2005), 对数据记录、保存和记录的内容及时限进行规范, 简易瞬态工况法测试规程和相关数据项被列入其附录D和附录DC.根据研究人员的经验和在用车劣化影响的相关文献研究, 结合数据实际缺失情况, 选取车龄、累计行驶里程数、排放阶段、使用性质、车辆种类、车辆品牌、燃料规格7个特征作为预测变量, 首检是否合格作为响应变量.
2.2 研究方法2.2.1 数据清洗选择数据库中“燃料种类”为“汽油”及“检测方法”为“简易瞬态工况法”的数据参与预处理.数据存在部分缺失、错填、填写不规范的情况, 错填数据通过异常值处理为正确类别或缺失值, 填写不规范按照以下数据标准化原则处理.
构造“车龄”和“年均行驶里程”, “车龄”为“2”表示该车车龄为1~2年, 其中, 车龄=[(车辆环检检测时间-车辆登记日期)/365]+1, 年均行驶里程=累计行驶里程/车龄.通过年平均行驶里程合理性和国家《机动车强制报废标准规定》对车辆累积行驶里程异常性进行判断.剔除车辆累积行驶里程异常及年平均行驶里程缺失样本.
对“车辆类型”、“车辆品牌”、“燃料规格”、“排放阶段”对应的人工录入信息进行查错和标准化, “使用性质”和“车辆种类”暂不做处理.对于“车辆类型”, 根据《点燃式发动机汽车排气污染物排放限值及测量方法》(GB18285—2005), 将第二类轻型汽车样本按照基准质量(RM)分为“RM≤1250 kg”、“1250 kg < RM≤1700 kg”、“1700 kg < RM”3类；对于“车辆品牌”, 根据数据集车辆品牌、车辆型号和制造厂名称等信息, 参考“汽车之家”网站对1000多种车辆品牌人工录入信息进行规范化；对于“燃料规格”, 通过“燃料种类”核对填写规范, 错填值做空值处理；对于“排放阶段”, 将各类填写方式规范化.标准化后各变量类型详见表 1.
表 1(Table 1)

表 1 数据缺失及变量类型 Table 1 Data missing and variable type

类别	数据项	细分类型
	车龄	1~28^*
	累计行驶里程数	-
	排放阶段	国0^*、国Ⅰ、国Ⅱ、国Ⅲ、国Ⅵ、国Ⅴ、国Ⅳ
预测变量	使用性质	非营运、货运、教练车、网约出租、营转非、出租客运、警用、租赁、工程抢险、其它校车、救护、公交客运、出租转非、公路客运、幼儿校车、其他^、消防^、旅游客运^、危化品运输^
	燃料规格	92#、95#、98#、其他
	车辆类别	第一类轻型汽车、第二类轻型汽车(1250 kg < RM≤1700 kg、RM≤1250 kg、1700 kg < RM)、重型汽车^*
	车辆品牌	313种^*
响应变量	检测结果	合格、不合格
注：*标记类型在数据清洗后因数据量不足删去该类型样本, 车龄数据保留22年以下数据, 车辆品牌最终保留128种.

结合各预测变量的数据特征(唯一值及数量分布)进一步做预测变量中稀有类的空值处理, 考虑到样本代表性, 根据各类型在总数据集中的占比删去稀有类数据样本.例如, 数据集中缺失基准质量的第二类轻型汽车仅1条数据, 无法根据标准化原则分类, 将其“车辆类型”做空值处理.
2.2.2 分类变量编码和创建特征集在分类模型数据处理中, 常用独热(one-hot)编码和整数编码将原始数据集处理成模型数据.独热编码是将每个标签都映射为唯一矢量, 缺点是会造成数据冗余, 导致同一个问题有多个有效模型, 优点是每个特征都明确对应一个类别, 其中, 缺失数据的编码为全零向量(Zheng et al., 2019).整数编码则是将每个唯一标签映射为一个整数.一般来说, 独热编码用来解决类别型数据的离散值问题, 即处理无序型变量, 整数编码则用来处理有序型变量, 但决策树算法在处理变量时并不是基于向量空间度量, 即数值只是个类别符号没有偏序关系, 所以整数编码同样可适用于决策树模型.
由于数据集为不平衡数据集, 即检测合格样本量远大于不合格样本量, 对于各类别样本数量不一致数据, 决策树算法本身的信息增益偏向于那些具有更多数值的特征, 即预测变量类不平衡极易影响决策树模型, 因此, 需要对数据集检测结果特征进行数据平衡操作.常用的数据平衡方式有欠采样(对多数类)、过采样(对稀有类), 其中, 使用较多的过采样方法有自助法、SMOTE算法(创建与稀有类相似的合成数据)(Bruce et al., 2018).因为对多数类做欠采样存在丢弃有用信息的风险, 因此, 本研究选择SMOTE算法对训练集稀有类进行过采样, SMOTE算法会找出与过采样记录相似的记录, 对原始记录及其相邻的记录随机加权后取平均, 生成合成记录.
2.2.3 决策树算法及模型评价决策树(Decision Tree)分为回归树和分类树两类, 常被用于数据的回归和分类.决策树由if-then-else规则构成, 相较于黑箱型的机器学习易于理解、实现、可视化和解释, 且可以通过进一步规则挖掘算法去发现数据中隐含的复杂交互模式(表示预测变量之间的关系).决策树的构造算法为递归分区法, 基本原理是选取预测变量值将分区中的数据划分为同质子分区并重复对当前分区数据进行拆分(Bruce et al., 2018).在决策树基础上衍生出随机森林和Boosting方法, 使用自助法聚合估计或构建一组模型, 也是使用范围很广的预测建模工具.因为决策树更容易进行可视化和规则解析, 故本研究选择了通过信息熵选取最优划分特征的决策树方法, 选择信息增益最大的特征点作为特征划分点(Zheng et al., 2019), 并且利用节点不纯度平均减少量来描述探究在用车环检首检合格率预测中变量的重要性(其含义是当某因子使节点不纯度降低的程度越大, 则该因子越重要).
模型评价方面, 分类模型的主要评价参数有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、特异性(Specificity)、混淆矩阵(Confusion Matrix)、ROC曲线(Receiver Operating Characteristic Curve)等, 具体含义见表 2.模型诊断方面, 机器学习模型常用K折交叉验证方法来衡量模型性能, 其原理是不断重复将数据分为k个部分进行拟合测试计算误差, 观察模型在测试数据上的预测能力, 模型最终误差是所有模型的平均值, 可用于解释模型在新数据上的表现(Chen et al., 2019).
表 2(Table 2)

表 2 模型评价参数(Bruce et al., 2018) Table 2 Parameters of model evaluation

主要参数	含义
准确率	正确分类的百分比, 是总体误差的度量
精确率	预测为正的样本中实际也为正的样本占被预测为正的样本的比例, 是模型对负样本的区分能力
召回率	实际为正中被预测为正的样本的百分比, 也被称为灵敏度, 是模型对正样本的识别能力
F1 score	精确率和召回率的调和平均值
特异性	实际为负中被预测为负的百分比
混淆矩阵	按预测分类和实际分类情况对应记录分别技术的表格, 是分类性能度量的关键
ROC曲线	召回率和特异性绘图
注：描述中“正”、“负”代指二分类中两种类型, 其中, “正”代指建模时更为重视的分类类型.

3 结果与讨论(Results and discussion)3.1 数据预处理根据预测变量和响应变量分别作图(图 1), 结果显示, 不同类别数据组间检测合格率均存在较为明显的差异.从车龄看(图 1a), 整体随车龄增大首检合格率降低, 车龄在5~6年的样本环检首检合格率略上浮(推测受到新车6年免检情况影响), 超过22年车龄部分样本合格率波动较大(受检测样本量较少, 推测代表性存疑影响).从累计行驶里程看(图 1b), 在2×10⁴~34×10⁴ km区间的样本同样存在随累计行驶里程上涨首检合格率下降的趋势, 超过34×10⁴ km的样本合格率在80%~90%之间波动.预测变量中以车龄和行驶里程为例分类统计样本数(图 2), 存在一定类不平衡问题(各类样本数不等), 样本量过少的分类(被认为无代表性)在后续进行了删除处理.类不平衡问题在深度学习框架下尚无系统的研究(吴静, 2020), 对多个变量使用特征优化可能导致更复杂的问题, 故未再对每个预测变量做数据平衡, 该问题可能导致少数类被分类器忽略(刘丹等, 2020).
图 1(Fig. 1)

图 1 各车龄段样本(a)及各累计行驶里程段样本(b)环检首检合格率分布 Fig. 1Pass rate distribution in different age(a) and driven distance(b)

图 2(Fig. 2)

图 2 各车龄段样本(a)及各累计行驶里程段样本(b)环检首检样本量分布 Fig. 2Sample distribution in different age(a) and driven distance(b)

预测变量中, 不同排放阶段、使用性质、燃料规格、车辆类别及车辆品牌的各种类型样本组对应的检测合格率同样存在一定差异(图 3).取检测量前20名的品牌做首检合格率分布图进行验证, 发现车辆品牌间同样存在合格率的差异.
图 3(Fig. 3)

图 3 各类车辆环检首检合格率分布 Fig. 3Distribution in different vehicle groups

数据预处理中, 年均里程异常样本数1901条, 同累计行驶里程为空值的样本一并删除.燃料规格有30068条错填值作空值处理, 车辆品牌按照标准化原则处理.部分类型合格率因为样本数量过小而影响样本代表性, 按照使用类型划分, 危化品运输4条、消防6条(且均合格)、旅游客运检测量4条、其他11条；按照排放阶段划分, 国0排放仅检测1辆(且合格)；按照车辆类别划分, 重型车辆仅检测3辆(且均合格)；按照车龄划分, 车龄为22年(14条)、23年(8条)、25年(4条)、24年(2条)、26年(1条)、28年(1条)的样本量也较少.这几种类型检测样本量过少, 类型代表性存疑, 在模型构建时删去此类型样本.根据数据清洗原则处理原始数据集, 共411789条数据参与建模, 清洗删去的样本共计2630条, 占数据集的6.38‰.
3.2 数据编码及不平衡数据集处理为验证编码适用性的影响差异, 研究对比了两种数据编码方式(整数编码和独热编码)处理决策树模型所需数据(表 3), 选择其中计算更快、模型效果更佳的编码方式处理数据进行建模尝试.为保证环检“合格”、“不合格”两类数据在训练集和测试集间的平衡, 未采取随机抽样, 而是按自然日将其中52396条数据留作测试集, 将357199条数据用作训练集.
表 3(Table 3)

表 3 两种数据编码对建模的影响对比 Table 3 The influence of data coding on modeling

编码方式	评价指标	混淆矩阵		准确率	召回率	F值	类别数量	模型准确率	K折交叉验证
编码方式	评价指标	预测-合格	预测-不合格	准确率	召回率	F值	类别数量	模型准确率	K折交叉验证
整数编码	实际-合格	47111	2323	0.95	0.95	0.95	49434	0.9067	0.9047
整数编码	实际-不合格	2564	398	0.15	0.13	0.14	2962	0.9067	0.9047
独热编码	实际-合格	47099	2335	0.95	0.95	0.95	49434	0.9068	0.9038
独热编码	实际-不合格	2544	418	0.15	0.14	0.15	2962	0.9068	0.9038

通过对模型准确率、K折交叉验证及召回率的比较, 结果证明, 两类编码方式对决策树模型的影响非常小.从运算速度上来讲, 独热编码本质上会增加数据集大小, 运算时速率明显降低, 不利于后续模型的调参迭代, 且因为增加了树的深度使模型更容易过拟合, 因此, 本次研究选择使用整数编码的方式.
如表 4所示, 对比不平衡数据集处理前后建模差异发现, K折交叉验证(对比表 3)上升至0.9421, 证明不平衡数据集过采样处理可以提高模型的准确率.
表 4(Table 4)

表 4 不平衡数据集的过采样处理前后对比 Table 4 The influence of oversampling on modeling

对比项	车辆样本数		总样本数
对比项	首检合格	首检不合格	总样本数
过采样前	336970	20229	357199
过采样后	336970	336970	673940

3.3 决策树模型构建及评价3.3.1 模型参数选择和子模型的构建需要根据数据集及模型构建情况进行调参, 阻止树模型的继续生长和决策树模型的过拟合.参照ROC曲线对比结果, 将召回率(实际为不合格样本中被预测为不合格的百分比)作为y, 特异性(实际为合格样本中被预测为合格的百分比)作为x绘图, 对比通过控制不同控制参数对模型训练的影响.
在很多商业模型中, 稀有类是更重要的类, 本次在用车环检首检研究同样更加关心出现频次更低的环检不合格样本的预测, 因此, 需要在召回率和特异性之间权衡模型参数选择问题.由于各种参数控制是相互影响的, 例如, 增大内部节点再划分所需最小样本数会降低树的最大深度, 故对各项参数分别进行多次取值运算, 通过对每个单独参数的多次尝试得到曲线绘制需要的控制参数取值范围(表 5), 在范围内取多个值得到模型召回率和特异性结果, 并绘制成图.
表 5(Table 5)

表 5 控制参数取值范围 Table 5 Value range of control parameters

控制参数	决策树最大深度	内部节点再划分所需最小样本数	叶子节点所需最少样本数	叶子节点所有样本权重和	最大叶子节点数	节点划分最小不纯度	划分考虑最大特征数
最小值	3	2	2	1.00×10^-11	3	5.00×10^-8	1
最大值	50	2400	290	9.50×10^-7	98000	2.45×10^-6	7

从图 4结果可以看出, 模型调参中召回率高的时候特异性偏低, 即模型偏向于将尽可能多的实际不合格样本预测为不合格, 但会有更多的合格样本被误分类(预测为不合格)；特异性高的时候召回率偏低, 即模型偏向于将尽可能多的实际合格样本预测为合格, 但会有更多的不合格样本被误分类(预测为合格)；同时, 虽然训练集进行了数据平衡, 但测试集考虑了模拟实际情况(合格样本数量远大于不合格样本), 那么召回率高的模型不仅会导致特异性低, 也会导致模型正确率因为合格样本被误分类而下降.考虑到实际情况, 拟通过设置4个决策树模型来解决召回率和特异性之间平衡的需求.为满足预测模型想覆盖尽可能多不合格样本的需求, 取召回率90%为1号模型, 可将90%的不合格样本预测为不合格.为满足合格样本预测及模型整体正确率的需求, 取特异性95%为4号模型, 可将95%的合格样本预测为合格.为兼顾两种需求, 取召回率80%为2号模型, 可将80%的不合格样本预测为不合格；取特异性80%为3号模型, 可将80%的合格样本预测为合格.4个子模型的召回率为决策树1 > 决策树2 > 决策树3 > 决策树4, 模型正确率则反之.
图 4(Fig. 4)

图 4 各参数控制曲线 Fig. 4Control curve of different parameters

在通过不同参数控制的时候也略有差异, 针对本次使用的数据集而言, 通过叶子节点所有样本权重和、最大叶子节点数和节点划分最小不纯度控制结果效果最好, 即相同召回率下其特异性相对更高, 或相同特异性下其召回率相对更高(局部有不同更优选择).从图 4选取两端区域放大为图 5, 可发现召回率高的部分(图 5a)控制参数叶子节点所有样本权重和能够得到更好的模型效果, 特异性高的部分(图 5b)控制参数最大叶子节点数能获得更好的模型效果, 分别建立模型, 对应超参数设定见表 6.
图 5(Fig. 5)

图 5 各参数控制曲线细节 Fig. 5Detail drawing of control curve

表 6(Table 6)

表 6 子模型超参数选择结果 Table 6 Hyperparameter selection results of sub-models

子模型名称	控制参数	参数值	选择理由
决策树1	叶子节点所	2.80×10^-7	召回率90%
决策树2	有样本权重和	1.41×10^-7	召回率80%
决策树3	最大叶子	14650	特异性80%
决策树4	节点数	39200	特异性95%

3.3.2 模型评价和多级预警模型构建如表 7所示, 从整体结果看, 随着不合格样本召回率降低, K折交叉验证、模型准确率逐渐升高：决策树1的K折交叉验证值为0.7105, 决策树2的K折交叉验证值为0.7834, 决策树3的K折交叉验证值为0.8824, 决策树4的K折交叉验证值为0.9424.对比合格样本、不合格样本各评价指标, 从F值上看, 模型在合格样本的预测上更加稳健；从准确率上看, 合格样本的准确率指标会更高, 推测是受到测试集本身数据不平衡和模型本身的影响.
表 7(Table 7)

表 7 预测模型评价(分项) Table 7 Evaluation of model

模型对比	评价指标	混淆矩阵		准确率	召回率	F值	类别数量	模型准确率	K折交叉验证
模型对比	评价指标	预测-合格	预测-不合格	准确率	召回率	F值	类别数量	模型准确率	K折交叉验证
决策树1	实际-合格	18504	30930	0.98	0.37	0.54	49434	0.4041	0.7105
决策树1	实际-不合格	295	2667	0.08	0.90	0.15	2962	0.4041	0.7105
决策树2	实际-合格	27448	21986	0.98	0.56	0.71	49434	0.5691	0.7834
决策树2	实际-不合格	590	2372	0.10	0.80	0.17	2962	0.5691	0.7834
决策树3	实际-合格	39582	9852	0.96	0.80	0.88	49434	0.7844	0.8824
决策树3	实际-不合格	1442	1520	0.13	0.51	0.21	2962	0.7844	0.8824
决策树4	实际-合格	46976	2458	0.95	0.95	0.95	49434	0.9048	0.9424
决策树4	实际-不合格	2531	431	0.15	0.15	0.15	2962	0.9048	0.9424

按照对不合格车辆的判断严苛程度, 组合4个决策树形成在用机动车环检不通过可能性的5级预警, 若仅决策树1预测不合格, 则预警级别为1；若有更高级别的决策树预测为不合格, 则预警级别以高为准, 例如, 决策树3和决策树4同时预测为不合格则预警级别为4, 以此类推；若无子模型预测为不合格, 则预警级别为0.随样本预警级别升高, 其环检不合格的可能性越高, 可提前进行车辆预检测和保养维修.
如表 8所示, 总体上来讲, 预警级别为4级, 对应车辆有15%可能性不合格；预警级别为3级, 对应车辆有13%可能性不合格；预警级别为2级, 对应车辆有7%可能性不合格；预警级别为1级, 对应车辆有3%可能性不合格；预警级别为0级, 对应车辆有2%可能性不合格.测试集中有10%不合格车辆被预测为0级, 模型可涵盖90%实际不合格车辆.不合格车辆中, 18%预警级别为1级, 25%预警级别为2级, 16%预警级别为3级, 6%预警级别为4级.
表 8(Table 8)

表 8 预警模型结果评估 Table 8 Evaluation of prediction model results

条件	预警级别	实际合格样本量	实际不合格样本量	预测为不合格且实际不合格的可能性	总量占比	该级别实际不合格车辆在总不合格样本中占比	该级别实际合格车辆在合格样本中占比
均预测合格	0	18503	295	2%	36%	10%	37%
部分子模型	1	8940	295	3%	18%	18%	18%
预测为不合格	2	12125	852	7%	25%	25%	25%
	3	7408	1089	13%	16%	15%	15%
	4	2458	431	15%	6%	5%	5%

3.4 决策树预测中车辆特征与环检首检合格率关系分析通过对模型参数控制前后的对比, 发现随着对不合格样本召回率的提高, 控制参数后模型降低了对累计行驶里程的权重, 增加了对车龄、车辆类别、车辆品牌、排放阶段的辨识度, 但重要性排序大致相同(表 9, 数值越大特征对模型判断越重要).从结果来看, 累计行驶里程是影响环检车辆是否合格判断的最重要因素, 其次是车龄, 然后是排放阶段、车辆品牌和车辆类别.
表 9(Table 9)

表 9 特征对模型结果影响重要性 Table 9 Importance of characteristics to model results

决策树编号	特征对模型结果影响的重要性
决策树编号	累计行驶里程	车龄	排放阶段	车辆品牌	车辆类别	燃料规格	使用性质
决策树1	0.3384	0.1591	0.1616	0.1411	0.1093	0.0656	0.0250
决策树2	0.2495	0.1821	0.1928	0.1408	0.1304	0.0753	0.0291
决策树3	0.4399	0.1346	0.1279	0.1351	0.0865	0.0548	0.0213
决策树4	0.5031	0.1205	0.1088	0.1269	0.0735	0.0482	0.0191
平均值	0.3827	0.1491	0.1478	0.1359	0.0999	0.0610	0.0236

因为整体决策树过大, 故以决策树1为例进行可视化(图 6a), 根节点为排放阶段是否为国五及以下, 以其中两条枝为例进行规则解读(图 6b)：①1694号框, 排放阶段为国三, 车龄大于15年, 判断为不合格；②1707框, 排放阶段在国四及以上, 车龄大于15年, 车辆品牌为序列88位以后, 累计行驶里程在125942 km以内, 判断为合格.
图 6(Fig. 6)

图 6 决策树1(a)及编号1分支(b)可视化(前7层) Fig. 6Visualization of decision tree 1(a) and branch number 1(b)

4 结论(Conclusions)本研究证实, 整数编码与独热编码对模型准确率和K折交叉验证的影响较小；发现对数据集进行过采样处理后决策树模型K折交叉验证提升, 召回率高的部分控制叶子节点所有样本权重和、特异性高的部分控制参数最大叶子节点数能获得更好的模型效果, 影响是否合格预测的最重要的因素为累计行驶里程, 其次为车龄, 排放阶段、车辆品牌、车辆类别、燃料规格和使用性质对环检通过概率造成的影响依次降低.研究中多级预警模型等级1级及以上可包含90%不合格车辆.
本方法建立的预警模型可以根据车辆信息对车辆的环保检测合格率进行预警, 有利于机动车检测的监管部门有重点地关注检测结果中不合格概率大的车辆及车主环检前的预维修.方法较为灵活, 由于模型输入参数是简单且容易获取的一般性车辆参数, 这也便于通过决策树模型对全市在用车中可能有问题的车辆进行分类统计和分级处置.下一步, 为制订有针对性的机动车管理政策和服务机动车的分级分类管理, 对排放水平的高低和车辆的环保绩效进行评估, 还需深入针对不同监管目的设置有效的预警模型, 将方法适用范围扩大到汽油车双怠速法、柴油车加载减速工况法、自由加速不透光烟度法检测结果预测, 探究实现基于车辆特征预测车辆尾气中污染物排放水平的模型.

参考文献

白广德. 2008. 长春市乘用车排放劣化规律及控制策略研究[D]. 长春: 吉林大学

Borken-Kleefeld J, Chen Y. 2015. New emission deterioration rates for gasoline cars-Results from long-term measurements[J]. Atmospheric Environment, 101: 58-64. DOI:10.1016/j.atmosenv.2014.11.013

Bruce P, Bruce A. 2018. 面向数据科学家的实用统计学[M]. 盖磊译. 北京: 人民邮电出版社

Chen D Y. 2020. Python数据分析: 活用Pandas库[M]. 武传海译. 北京: 人民邮电出版社

陈泳钊, 刘永红, 黄晶, 等. 2015. 在用轻型汽油车排放随行驶里程劣化规律分析[J]. 环境污染与防治, 37(4): 21-25, 29.

范菊旺. 2015. 基于底盘测功机测试的机动车劣化对污染物排放因子的影响研究[D]. 杭州: 浙江大学

冯坚. 2018. 在用汽油车ASM工况法地方标准的研究[D]. 西安: 长安大学

郭栋, 高松, 王晓原, 等. 2013. 轻型电喷车排放随使用年限和行驶里程劣化规律分析[J]. 科学技术与工程, 13(15): 4454-4458. DOI:10.3969/j.issn.1671-1815.2013.15.061

黄文伟, 孙龙林, 罗新闻. 2012. 城市出租车行驶里程与排放特性相关性的试验研究[J]. 汽车技术, (3): 43-48. DOI:10.3969/j.issn.1000-3703.2012.03.010

郝吉明. 2000. 城市机动车排放污染控制-国际经验分析与中国的研究成果[M]. 北京: 中国环境科学出版社, 18-24, 283.

金嘉欣, 孙世达, 王芃, 等. 2020. 辽宁省2000-2030年机动车排放清单及情景分析[J]. 环境科学, 41(2): 665-673.

李晓玲. 2011. 广州市轻型汽油车排放特征及检测/维护制度减排效益评估[D]. 北京: 清华大学

刘丹, 姚立霜, 王云锋, 等. 2020. 面向类不平衡流量数据的分类模型[J]. 计算机应用, 40(8): 2327-2333.

刘永红, 陈泳钊, 黄晶, 等. 2015. 在用轻型汽油车排放水平及趋势变化拟合研究[J]. 环境科学与管理, 40(2): 24-28. DOI:10.3969/j.issn.1673-1212.2015.02.007

刘永红, 林晓芳, 黄玉婷, 等. 2018. 佛山市轻型汽油车尾气动态排放特征分析[J]. 环境科学与技术, 41(2): 83-90.

檀忠意. 2017. 在用轻型汽油车稳态工况法排气污染物排放限值研究[D]. 长春: 吉林大学

王猛, 刘宪, 郭冬冬, 等. 2013. 北京市高里程出租车排放研究[J]. 车辆与动力技术, (2): 51-53.

王梦雷, 金博强, 李顺义, 等. 2019. 郑州市在用汽车简易瞬态工况法排放限值研究[J]. 环境科学与技术, 42(4): 214-220.

吴静. 2020. 基于深度学习的目标检测中不平衡问题的研究[D]. 成都: 电子科技大学

王文涛. 2006. 在用车排放与排放检测方法特性的研究[D]. 广州: 广东工业大学

温溢, 刘俊女, 刘宪, 等. 2017. 北京市第五阶段出租车排放劣化特性[J]. 中国环境科学, 37(12): 4487-4492. DOI:10.3969/j.issn.1000-6923.2017.12.010

谢岩, 廖松地, 朱曼妮, 等. 2020. 轻型汽油车稳态工况下的尾气排放特征[J]. 环境科学, 41(7): 1-11.

杨瑞. 2001. 汽车排放群体统计特征规律的研究[D]. 哈尔滨: 东北林业大学

于增信, 徐志军, 孙莉, 等. 2012. 在用车排放劣化规律研究[J]. 车用发动机, (2): 63-65. DOI:10.3969/j.issn.1001-2222.2012.02.014

Zachariadis T, Ntziachristos L, Samaras Z. 2001. The effect of age and technological change on motor vehicle emissions[J]. Transportation Research Part D-Transport and Environment, 6(3): 221-227. DOI:10.1016/S1361-9209(00)00025-0

Zhang Q, Fan J, Yang W, et al. 2017. The effects of deterioration and technological levels on pollutant emission factors for gasoline light-duty trucks[J]. J Air Waste Manag Assoc, 67(7): 814-823. DOI:10.1080/10962247.2017.1301275

Zheng A, Casari A. 2019. 精通特征工程[M]. 陈光欣译. 北京: 人民邮电出版社

周子航, 宋丹林, 张普, 等. 2010. 成都市机动车简易瞬态工况法排放因子研究[A]//成都市科技年会分会场-世界现代田园城市空气环境污染防治学术交流会论文集[C]. 成都: 四川省环境科学学会

中华人民共和国生态环境部. 2019. 中国移动源环境管理年报[R]. 北京: 中华人民共和国生态环境部

朱传勇. 2012. 点燃式发动机在用轻型汽车简易工况法排气污染物排放限值研究[D]. 北京: 中国环境科学研究院