魏雯 杜雨萌 董傲然 秦丹 朱彤

魏雯, 杜雨萌, 董傲然, 秦丹, 朱彤. 基于CIDAS数据与集成学习的电动两轮车骑行者伤害致因分析[J]. 交通信息与安全, 2022, 40(2): 45-52. doi: 10.3963/j.jssn.1674-4861.2022.02.006
WEI Wen, DU Yumeng, DONG Aoran, QIN Dan, ZHU Tong. An Analysis of Factors Affecting Injury of Electric Two-wheeler Riders Based on CIDAS Data and Ensemble Learning[J]. Journal of Transport Information and Safety, 2022, 40(2): 45-52. doi: 10.3963/j.jssn.1674-4861.2022.02.006
doi: 10.3963/j.jssn.1674-4861.2022.02.006

国家重点研发计划项目 2019YFE0108000


    魏雯(1997—),硕士研究生. 研究方向:交通安全. E-mail:1586152334@qq.com


    朱彤(1977—),博士,副教授. 研究方向:交通规划与交通安全. E-mail:zhutong@chd.edu.cn

  • 中图分类号: X928.0; U491.3

An Analysis of Factors Affecting Injury of Electric Two-wheeler Riders Based on CIDAS Data and Ensemble Learning

  • 摘要: 电动两轮车保有量持续增长导致相关的事故伤害日益严重。为研究电动两轮车-机动车碰撞事故中电动两轮车骑行者受伤程度的影响因素,以中国事故深度调查(CIDAS)数据集中的1 246起电动两轮车-机动车事故案例为基础,对比随机森林、XGBoost和LightGBM这3种集成学习模型性能,基于准确率等指标选用性能最优的LightGBM模型进行电动车骑行者受伤严重程度预测。结合SHAP可解释方法,进一步分析发现自变量与因变量之间存在明显的非线性关系:电动两轮车骑行者抛出距离对死亡的影响存在明显的阈值效应,电动两轮车骑行者被抛出距离小于5 m时,不易发生死亡事故,超过5 m时,抛出距离和死亡风险呈正相关;事故发生地为市区外或公路上以及与载重物车辆相撞能显著增加电动两轮车事故中骑行者的死亡风险;电动两轮车不加装脚蹬、座位高度大于70 cm、车把宽度为61~65 cm、车把设计形式为向后弯曲或牛角状等因素可降低死亡风险;与电动两轮车骑行者相关的降低死亡风险的因素包括女性、年龄在30~50岁及对事故发生地环境更为熟悉。


  • 图  1  电动两轮车骑行者受伤严重程度分布

    Figure  1.  Injury severity distribution of electric two-wheeler riders

    图  2  模型评估指标

    Figure  2.  Model evaluation indexs

    图  3  三分类混淆矩阵

    Figure  3.  Tripartite confusion matrix

    图  4  SHAP值排序

    Figure  4.  Ranking of SHAP value

    图  5  死亡事故SHAP值汇总图

    Figure  5.  SHAP value summary of fatal accident

    图  6  抛出距离边际效应

    Figure  6.  Marginal effect of throw distance

    图  7  SHAP部分依赖图

    Figure  7.  SHAP dependence plots

    图  8  电动两轮车骑行者对事故发生地的熟悉程度边际效应

    Figure  8.  The marginal effect of electric two-wheelers riders' familiarity with the place where the accident occurred

    表  1  自变量分类表

    Table  1.   Classification of independent variables

    类别 变量 分类赋值(占比/%)
    事故信息 事故季节 0:春(28) 1: 夏(33) 2: 秋(25) 3: 冬(14)
    事故地点 0: 市区内(58) 1: 市区外(42)
    道路信息 道路类型 0: 公路(14) 1: 城市道路(70) 2: 其他(16)
    路灯状态 0: 无路灯(13) 1: 开启(18) 2: 关闭(69)
    电动车信息 碰撞之后的车辆状况 0:还能继续正常行驶(53) 1:能够滚动、刹车或转向(33) 2:不能滚动(14)
    两轮车种类 0: 带脚蹬的电动两轮车(22) 1: 不带脚蹬的电动两轮车(78)
    两轮车主要相撞部位 0: 前部(20) 1: 左侧(41) 2: 右侧(31) 3: 尾部(7) 4: 其他(1)
    前轮制动类型 0:轮辋制动(11) 1:鼓式制动(70) 2: 单盘式刹(18) 3: 其他(1)
    车把设计形式 0: 直把把手(68) 1: 向后弯曲的把手(17) 2: 牛角状把手(12) 3: 其他(3)
    车把宽度/cm 0: ≤60(20) 1: > 60~65 (55) 2: > 65~70 (22) 3: > 70~75(2) 4: > 75(1)
    座位高度/cm 0:≤70及以下(27) 1: > 70~75(41) 2: > 75~80 (27) 4: > 80(5)
    碰撞时两轮车总质量/kg 0: ≤100(8)1: > 100~125 (27) 2: > 125~150 (43) 3: > 150~175(12)4: > 175~200 (6) 5: > 200(4)
    电动车骑行者信息 性别1 0: 男(61) 1: 女(39)
    年龄1/岁 0:≤ 18(1) 1: > 18~30(17) 2: > 30~40(16) 3: > 40~50 (23) 4: > 50~60 (20) 5: > 60(23)
    碰撞前是否采取制动措施 0: 未制动(67) 1: 制动(4) 2: 减速(25) 3: 其他⑷
    事故发生地的熟悉程度1 0:几乎每天(40) 1: 一周几次(43) 2:很少(4) 3:其他(13)
    抛出距离/m 0: ≤ 1.0(10) 1: > 1.0~3.0 (31) 2: > 3.0~5.0 (20) 3: > 5.0~10.0 (21) 4: > 10.0~20.0 (12) 5: > 20.0(6)
    机动车辆信息 车辆类型 0: 乘用车(85) 1: 载重物车辆(15)
    刹车响应 0: 刹车(33) 1: 未刹车(65) 2: 其他(2)
    碰撞前车辆运动曲线 0: 静止⑴1: 直线向前(78) 2: 左拐弯(15) 3: 右拐弯(5) 4:形(1)
    表  2  二分类混淆矩阵

    Table  2.   Dichotomous confusion matrix

    混淆矩阵 预测值=1 预测值=0
    真实值=1 TP FN
    真实值=0 FP TN
    表  3  二分类问题评价指标及含义

    Table  3.   Evaluation indexes and meanings of dichotomous problems

    判断指标 指标含义 评估依据 评估标准
    准确率(Accuracy) 预测正确的样本占总样本的比例 (TP + TN)/(TP + TN + FP + FN) 值越高越好
    查准率(Precision) 预测为正例的样本中真实正例的比例 TP/(TP + FP) 值越高越好
    查全率(Recall) 真实正例被预测为正例的比例 TP/(TP + FN) 值越高越好
    F1 -Score 调和平均的查准率和查全率 $\frac{{2{\rm{ }} \times Precision \times Recall}}{{(Precision + Recall)}}$ 越接近1越好
    表  4  LightGBM模型参数优化结果

    Table  4.   Optimization results of LightGBM model parameters

    参数 名称 说明 优化结果
    核心参数 learning rate 模型迭代的学习率或步长 0.1
    num leaves 单棵数的最大叶子数 30
    学习控制参数 max depth 树的最大深度 15
    min_data_in_leaf 1个叶子的最小数据量 30
    bagging_fraction 每次迭代时用的数据比例 0.4
    bagging_freq 进行1次迭代需要的树的数量 20
    feature_fraction 每次迭代时用的参数比例 0.6
    lambda_l1 L1正则化系数 1x10-5
    lambda_l2 L2正则化系数 0.001
    min_split_gain 分裂的最小gain 0.0
    IO参数 max_bin 桶的最大数量 10
    categorical_feature 申明类别变量
    表  5  LightGBM分类模型预测效果

    Table  5.   Prediction effect of LightGBM classification model

    受伤严重程度 查准率/% 查全率/% F1-Score/% 支持样本量
    仅财产损失 25 5 8 22
    受伤 90 95 92 317
    死亡 58 54 56 35
