杜渐 杨海益 李洋 郭淼 亓航 魏金强 马浩 胡丹丹 李志宇

杜渐, 杨海益, 李洋, 郭淼, 亓航, 魏金强, 马浩, 胡丹丹, 李志宇. 基于可解释机器学习框架的高速公路安全风险及影响要素识别[J]. 交通信息与安全, 2023, 41(5): 24-34. doi: 10.3963/j.jssn.1674-4861.2023.05.003
DU Jian, YANG Haiyi, LI Yang, GUO Miao, QI Hang, WEI Jinqiang, MA Hao, HU Dandan, LI Zhiyu. Identification of Safety Risk in Freeway and Impact Factors Based on an Interpretable Machine Learning Framework[J]. Journal of Transport Information and Safety, 2023, 41(5): 24-34. doi: 10.3963/j.jssn.1674-4861.2023.05.003
doi: 10.3963/j.jssn.1674-4861.2023.05.003

国家重点研发计划项目 2019YFB1600500


    杜渐(1971—),博士,高级工程师. 研究方向:交通运输工程、交通信息化. E-mail:dujian@cmhk.com


    李洋(1979—),博士,高级工程师. 研究方向:交通安全管理,交通设施管理. E-mail:yang_li009@163.com

  • 中图分类号: U491

Identification of Safety Risk in Freeway and Impact Factors Based on an Interpretable Machine Learning Framework

  • 摘要: 由于交通事故是小概率随机事件,难以在全时空域上开展交通安全分析,也无法基于此制定事故发生前的交通安全风险主动防控策略。为辨识混杂因素干扰下安全风险及其诱发本质,使用激进驾驶行为数据与速度变异系数计算交通秩序指数(traffic order index,TOI),形成事故替代指标,并通过K-means聚类算法将TOI划分为3种交通安全风险等级。在此基础上,利用Catboost算法构建交通流特征、天气条件、道路条件等因素与交通安全风险等级间的关联关系,并基于基尼系数的特征重要性确定高速公路交通安全风险要素。使用部分依赖图算法解析风险要素与交通安全风险的依赖关系,获取风险要素对交通安全风险的边际效应。结果表明:①Catboost算法对风险等级识别的准确率、精确率、召回率依次为85.95%、88.56%、86.75%,证明交通秩序指数与外部风险要素具有较强相关性;②交通流量、拥堵指数对风险识别有较大影响,且与交通安全风险等级呈现非线性关系,交通流量>450 veh/h或拥堵指数>1.5时,交通安全风险均会显著增长,交通安全风险分别上升16.9%、29.5%;③当连续1 km道路内设有1~2个交通标志时,交通安全风险最高,路段识别为高风险的概率为38.1%;匝道出入口和隧道内部道路的交通安全风险最高;④侧风作用会小幅度影响高速公路交通安全风险,当风力等级由0级增至5级时,交通安全风险上升4.99%。


  • 图  1  研究路段示意图

    Figure  1.  Schematic diagram of the road section

    图  2  结果分析框架

    Figure  2.  Framework of results analysis

    图  3  Catboost模型的混淆矩阵

    Figure  3.  Confusion matrix for Catboost model

    图  4  Catboost模型特征重要性

    Figure  4.  The feature importance score in catboost model

    图  5  变量相关性矩阵

    Figure  5.  Variable correlation matrix

    图  6  交通流特征的部分依赖图

    Figure  6.  Partial dependence plots of traffic flow characteristics

    图  7  道路条件的部分依赖图

    Figure  7.  Partial dependence plots of road conditions

    图  8  天气条件的部分依赖图

    Figure  8.  Partial dependence plots of weather conditions

    表  1  数据类型与描述

    Table  1.   Data type and Description

    数据类别 主要字段 数据描述
    基础数据 时段 时间区间i h - i + 1 h, i = 0, 1, 2, …, 23
    激进驾驶行为 事件类型 见式(2),事件类型包括急加速、急减速、急左转、急右转、急
    事件坐标 经度、纬度
    拥堵指数 见式(1)
    交通流 平均运行速度 10 min内通过车辆的平均运行速度值
    环境 流量 10 min内通过车辆的总车辆数
    天气条件 晴、阴、多云、雨、雾
    风力等级 0~5级
    路段类型 隧道、桥梁路段、普通路段、匝道出入口
    道路 匝道出入口个数
    平曲线类型 弯道段、直线段
    标志数量 1 000 m路段内路段的交通标志数量,包括指路、指示、警告和禁令标志
    表  2  连续变量的描述性统计表

    Table  2.   Descriptive statistics of continuous variables

    类别 变量 最大值 最小值 平均值 标准差
    交通流特征 流量/(veh/10 min) 384 1 90.96 55.58
    拥堵指数 33.85 0.76 1.08 0.44
    道路条件 标志数量/个 17 0 3.22 4.13
    表  3  分类变量的描述性统计表

    Table  3.   Descriptive statistics of categorical variables

    类别 变量 变量描述 代码 频数 占比/%
    道路条件 路段类型 普通路段 0 160 408 56.97
    互通立交路段 1 79 240 28.14
    隧道路段 2 41 931 14.89
    匝道出人口个数 无出人口 0 204 173 72.51
    1个 1 41 750 14.83
    2个 2 35 656 12.66
    是否为曲线段 0 79 019 28.06
    1 202 560 71.94
    天气条件 天气状况 0 98 783 35.08
    多云 1 98 404 34.95
    2 66 662 23.67
    3 16 450 5.84
    4 1 280 0.46
    风力等级 无风 0 77 173 27.41
    1级风 1 123 034 43.69
    2级风 2 66 728 23.70
    3级风 3 13 569 4.82
    4级风 4 795 0.28
    5级风 5 280 0.10
    表  4  混淆矩阵案例

    Table  4.   Example of confusion matrix

    真实值 预测值
    预测为正值 预测为负值
    真实为正值 TP FN
    真实为负值 FP TN
    Table  5.   Optional parameters and final tuning results of Catboost algorithm

    可选参数 调优结果 含义解释
    loss function {RMSE, Logloss, MAE} RMSE 损失函数类型
    iterations {500, 600, 700, …, 1 000} 600 最大树数
    learning rate {0.01, 0.02, 0.03, …, 0.05} 0.04 学习率
    bagging temperature {, 0.3, …, 1} 0.5 贝叶斯套袋强度
    depth{1, 2, 3, …,10} 7 最大树深度
