唐进君 庹昊南 刘佑 付强

唐进君, 庹昊南, 刘佑, 付强. 基于BERT-Bi-LSTM-CRF模型的自主式交通系统参与主体识别方法[J]. 交通信息与安全, 2022, 40(5): 80-90. doi: 10.3963/j.jssn.1674-4861.2022.05.009
TANG Jinjun, TUO Haonan, LIU You, FU Qiang. A Method for Identifying the Participants of Autonomous Transportation System Based on a BERT-Bi-LSTM-CRF Model[J]. Journal of Transport Information and Safety, 2022, 40(5): 80-90. doi: 10.3963/j.jssn.1674-4861.2022.05.009
国家重点研发计划项目 2020YFB1600400


    唐进君(1983—),博士,副教授.研究方向: 智能交通. E-mail:jinjuntang@csu.edu.cn

  • 中图分类号: U495

A Method for Identifying the Participants of Autonomous Transportation System Based on a BERT-Bi-LSTM-CRF Model

  • 摘要: 自主式交通系统(ATS)的重要组成部分是参与主体,参与主体的信息通常依靠文本进行描述。为构建自主式交通知识图谱,需要从文本中准确地识别出大量参与主体。为此,研究了基于BERT-Bi-LSTM-CRF模型的实体识别方法,对自主式交通系统参与主体进行抽取。词嵌入模型BERT为预训练语言模型,用以捕获丰富的语义特征,将捕获的语义特征输入到双向长短时记忆神经网络(Bi-LSTM)模型中提取上下文双向序列信息,经条件随机场(CRF)处理得到最优序列预测结果。收集交通专业相关的原始语料,经过数据预处理与文本标注,形成了可用于自主式交通系统参与主体识别的语料库,基于此数据开展实体识别对比实验。结果证明:BERT模型显著提升了自主式交通系统参与主体识别任务的性能。相较于传统方法CNN-LSTM或Bi-LSTM等,所提方法可以得到最佳综合识别效果,各实体的综合F1值为86.81%,表明通过BERT模型提取参与主体的语义特征,可以增强识别方法的泛化能力。“使用者”“运营者”“提供者”“规划者”“维护者”类实体的F1值分别为90.35%,92.31%,90.48%,93.33%,95.00%。验证了所提方法识别自主式交通系统参与主体的有效性。


  • 图  1  ATS本体结构

    Figure  1.  Ontology structure of ATS

    图  2  ATS领域实体类型

    Figure  2.  Entity type in ATS

    图  3  ATS知识模式层

    Figure  3.  The pattern layer of knowledge inATS

    图  4  BERT遮盖词模型

    Figure  4.  BERT masked language model

    图  5  LSTM单元

    Figure  5.  LSTM cell

    图  6  Bi-LSTM-CRF模型结构

    Figure  6.  The model structure of Bi-LSTM-CRF

    图  7  F1值结果对比

    Figure  7.  The comparison of models with updated F1 value

    表  1  语料内容

    Table  1.   Corpus content

    数据源 类型 领域或内容 实体
    《中国智能交通系统体系框架》 科技文献 ITS系统框架 交通管理者、货运部门、交通信息服务提供商、急救中心、道路使用者等
    《智能交通系统体系框架原理与应用》 科技文献 ITS框架解读 政府部门、基础设施管理部门、清算中心、客户服务中心、城市交通管理中心等
    《道路交通安全法》 法律法规 交通安全 驾驶人、机动车所有人、公安机关、机动车安全技术检验机构、行人等
    《机动车交通事故责任强制保险条例》 规章制度 载运工具 保险公司、保监会、投保人、道路交通事故社会救助基金、机动车管理部门等
    《国家车联网产业标准体系(系列文件)》 标准文件 车联网产业标准概要 工业和信息化部、交通运输部、国际标准化组织、数据平台、国家标准化管理委员会等
    《国家车联网产业标准体系建设指南(车辆智能管理)》 指导意见 智能网联汽车管理 道路交通管理运行监管平台、服务平台、全国汽车标准化技术委员会等
    表  2  语料标注示例

    Table  2.   An example of corpus tagging

    文本 标注样式
    O O O O
    O O O O
    O O O O
    O O O O
    表  3  ATS实体类型标注情况

    Table  3.   Tagging of entity type in ATS

    实体类型 标注样式 定义 实体
    人物(PER) B-PER、I-PER 常识集下个体的人名或者组合而成的群体 工程人员、科技人员等
    组织(ORG) B-ORG、I-ORG 常识集下按一定结构形式组成的集会群体 研究中心、社会团体等
    地名(LOC) B-LOC、I-LOC 常识集下的地点名称 中国、欧洲等
    使用者(USE) B-USE、I-USE ATS中使用交通服务、基础设施以及载运工具的用户主体 交通参与者、驾驶人等
    管理者(MAN) B-MAN、I-MAN ATS中通过管理各组分使得交通系统高效有序运行的用户主体 交通管理中心、紧急事件处理人员等
    运营者(OPE) B-OPE、I-OPE ATS中为产品系统提供服务活动的用户主体 公共交通运营商、货运公司等
    提供者(SUP) B-SUP、I-SUP ATS中为交通服务提供信息资源的用户主体 交通信息提供商、气象部门等
    规划者(PLA) B-PLA、I-PLA ATS中为服务规则、标准做出规划的用户主体 交通运输规划部门等
    建造者(CON) B-CON、I-CON ATS中安装、建造组分实体的用户主体 汽车厂商、道路建设者等
    维护者(MAI) B-MAI、I-MAI ATS中维护、检测、保养组分实体的用户主体 汽车维修商、道路养护部门等
    表  4  实体识别模型测试结果

    Table  4.   The test results of entity recognition model 单位: %

    预训练模型 模型 P R F1
    CNN-LSTM 72.00 81.61 76.50
    Bi-LSTM 74.41 81.61 77.84
    Bi-LSTM-CRF 79.89 82.83 81.34
    BERT CNN-LSTM 81.55 87.33 84.34
    Bi-LSTM 81.23 86.65 83.85
    Bi-LSTM-CRF 84.52 89.24 86.81
    表  5  各实体类型F1值

    Table  5.   F1 value of entity type 单位: %

    CNN-LSTM 84.80 81.21 82.47 78.65 63.41 0 87.80
    Bi-LSTM 85.71 79.86 86.87 80.90 64.86 66.67 95.00
    Bi-LSTM-CRF 86.87 83.57 89.13 86.05 74.29 66.67 95.00
    BERT-CNN-LSTM 89.64 88.03 92.13 89.41 78.79 66.67 95.00
    BERT-Bi-LSTM 89.31 87.50 86.32 89.66 86.67 33.33 95.00
    BERT-Bi-LSTM-CRF 90.35 88.42 92.31 90.48 93.33 66.67 95.00
    表  6  实体识别实例

    Table  6.   Entity recognition example

    模型 预测正确实体及标签 预测错误实体及标签
    CNN-LSTM PLA: 国际标准化组织、技术委员会、科技部、智能交通协会; LOC: 中国 PLA: 智能交通系统设置了专门;MAN: 民; ORG: 政部
    Bi-LSTM PLA: 国际标准化组织; MAN: 民政部 PLA: 能、专门、技术委员、科技、中、智、交通;LOC: 国; ORG: 能
    Bi-LSTM-CRF PLA: 国际标准化组织、科技部、智能交通协会; LOC: 中国 PLA: 专门、技术委员; ORG: 民政部
    BERT-CNN-LSTM PLA: 国际标准化组织、技术委员会、科技部; MAN: 民政部; LOC: 中国 ORG智能交;LA: 通协会
    BERT-Bi-LSTM PLA: 技术委员会、科技部、智能交通协会; LOC: 中国 PLA: 标准化组; MAN: 民、部; ORG: 政
    BERT-Bi-LSTM-CRF PLA: 国际标准化组织、技术委员会、科技部、智能交通协会; MAN: 民政部; LOC: 中国
  • 收稿日期:  2022-01-02
  • 网络出版日期:  2022-12-05


