将眼动驱动的人类认知,注入自动驾驶算法方案

本篇分享的《Human and algorithmic visual attention in driving tasks》这一发表于npj Artificial Intelligence期刊的Nature系列文章,围绕自动驾驶场景中“人类视觉注意力与算法注意力的差异与融合”展开。该研究由清华大学智能产业研究院(AIR)团队提出,聚焦安全关键场景下人类认知机制如何反哺人工智能模型性能提升。

 

 究  背  景

Research Background

 

随着自动驾驶技术的快速发展,基于深度学习的视觉感知算法在目标检测、路径规划等任务中已取得显著进展,但在复杂交通环境中仍存在“理解能力不足”的问题,例如难以处理长尾场景、语义复杂决策等情境。研究表明,这一问题的核心在于算法更多依赖空间显著性,而缺乏人类驾驶员所具备的语义理解能力。为此,本研究引入眼动追踪技术,通过采集驾驶任务中的视觉注意行为,解析人类在复杂场景中的信息加工机制。

实验采用七鑫易维aSee Pro眼动系统(采样率250Hz,精准度≤0.5°)对被试进行高精度注视点记录,并基于I-VT算法对注视(Fixation)与扫视(Saccade)进行自动划分,同时结合AOI(感兴趣区域)分析方法,对关键或危险目标区域进行划定与统计。通过注视次数、平均注视时长、注视空间分布等指标,研究能够量化人类在不同决策阶段的注意力分配模式,从而为自动驾驶算法提供可解释的行为数据支撑。

图1 研究概要



a.驾驶任务中人类注意力分布的三个阶段示意图。时间点t0、t1和t2分别对应试验开始、人类注视首次进入感兴趣区域(AOI)以及人类注视首次离开AOI的时刻

b.本研究的理论框架和结果表明,与纳入人类注意力数据的全部时长相比,纳入检查阶段或基于特征的人类注意力数据将最显著地提升模型性能(实际驾驶场景选自DRAMA和BDD-OIA数据集)

 

 究  目  的

Research Objective

 

核心目标在于揭示人类语义注意力在视觉决策中的关键作用,并验证其对自动驾驶模型性能的提升价值。具体而言,研究希望通过眼动数据构建人类注意力分布模型,并将其引入深度学习算法中,比较不同类型注意力(空间注意 vs 特征/语义注意)对模型表现的影响,从而明确哪一类人类语义注意力可为自动驾驶算法模型带来显著性能增益。

 

 究  方  法

Research Methods

 

眼动实验采用3×3×2混合设计。被试内变量为图片集与任务,每组图片含30张随机选自原始数据集的图片,刺激采用 E-Prime 3.0 编程呈现。实验招募了新手驾驶员、资深驾驶员各18人,共36人,在3种交通场景(白天城市、夜间道路和异常场景)下,完成3类任务(危险识别、通行判断和异常检测)。

被试在24英寸戴尔显示器前(分辨率1920×1080,刷新率60Hz)完成实验任务,眼动数据由7invensun aSee Pro系统实时采集,屏幕距眼睛60–80cm。

系统采用速度阈值识别(I-VT)算法计算逐点速度,速度低于阈值(默认3像素/ms)且持续超过60ms的连续采样点定义为注视,否则归为扫视。研究基于感兴趣区域(AOI)进入与离开时间点,将人类视觉注意过程划分为扫描(Scanning)、审视(Examining)和再评估(Reevaluating)三个阶段,其中扫描阶段主要反映空间注意,审视阶段体现对目标语义特征的深度加工,再评估阶段则为综合决策过程。另外,研究不仅关注传统的空间注意分布,还进一步结合AOI划定,将注意力与具体语义目标(如行人、车辆、交通标志等)进行关联,从而构建语义化的注意力数据。

图2 每个任务和阶段中人类注意力分配的示例

PS:红色方框表示AOI,颜色越红表示在该区域的注视次数越多、注视时间越长

 

在指标计算上,研究提取了各阶段的注视数量(Number of fixation)、注视时长(Average fixation duration)、阶段时长占比(Phase duration)以及注视水平离散度(Horizontal variance of fixations)等关键参数,并结合反应时(RT)进行归一化处理。这些眼动指标不仅刻画了注意力的时间动态变化,也揭示了任务目标、经验水平与视觉策略之间的关系。

图3 影响各阶段人类注意力分配的因素

 

PS:折线图展示了每个阶段中各部分占比结果折线图中的点对应平均值,误差线代表平均值减去和加上一个标准误差。平均注视时长,及图像集与任务之间的交互作用对所有因变量均显著。这些结果表明在重新评估阶段,任务目标发挥了主要作用,分别与专业知识和图像集相互作用。这些结果,特别是对注视水平方差的显著影响,与我们对这一阶段功能的定义相符——通过比较来最终做出决定。为了实现任务目标而在物体之间进行选择,这进一步表明在这一阶段人类的注意力既具有空间性又具有特征性。

 

4 本研究AxANet的算法架构

 

 

 究  结  果

Research Results

 

实验验证了一个关键结论:并非所有人类注意力信息都对算法有益,其中“语义导向的审视阶段注意力”对模型性能提升最为显著。具体而言,将审视阶段的眼动数据引入模型后,算法准确率由0.724提升至0.736,优于使用完整眼动数据或仅空间注意数据的方案;而仅引入扫描阶段(空间注意)甚至会降低模型性能。这一结果表明,自动驾驶算法在现有训练框架下难以自主学习到语义显著性,而人类在注视目标时所体现出的语义理解能力,本质上包含了对环境语义的高度压缩表达,这恰恰是算法所缺失的关键信息来源。这使得眼动数据不仅是一种行为记录,更可以视为一种“认知先验”,用于指导模型关注真正重要的信息区域。

5 融入人类注视数据可提升模型性能



b:当与不同阶段的人类注视数据相结合时,预训练的AxANet的性能
c:在引入无人类注视数据、及引入人类注视数据检验阶段两种条件下,不同模型大小的非预训练AxANet的性能
d:在引入无人类注视数据、及引入人类注视数据检验阶段两种条件下,预训练和非预训练的AxANet的性能
e:在引入无人类注视数据、及引入人类注视数据检验阶段两种条件下,AxANet的注意力分布示例以及与原始输入相对应的人类注意力分布

 

此外,实验还发现,不同驾驶经验在审视阶段表现出显著差异,经验丰富的驾驶员具有更长的注视时长和更稳定的注意分布,进一步验证了该阶段在认知加工中的关键作用。

 

Conclusions and Discussion

 

人类视觉注意力并非均质信息,而是具有结构化的阶段特征,其中以语义理解为核心的注意过程对智能系统最具价值。通过眼动追踪技术获取的高精度行为数据,可以作为一种“认知先验”,有效弥补自动驾驶算法在语义理解方面的不足,从而提升系统在复杂环境下的安全性与鲁棒性。

该研究不仅验证了眼动技术在人工智能领域的应用潜力,也为“人机协同智能”提供了新的实现路径,即通过数据驱动方式将人类认知能力迁移至人工智能系统中。未来,随着多模态数据融合的发展,眼动数据有望与脑电、行为数据进一步结合,构建更全面的认知建模体系,推动智能系统从单纯的感知驱动向认知驱动转变,从而实现更高水平的智能决策能力。

 


 品  照  片
Product photos

 

 

 考  文  献

References

 

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]. In: Advances in Neural Information Processing Systems 30 (NIPS 2017), 2017.

 

[2] Xu R, Wang Y, Ma J, et al. V2X-ViT: Vehicle-to-Everything Cooperative Scanning with Vision Transformer[C]. In: Proceedings of the European Conference on Computer Vision (ECCV 2022), 2022: 107–124.

 

[3] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901.

 

2026年4月30日 17:00