人的行为轨迹分析学—记者报道-资讯中心-韩韩H5开发

雷锋网人工智能技术评论注本文为上海交通大学林天伟为雷锋网人工智能技术评论独家撰稿，并得到雷锋网指导和审稿。雷锋网在此向您表示感谢。

视频中的人体动作分析是计算机视觉研究领域的一个重要方向，包括动作分类、时间动作检测、时空动作检测等方向。东京大学日前在arXiv上发表的一篇论文提出了第一人称视频中的行人轨迹预测这一新的人类行为分析题，并提出了新的数据集和新的行人轨迹预测算法。

论文标题是FuturePersonLocalizationinFirst-PersonVideos[1]arXiv171111217。这篇笔记主要是对这篇论文的内容进行提炼和整理，最后附上我自己对这篇论文的讨论。如果还有什么疑请留言哦~

题定义

首先，这里使用的第一人称视频是指使用GoPro或GoogleGlass等可穿戴相机拍摄的视频。基于第一人称视频的研究的主要应用包括盲导航、AR和其他相关领域。

具体来说，本文提出的未来行人定位题需要一种算法，知道时间t和前一帧视频中行人的相关信息，并预测下一个视频中行人将出现在视频中的位置。几乎没有框架。题图如下这项任务涉及的技术有多种用途，包括帮助行人避开迎面而来的行人或帮助移动机器人规划路径。

构建算法

为了构建行人轨迹预测算法，我们首先需要确定将使用哪些信息/特征来建模和学习行人轨迹。针对短视频中的行人，本文主要提出了四种特征序列

1.行人检测框的位置顺序

2.行人检测框的大小顺序从第一人称视角来看，行人框的大小实际上指的是透视投影关系，即“近大远小”。

3行人骨骼序列，骨骼信息主要指行人的运动、姿势、方向等信息。

4.相机本身的运动信息在第一人称视角中，相机本身是不断移动的，因此算法必须考虑相机本身的运动。每两帧之间有一个摄像机。

所以题可以表示为给定时间t和前一个Tp帧的四个特征序列，我们需要预测下一个Tf帧中的行人检测帧位置序列。在本文中，我们提出了一个基于一维卷积的非常简单的网络，如下图所示。

网络的具体配置如下表所示，基本上是1D-Conv+BN+ReLU的堆栈。最终输出是未来所需的检测框位置的序列。

第一人称运动FPL数据集

由于第一人称视频中的行人轨迹预测题没有现有的数据库，因此作者直接收集了一个新的数据库，称为第一人称移动FPL数据集。该数据集是从东京街道收集的，下面是该数据集中的一些示例图像。

该数据集包含45小时的视频，其中包括大约5,000条行人轨迹。对于每条轨迹，本文采用1秒的时间窗口，使用前10帧的信息作为输入特征，使用后10帧的行人轨迹作为输出标签。这里的定义不是特别明确，可能需要看后面发布的详细数据集信息。

那么我们如何获取数据集的标签信息呢？这个数据集没有使用手动标注，而是使用了多种算法自动生成标注信息。首先，对于视频的每一帧，使用今年CMU开源的OpenPose[2]提取场景中所有行人的骨骼信息，并基于此获得行人检测帧。其次，我们使用KCF[3]算法在帧间跟踪行人，生成许多短跟踪序列，并且这些短跟踪序列根据图像特征相似度和位置接近度两个规则进行拼接，以获得更长的跟踪序列。这里，特征相似度使用从Faster-RCNN提取的特征的余弦距离。通过上述操作，我们可以得到与行人相关的三个特征序列行人位置、行人大小、行人骨架序列。本文使用[5]中的算法估计相机本身的运动信息。通过上述操作，我们最终获得了5000个轨迹样本。

在评估方法上，本文采用与文献[6]类似的方法，并使用最终的位移误差FDE作为评估指标。FDE指标是最终预测轨迹与最终实际轨迹之间的L2距离。为了更详细的评估，该数据集将行人轨迹分为三个子集（1个相反方向，3个水平方向），并分别计算三个子集的FDE和平均FDE。

实验结果

本文主要对比以下几种方法

ConstVel:该方法计算输入轨迹的速度和方向，并直接生成后续轨迹。

NNeighbor测试时，选择16条轨迹最相似的训练集轨迹，计算平均值，生成输出轨迹。

SocialLSTM[6]:是一种最先进的行人轨迹预测方法，但并未针对第一人称视角场景提出。

实验结果如表所示。

您可以看到本文中的方法明显优于许多基线。

作者还对几个输入特征进行了消融研究，其结果如下表所示。

可见，融合多种信息可以显着提高轨道预测效果。

以下是本文结果的可视化总体来说效果还是不错的。

个人讨论

这就是本文的基本内容。可以看出，本文主要是进一步限定行人轨迹预测题的场景，并提出相应的数据集和算法。本文提出的算法比较简单，但总体还是很有启发性的。

在第一人称视角场景下，本文的方法基本涵盖了所有可以用来预测行人轨迹特征的信息，其中我们认为骨骼信息和相机特定信息非常重要。

这个题其实可以进一步推广到运动相机场景下的行人轨迹预测题，并应用于智能驾驶等更多应用场景。

本文中的模型构建起来非常简单。您可能想要创建一个简单的基线。通过使用LSTM网络或构建更复杂的特征融合算法可以实现更好的轨迹预测精度。

本文提出的数据集在提取各种信息时分别使用了kcf、openpose、ego-motionestimator三种算法，综合速度并不理想。因此，该算法在实际场景中使用之前，还需要进行大量的算法优化和工程实现工作。这也值得一试。

参考

[1]在第一人称视频中定位未来人等，作者TakumaYagi，arXiv预印本arXiv:171111217，2017。

[2]ZCao、TSimon、S-EWei和YSheikh使用部分亲和力场进行实时多人2D姿态估计。载于IEEE计算机视觉和模式识别会议论文集，第72917299页，2017年。

[3]JFHenriques、RCaseiro、PMartins和JBatista使用内核化相关滤波器进行快速跟踪IEEETransactionsonPatternAnalysisandMachineIntelligence，373:583-596，2015

[4]SRen、KHe、RGirshick和JSunFasterR-CNN:利用局部提议网络实现实时目标检测的神经信息处理系统进展，第1-9页，2015年。

[5]TZhou、MBrown、NSnavely和DGLowe视频中深度和自我运动的无监督学习IEEE计算机视觉和模式识别会议论文集，第18511860页，2017年

[6]AAlahi、KGoel、VRamanathan、ARobicquet、LFei-Fei和SSavareseSociallstm:在拥挤空间中预测人体轨迹，IEEE计算机视觉和模式识别会议论文集，第961-971页，2016年。

一、ct5被动行人保护触发条件？

1-CT5被动行人保护的工作条件是当车辆前方有行人或障碍物且车速较高时。这是因为2-CT5被动行人保护系统通过车辆前方的传感器检测行人或障碍物的存在，判断车速较高时存在潜在碰撞风险，并采取保护措施。3-CT5被动行人保护系统还可以预测行人的运动轨迹和速度，并采取主动制动或避让措施，确保行人安全。该系统还可以与其他主动安全系统结合，提供更全面的保护。