Introduction

行人重识别(Person Re-identification, ReID)旨在在不同摄像头视角下识别同一行人的身份。相比于基于静态图像的行人重识别方法,基于视频的行人重识别方法能够利用行人在时间维度上的外观变化和运动信息,从而在一定程度上缓解遮挡、姿态变化等问题。

Related Work

近年来,研究者提出了多种用于视频行人重识别的时序建模方法,包括简单的时间池化方法、基于循环神经网络的方法以及基于注意力机制或 Transformer 的方法。然而,不同工作通常采用不同的骨干网络、训练策略和实验设置,使得这些时序建模方法之间的性能差异难以进行公平比较。

Method

因此,目前尚缺乏一项在统一实验设置下,对不同视频行人重识别时序建模策略进行系统比较和实证分析的研究。这在一定程度上增加了相关方法在实际应用和后续研究中的选择成本。

Experiments

Conclusion

现有论文资料

(一)赵佳佳《基于多尺度增强与时序融合的视频行人重识别方法研究》(中国矿业大学,2023)

该研究从特征增强特征融合双角度切入,提出两种核心方法,均以 ResNet50 为骨干网络:

  1. 基于多尺度亚像素卷积特征增强的方法(MSCFE-Net)

    • 核心创新:针对高层特征细节丢失问题,构建多尺度亚像素卷积特征金字塔,通过亚像素卷积(无通道降维)保留通道信息,结合空间 + 通道注意力强化判别特征;利用空洞时间卷积(短期时序)与自注意力(长期时序)聚合帧级特征至序列级;设计 “交叉熵损失 + 难样本三元组损失” 优化网络。
    • 实验验证:在 MARS 数据集上实现 mAP 83.5%、rank-1 89.0%;在 DukeMTMC-VideoREID 数据集上实现 mAP 95.2%、rank-1 96.9%,优于传统 3D 卷积方法(如 M3D、A3D)。
  2. 基于时序互补特征融合的方法(TCFF-Net)

    • 核心创新:针对互补特征提取不足,按时间关系将帧级特征分为 “显著性特征(局部)” 与 “差值放大特征(全局)”,通过不降维通道注意力过滤冗余;利用多尺度时间卷积核动态捕获长短期时序关联,设计 “交叉熵损失 + 难样本三元组损失 + 互信息损失” 提升泛化能力。
    • 实验验证:在 MARS 数据集上实现 mAP 86.0%、rank-1 90.1%;在 PRID-2011 数据集上实现 rank-1 96.7%,显著优于 ASTPN、STIM 等方法。

(二)何智敏《基于长短期时间关系网络的视频行人重识别》(《电子学报》,2024)

该研究以Transformer 架构为核心,聚焦长短期时序关系与多尺度空间特征适配:

  1. 核心创新

    • 长短期时间关系模块:短期模块(STIM)通过交叉注意力捕捉相邻帧细粒度信息;长期模块(LTIM)通过 “记忆传输流 + 特征更新流” 存储全局运动模式,建立帧间全局关联;
    • 非方形多尺度模块(MSM):采用 1×1、1×2、2×1 非方形卷积核,覆盖非规则目标区域(如背包、裙摆),解决传统方形卷积感受野适配性差的问题;
    • 高效聚合策略:采用 “Add” 方式融合长短期特征,比 “Concat” 提升 0.3% mAP 与 0.2% rank-1。
  2. 实验验证:在 MARS 数据集上实现 mAP 87.9%、rank-1 91.1%;在 MARS_DL(修正标注的 MARS)上实现 mAP 91.0%、rank-1 96.3%;在 iLIDS-VID 上实现 rank-1 94.0%,且推理速度达 189fps,计算成本低于 CAViT、BiCnet-TKS 等方法。

(三)其他补充研究

  1. MTF-CV ReID(arXiv,2025):针对跨视角(空对地监控)场景,提出 7 项轻量创新,包括跨流特征归一化(修正摄像头偏差)、身份感知记忆模块(强化持久特征)、多视图一致性学习(对比范式对齐跨域特征),在 AG-VReID 数据集上实现 SOTA,且仅增加 2M 参数、0.7 GFLOPs。

  2. 时序多尺度互补网络(napstic.cn,2025):采用多分辨率分支(高分辨率保留细节、低分辨率捕捉全局),设计跨分支融合模块传播全局信息,在 LS-VID 数据集上提升 4.5% mAP 与 3.1% top-1,计算成本仅为现有方法的 35%。

  3. ST-MGA(Sensors,2024):通过 “一致部分注意力(CPA)” 提取时空对齐特征,结合多粒度注意力增强(MA-PA)与长短期时序增强(LS-TA),在 MARS、DukeMTMC-VideoReID 上实现 SOTA,有效解决遮挡导致的帧间错位问题。

  4. M3D 卷积(CSDN,2023):提出 “局部 + 全局” 双 3D 卷积层,局部层学习相邻帧时空细节,全局层学习帧间全局关系,在 MARS 数据集上实现 rank-1 88.63%,是轻量级 3D CNN 的早期探索。