Introduction

Method

该研究从特征增强与特征融合双角度切入，提出两种核心方法，均以 ResNet50 为骨干网络：

基于多尺度亚像素卷积特征增强的方法（MSCFE-Net）
- 核心创新：针对高层特征细节丢失问题，构建多尺度亚像素卷积特征金字塔，通过亚像素卷积（无通道降维）保留通道信息，结合空间 + 通道注意力强化判别特征；利用空洞时间卷积（短期时序）与自注意力（长期时序）聚合帧级特征至序列级；设计 “交叉熵损失 + 难样本三元组损失” 优化网络。
- 实验验证：在 MARS 数据集上实现 mAP 83.5%、rank-1 89.0%；在 DukeMTMC-VideoREID 数据集上实现 mAP 95.2%、rank-1 96.9%，优于传统 3D 卷积方法（如 M3D、A3D）。
基于时序互补特征融合的方法（TCFF-Net）
- 核心创新：针对互补特征提取不足，按时间关系将帧级特征分为 “显著性特征（局部）” 与 “差值放大特征（全局）”，通过不降维通道注意力过滤冗余；利用多尺度时间卷积核动态捕获长短期时序关联，设计 “交叉熵损失 + 难样本三元组损失 + 互信息损失” 提升泛化能力。
- 实验验证：在 MARS 数据集上实现 mAP 86.0%、rank-1 90.1%；在 PRID-2011 数据集上实现 rank-1 96.7%，显著优于 ASTPN、STIM 等方法。

该研究以Transformer 架构为核心，聚焦长短期时序关系与多尺度空间特征适配：

核心创新
- 长短期时间关系模块：短期模块（STIM）通过交叉注意力捕捉相邻帧细粒度信息；长期模块（LTIM）通过 “记忆传输流 + 特征更新流” 存储全局运动模式，建立帧间全局关联；
- 非方形多尺度模块（MSM）：采用 1×1、1×2、2×1 非方形卷积核，覆盖非规则目标区域（如背包、裙摆），解决传统方形卷积感受野适配性差的问题；
- 高效聚合策略：采用 “Add” 方式融合长短期特征，比 “Concat” 提升 0.3% mAP 与 0.2% rank-1。
实验验证：在 MARS 数据集上实现 mAP 87.9%、rank-1 91.1%；在 MARS_DL（修正标注的 MARS）上实现 mAP 91.0%、rank-1 96.3%；在 iLIDS-VID 上实现 rank-1 94.0%，且推理速度达 189fps，计算成本低于 CAViT、BiCnet-TKS 等方法。

MTF-CV ReID（arXiv，2025）：针对跨视角（空对地监控）场景，提出 7 项轻量创新，包括跨流特征归一化（修正摄像头偏差）、身份感知记忆模块（强化持久特征）、多视图一致性学习（对比范式对齐跨域特征），在 AG-VReID 数据集上实现 SOTA，且仅增加 2M 参数、0.7 GFLOPs。
时序多尺度互补网络（napstic.cn，2025）：采用多分辨率分支（高分辨率保留细节、低分辨率捕捉全局），设计跨分支融合模块传播全局信息，在 LS-VID 数据集上提升 4.5% mAP 与 3.1% top-1，计算成本仅为现有方法的 35%。
ST-MGA（Sensors，2024）：通过 “一致部分注意力（CPA）” 提取时空对齐特征，结合多粒度注意力增强（MA-PA）与长短期时序增强（LS-TA），在 MARS、DukeMTMC-VideoReID 上实现 SOTA，有效解决遮挡导致的帧间错位问题。
M3D 卷积（CSDN，2023）：提出 “局部 + 全局” 双 3D 卷积层，局部层学习相邻帧时空细节，全局层学习帧间全局关系，在 MARS 数据集上实现 rank-1 88.63%，是轻量级 3D CNN 的早期探索。