一、核心科学问题突破(最容易出论文)
1. 从 “帧级建模” 转向 “事件级建模”
传统方法:
- 把视频看成帧序列,用 LSTM/Transformer 建模时序关系。
- 问题:帧冗余大、噪声多、计算成本高。
突破方向:
构建事件驱动的时序模型,只对 “有判别力的事件” 建模,比如:
- 行人动作变化(步态、姿态)
- 外观变化(光照、遮挡)
- 相机视角变化
可以设计一个 “事件检测器”,自动发现关键帧,再建模事件之间的关系。
创新点:
- 事件抽取 + 事件关系推理(图结构)
- 比传统方法更鲁棒、更高效。
2. 从 “单一模态” 转向 “多模态融合时序建模”
目前大多数方法只使用 RGB 帧。
突破方向:
融合多种模态的时序信息:
- RGB + 光流(motion)
- RGB + 人体姿态序列(pose)
- RGB + 深度(depth)
- RGB + 红外(IR)
- 多相机时序对齐
创新点:
- 设计动态融合机制(不同时间步权重不同)
- 跨模态注意力机制
- 模态缺失情况下的鲁棒学习
3. 从 “固定结构” 转向 “自适应时序结构”
传统方法:
- 使用固定长度的序列(如 16 帧)
- 忽略行人运动的节奏差异
突破方向:
- 自适应序列长度(根据行人动作自动采样)
- 动态时间规整(DTW)用于序列对齐
- 可变形时序卷积(Deformable TCN)
创新点:
- 时序结构随行人行为变化
- 更符合真实场景中行人运动的非均匀性