一、核心科学问题突破(最容易出论文)

1. 从 “帧级建模” 转向 “事件级建模”

传统方法:

  • 把视频看成帧序列,用 LSTM/Transformer 建模时序关系。
  • 问题:帧冗余大、噪声多、计算成本高。

突破方向:

  • 构建事件驱动的时序模型,只对 “有判别力的事件” 建模,比如:

    • 行人动作变化(步态、姿态)
    • 外观变化(光照、遮挡)
    • 相机视角变化
  • 可以设计一个 “事件检测器”,自动发现关键帧,再建模事件之间的关系。

创新点:

  • 事件抽取 + 事件关系推理(图结构)
  • 比传统方法更鲁棒、更高效。

2. 从 “单一模态” 转向 “多模态融合时序建模”

目前大多数方法只使用 RGB 帧。

突破方向:

融合多种模态的时序信息:

  • RGB + 光流(motion)
  • RGB + 人体姿态序列(pose)
  • RGB + 深度(depth)
  • RGB + 红外(IR)
  • 多相机时序对齐

创新点:

  • 设计动态融合机制(不同时间步权重不同)
  • 跨模态注意力机制
  • 模态缺失情况下的鲁棒学习

3. 从 “固定结构” 转向 “自适应时序结构”

传统方法:

  • 使用固定长度的序列(如 16 帧)
  • 忽略行人运动的节奏差异

突破方向:

  • 自适应序列长度(根据行人动作自动采样)
  • 动态时间规整(DTW)用于序列对齐
  • 可变形时序卷积(Deformable TCN)

创新点:

  • 时序结构随行人行为变化
  • 更符合真实场景中行人运动的非均匀性
Edited on

Give me a cup of [coffee]~(锟b柦锟?~*

Tartar0us WeChat Pay

WeChat Pay

Tartar0us Alipay

Alipay

Tartar0us PayPal

PayPal