Skip to content

时序模型学习计划与路线逻辑

Abstract

这份文档回答两个问题:

  1. 为什么这些 Phase 按这个顺序分?每个 Phase 的"出现动机"是什么?
  2. 我现在在哪,接下来按什么顺序学最合理?

一、核心叙事线:每篇论文为什么存在

时序预测的深度学习发展不是随机的——每篇论文都是对前一篇某个具体缺陷的回应。理解这条因果链,比死记每个模型的技术细节重要得多。


二、Phase 逻辑详解

Phase 0–1:打基础,建问题意识

为什么从 Informer 开始而不是直接读新模型?

Informer/Autoformer/FEDformer/Non-stationary 构成了一条有内在逻辑的叙事链。 读完这四篇,你能回答"为什么每篇的 motivation 都是前一篇的缺陷"——这是做科研最重要的思维模式。 跳过这段直接读 iTransformer,你会知道 HOW,但不知道 WHY。


Phase 2:DLinear 是关键转折,必须深刻理解

DLinear 是整个路线图的枢纽。它的核心论点:

Transformer 的 Self-Attention 是排列不变(permutation-invariant)的。给定同样的 token 集合,无论顺序如何排列,输出相同。但时序预测的本质是==时间顺序==,这是根本性的归纳偏置错位。

理解了这个 argument,Phase 3 的四篇论文才能各自看清楚:

模型对 DLinear 的回应策略
PatchTST用 patch 保留局部时间顺序(部分解决排列不变性)
iTransformer把 token 语义换掉,注意力不再负责时间顺序
TimesNet干脆不用注意力,改用 CNN
FITS绕过时域,在频域直接做插值
关键认知

这四篇不是"谁更好"的竞争,而是对同一个问题的四种不同哲学立场。 能清晰表达这四种立场的区别,是研究生水平的体现。


Phase 3:Patch 时代 — 四种新范式

Phase 3 确立了四条技术路线,后续论文(Phase 4)都在这些路线上做具体场景的落地。


Phase 4:问题专攻 — 论文写作的范本

这个 Phase 的科研启示

Phase 4 的四篇代表了一种重要的论文策略:把问题的应用范围限定清楚,只解决你定义的问题

  • CycleNet 的论点是:"==如果数据有强周期性==,显式建模周期比让模型自己学效率高 10 倍"
  • 审稿人无法说"这不 general",因为论文从一开始就没声称 general

这种"问题限定 → 针对性设计 → 实验验证"的结构,比"我的方法在所有情况下都更好"更容易发表。


Phase 5:Foundation Models — 新战场

TimesFM 代表范式转变:从"每个数据集训练一个模型"到"一个模型零样本泛化"。

读完后必须能回答
  1. TimesFM 为什么用 Decoder-only 而不是 Encoder-Decoder?
  2. 时序基础模型的预训练数据和 NLP 的有什么本质区别?这带来什么挑战?

三、我现在在哪?

TFB 无代码 → 暂搁置

路线图中 CycleNet / TimeXer / TimesFMts_benchmark/baselines/ 里找不到对应代码,无法结合 TFB 框架做调试精读,暂时搁置。若后续 TFB 合并了对应代码再重新纳入。

TimeMixer vs TimeMixer++

TFB 里的 TimeMixer.py 包含 PastDecomposableMixing (PDM)MultiScaleSeasonMixing / MultiScaleTrendMixing 等核心模块,与路线图中"TimeMixer++"的核心设计一致,按同一条目处理。


四、具体学习路径(论文轨 + 精读轨)

论文轨:建立概念直觉

每篇论文建议节奏:读摘要 + Introduction(20min)→ Method 核心章节(40min)→ 写一句话总结创新点

顺序模型TFB 代码重点关注预计时间
✅ 已完成DLinear / PatchTST / Informer / Autoformer / iTransformer / TimesNet / FITS / FEDformer / Non-stationary / DUET / TimeMixer
🚫 搁置CycleNet❌ TFB 无RCF vs 分解
🚫 搁置TimeXer❌ TFB 无外生变量 token
🚫 搁置TimesFM❌ TFB 无Decoder-only 零样本

精读轨:BFS 代码深读(按需,不强制每篇都做)

什么时候值得做精读文档?
  • 架构有新组件(新 Attention 变种 / 新 Embedding)
  • 论文公式和代码实现之间有非显而易见的映射
  • 读代码超过 30 分钟还没搞清楚某步的 tensor 变化

满足任意一条就值得做 BFS 精读。

模型TFB 代码精读价值核心精读点
FEDformer⭐⭐⭐FFT/Wavelet 注意力实现;MOEDecomp 的 softmax 加权
FITS⭐⭐rfft → 截断 → Linear(复数域)→ irfft 的完整链路
TimeMixer⭐⭐多分辨率 AvgPool + PDM/FMM 的 shape 追踪(已完成
DUET⭐⭐⭐双路架构;MoE gating;Mahalanobis 掩码(已完成
CycleNet❌ TFB 无搁置
TimeXer❌ TFB 无搁置
TimesFM❌ TFB 无搁置

五、Phase 结束后的问题清单

用这些问题检验自己是否真的理解,而不只是"读过了":

- Phase 1–2 检验(已学模型)
  1. 从 Informer 到 Non-stationary,每篇的 motivation 是什么?能画出因果链吗?
  2. Autoformer 和 FEDformer 都用了频域,但目的根本不同——各是什么?
  3. DLinear 的"排列不变性"缺陷,用一个具体例子解释:给 Transformer 打乱 token 顺序,输出会变吗?为什么?
- Phase 3 检验(当前阶段)
  1. PatchTST(Channel Independence)和 iTransformer(Channel Dependence)假设相反,各自什么时候更好?能给出一个实际场景吗?
  2. FITS 的"复频域线性插值 = 时域预测"从物理直觉上怎么理解?
  3. TimesNet 的 1D→2D reshape:如果 seq_len=24,主周期=8,reshape 后的 2D 矩阵是什么形状?每行代表什么?
- Phase 4 检验(待学)
  1. CycleNet 的 RCF(残差循环预测)和 Autoformer 的 Series Decomp 有什么根本区别?
  2. TimeXer 中内生变量和外生变量分别用什么 token 设计?为什么不对称?
  3. DUET 解决的"分布漂移"和 Non-stationary Transformer 解决的"过平稳化"是同一个问题吗?
- Phase 5 检验
  1. TimesFM 为什么选 Decoder-only 而不是 Encoder-Decoder?
  2. NLP 的预训练数据(文本)和时序预训练数据有什么本质区别?这使得时序基础模型面临什么独特挑战?

六、关键概念演化地图


更新:2026-04-25 · 当前进度:Phase 1–4 主要完成。完整 BFS 精读:DLinear / PatchTST / Informer / iTransformer / TimesNet / Autoformer / DUET / FITS / TimeMixer(共 9 个)。部分完成:FEDformer(总览 + FourierBlock)、Non-stationary(概念笔记)。CycleNet / TimeXer / TimesFM 因 TFB 无代码暂搁置。下一缺口:FEDformer 全层 BFS 文档。

*记录并在线阅读我的笔记*