Appearance
时序模型学习计划与路线逻辑
Abstract
这份文档回答两个问题:
- 为什么这些 Phase 按这个顺序分?每个 Phase 的"出现动机"是什么?
- 我现在在哪,接下来按什么顺序学最合理?
一、核心叙事线:每篇论文为什么存在
时序预测的深度学习发展不是随机的——每篇论文都是对前一篇某个具体缺陷的回应。理解这条因果链,比死记每个模型的技术细节重要得多。
二、Phase 逻辑详解
Phase 0–1:打基础,建问题意识
为什么从 Informer 开始而不是直接读新模型?
Informer/Autoformer/FEDformer/Non-stationary 构成了一条有内在逻辑的叙事链。 读完这四篇,你能回答"为什么每篇的 motivation 都是前一篇的缺陷"——这是做科研最重要的思维模式。 跳过这段直接读 iTransformer,你会知道 HOW,但不知道 WHY。
Phase 2:DLinear 是关键转折,必须深刻理解
DLinear 是整个路线图的枢纽。它的核心论点:
Transformer 的 Self-Attention 是排列不变(permutation-invariant)的。给定同样的 token 集合,无论顺序如何排列,输出相同。但时序预测的本质是==时间顺序==,这是根本性的归纳偏置错位。
理解了这个 argument,Phase 3 的四篇论文才能各自看清楚:
| 模型 | 对 DLinear 的回应策略 |
|---|---|
| PatchTST | 用 patch 保留局部时间顺序(部分解决排列不变性) |
| iTransformer | 把 token 语义换掉,注意力不再负责时间顺序 |
| TimesNet | 干脆不用注意力,改用 CNN |
| FITS | 绕过时域,在频域直接做插值 |
关键认知
这四篇不是"谁更好"的竞争,而是对同一个问题的四种不同哲学立场。 能清晰表达这四种立场的区别,是研究生水平的体现。
Phase 3:Patch 时代 — 四种新范式
Phase 3 确立了四条技术路线,后续论文(Phase 4)都在这些路线上做具体场景的落地。
Phase 4:问题专攻 — 论文写作的范本
这个 Phase 的科研启示
Phase 4 的四篇代表了一种重要的论文策略:把问题的应用范围限定清楚,只解决你定义的问题。
- CycleNet 的论点是:"==如果数据有强周期性==,显式建模周期比让模型自己学效率高 10 倍"
- 审稿人无法说"这不 general",因为论文从一开始就没声称 general
这种"问题限定 → 针对性设计 → 实验验证"的结构,比"我的方法在所有情况下都更好"更容易发表。
Phase 5:Foundation Models — 新战场
TimesFM 代表范式转变:从"每个数据集训练一个模型"到"一个模型零样本泛化"。
读完后必须能回答
- TimesFM 为什么用 Decoder-only 而不是 Encoder-Decoder?
- 时序基础模型的预训练数据和 NLP 的有什么本质区别?这带来什么挑战?
三、我现在在哪?
TFB 无代码 → 暂搁置
路线图中 CycleNet / TimeXer / TimesFM 在
ts_benchmark/baselines/里找不到对应代码,无法结合 TFB 框架做调试精读,暂时搁置。若后续 TFB 合并了对应代码再重新纳入。
TimeMixer vs TimeMixer++
TFB 里的
TimeMixer.py包含PastDecomposableMixing (PDM)和MultiScaleSeasonMixing / MultiScaleTrendMixing等核心模块,与路线图中"TimeMixer++"的核心设计一致,按同一条目处理。
四、具体学习路径(论文轨 + 精读轨)
论文轨:建立概念直觉
每篇论文建议节奏:读摘要 + Introduction(20min)→ Method 核心章节(40min)→ 写一句话总结创新点
| 顺序 | 模型 | TFB 代码 | 重点关注 | 预计时间 |
|---|---|---|---|---|
| ✅ 已完成 | DLinear / PatchTST / Informer / Autoformer / iTransformer / TimesNet / FITS / FEDformer / Non-stationary / DUET / TimeMixer | ✅ | — | — |
| 🚫 搁置 | CycleNet | ❌ TFB 无 | RCF vs 分解 | — |
| 🚫 搁置 | TimeXer | ❌ TFB 无 | 外生变量 token | — |
| 🚫 搁置 | TimesFM | ❌ TFB 无 | Decoder-only 零样本 | — |
精读轨:BFS 代码深读(按需,不强制每篇都做)
什么时候值得做精读文档?
- 架构有新组件(新 Attention 变种 / 新 Embedding)
- 论文公式和代码实现之间有非显而易见的映射
- 读代码超过 30 分钟还没搞清楚某步的 tensor 变化
满足任意一条就值得做 BFS 精读。
| 模型 | TFB 代码 | 精读价值 | 核心精读点 |
|---|---|---|---|
| FEDformer | ✅ | ⭐⭐⭐ | FFT/Wavelet 注意力实现;MOEDecomp 的 softmax 加权 |
| FITS | ✅ | ⭐⭐ | rfft → 截断 → Linear(复数域)→ irfft 的完整链路 |
| TimeMixer | ✅ | ⭐⭐ | 多分辨率 AvgPool + PDM/FMM 的 shape 追踪(已完成) |
| DUET | ✅ | ⭐⭐⭐ | 双路架构;MoE gating;Mahalanobis 掩码(已完成) |
| CycleNet | ❌ TFB 无 | — | 搁置 |
| TimeXer | ❌ TFB 无 | — | 搁置 |
| TimesFM | ❌ TFB 无 | — | 搁置 |
五、Phase 结束后的问题清单
用这些问题检验自己是否真的理解,而不只是"读过了":
- Phase 1–2 检验(已学模型)
- 从 Informer 到 Non-stationary,每篇的 motivation 是什么?能画出因果链吗?
- Autoformer 和 FEDformer 都用了频域,但目的根本不同——各是什么?
- DLinear 的"排列不变性"缺陷,用一个具体例子解释:给 Transformer 打乱 token 顺序,输出会变吗?为什么?
- Phase 3 检验(当前阶段)
- PatchTST(Channel Independence)和 iTransformer(Channel Dependence)假设相反,各自什么时候更好?能给出一个实际场景吗?
- FITS 的"复频域线性插值 = 时域预测"从物理直觉上怎么理解?
- TimesNet 的 1D→2D reshape:如果 seq_len=24,主周期=8,reshape 后的 2D 矩阵是什么形状?每行代表什么?
- Phase 4 检验(待学)
- CycleNet 的 RCF(残差循环预测)和 Autoformer 的 Series Decomp 有什么根本区别?
- TimeXer 中内生变量和外生变量分别用什么 token 设计?为什么不对称?
- DUET 解决的"分布漂移"和 Non-stationary Transformer 解决的"过平稳化"是同一个问题吗?
- Phase 5 检验
- TimesFM 为什么选 Decoder-only 而不是 Encoder-Decoder?
- NLP 的预训练数据(文本)和时序预训练数据有什么本质区别?这使得时序基础模型面临什么独特挑战?
六、关键概念演化地图
更新:2026-04-25 · 当前进度:Phase 1–4 主要完成。完整 BFS 精读:DLinear / PatchTST / Informer / iTransformer / TimesNet / Autoformer / DUET / FITS / TimeMixer(共 9 个)。部分完成:FEDformer(总览 + FourierBlock)、Non-stationary(概念笔记)。CycleNet / TimeXer / TimesFM 因 TFB 无代码暂搁置。下一缺口:FEDformer 全层 BFS 文档。