时序模型学习计划与路线逻辑

Abstract

这份文档回答两个问题：
为什么这些 Phase 按这个顺序分？每个 Phase 的"出现动机"是什么？
我现在在哪，接下来按什么顺序学最合理？

一、核心叙事线：每篇论文为什么存在

时序预测的深度学习发展不是随机的——每篇论文都是对前一篇某个具体缺陷的回应。理解这条因果链，比死记每个模型的技术细节重要得多。

二、Phase 逻辑详解

Phase 0–1：打基础，建问题意识

为什么从 Informer 开始而不是直接读新模型？

Informer/Autoformer/FEDformer/Non-stationary 构成了一条有内在逻辑的叙事链。读完这四篇，你能回答"为什么每篇的 motivation 都是前一篇的缺陷"——这是做科研最重要的思维模式。跳过这段直接读 iTransformer，你会知道 HOW，但不知道 WHY。

Phase 2：DLinear 是关键转折，必须深刻理解

DLinear 是整个路线图的枢纽。它的核心论点：

Transformer 的 Self-Attention 是排列不变（permutation-invariant）的。给定同样的 token 集合，无论顺序如何排列，输出相同。但时序预测的本质是==时间顺序==，这是根本性的归纳偏置错位。

理解了这个 argument，Phase 3 的四篇论文才能各自看清楚：

模型	对 DLinear 的回应策略
PatchTST	用 patch 保留局部时间顺序（部分解决排列不变性）
iTransformer	把 token 语义换掉，注意力不再负责时间顺序
TimesNet	干脆不用注意力，改用 CNN
FITS	绕过时域，在频域直接做插值

关键认知

这四篇不是"谁更好"的竞争，而是对同一个问题的四种不同哲学立场。能清晰表达这四种立场的区别，是研究生水平的体现。

Phase 3：Patch 时代 — 四种新范式

Phase 3 确立了四条技术路线，后续论文（Phase 4）都在这些路线上做具体场景的落地。

Phase 4：问题专攻 — 论文写作的范本

这个 Phase 的科研启示

Phase 4 的四篇代表了一种重要的论文策略：把问题的应用范围限定清楚，只解决你定义的问题。
CycleNet 的论点是："==如果数据有强周期性==，显式建模周期比让模型自己学效率高 10 倍"
审稿人无法说"这不 general"，因为论文从一开始就没声称 general
这种"问题限定 → 针对性设计 → 实验验证"的结构，比"我的方法在所有情况下都更好"更容易发表。

Phase 5：Foundation Models — 新战场

TimesFM 代表范式转变：从"每个数据集训练一个模型"到"一个模型零样本泛化"。

读完后必须能回答

TimesFM 为什么用 Decoder-only 而不是 Encoder-Decoder？
时序基础模型的预训练数据和 NLP 的有什么本质区别？这带来什么挑战？

三、我现在在哪？

TFB 无代码 → 暂搁置

路线图中 CycleNet / TimeXer / TimesFM 在 ts_benchmark/baselines/ 里找不到对应代码，无法结合 TFB 框架做调试精读，暂时搁置。若后续 TFB 合并了对应代码再重新纳入。

TimeMixer vs TimeMixer++

TFB 里的 TimeMixer.py 包含 PastDecomposableMixing (PDM) 和 MultiScaleSeasonMixing / MultiScaleTrendMixing 等核心模块，与路线图中"TimeMixer++"的核心设计一致，按同一条目处理。

四、具体学习路径（论文轨 + 精读轨）

论文轨：建立概念直觉

每篇论文建议节奏：读摘要 + Introduction（20min）→ Method 核心章节（40min）→ 写一句话总结创新点

顺序	模型	TFB 代码	重点关注	预计时间
✅ 已完成	DLinear / PatchTST / Informer / Autoformer / iTransformer / TimesNet / FITS / FEDformer / Non-stationary / DUET / TimeMixer	✅	—	—
🚫 搁置	CycleNet	❌ TFB 无	RCF vs 分解	—
🚫 搁置	TimeXer	❌ TFB 无	外生变量 token	—
🚫 搁置	TimesFM	❌ TFB 无	Decoder-only 零样本	—

精读轨：BFS 代码深读（按需，不强制每篇都做）

什么时候值得做精读文档？

架构有新组件（新 Attention 变种 / 新 Embedding）
论文公式和代码实现之间有非显而易见的映射
读代码超过 30 分钟还没搞清楚某步的 tensor 变化
满足任意一条就值得做 BFS 精读。

模型	TFB 代码	精读价值	核心精读点
FEDformer	✅	⭐⭐⭐	FFT/Wavelet 注意力实现；MOEDecomp 的 softmax 加权
FITS	✅	⭐⭐	`rfft → 截断 → Linear（复数域）→ irfft` 的完整链路
TimeMixer	✅	⭐⭐	多分辨率 AvgPool + PDM/FMM 的 shape 追踪（已完成）
DUET	✅	⭐⭐⭐	双路架构；MoE gating；Mahalanobis 掩码（已完成）
CycleNet	❌ TFB 无	—	搁置
TimeXer	❌ TFB 无	—	搁置
TimesFM	❌ TFB 无	—	搁置

五、Phase 结束后的问题清单

用这些问题检验自己是否真的理解，而不只是"读过了"：

- Phase 1–2 检验（已学模型）

从 Informer 到 Non-stationary，每篇的 motivation 是什么？能画出因果链吗？
Autoformer 和 FEDformer 都用了频域，但目的根本不同——各是什么？
DLinear 的"排列不变性"缺陷，用一个具体例子解释：给 Transformer 打乱 token 顺序，输出会变吗？为什么？

- Phase 3 检验（当前阶段）

PatchTST（Channel Independence）和 iTransformer（Channel Dependence）假设相反，各自什么时候更好？能给出一个实际场景吗？
FITS 的"复频域线性插值 = 时域预测"从物理直觉上怎么理解？
TimesNet 的 1D→2D reshape：如果 seq_len=24，主周期=8，reshape 后的 2D 矩阵是什么形状？每行代表什么？

- Phase 4 检验（待学）

CycleNet 的 RCF（残差循环预测）和 Autoformer 的 Series Decomp 有什么根本区别？
TimeXer 中内生变量和外生变量分别用什么 token 设计？为什么不对称？
DUET 解决的"分布漂移"和 Non-stationary Transformer 解决的"过平稳化"是同一个问题吗？

- Phase 5 检验

TimesFM 为什么选 Decoder-only 而不是 Encoder-Decoder？
NLP 的预训练数据（文本）和时序预训练数据有什么本质区别？这使得时序基础模型面临什么独特挑战？

六、关键概念演化地图

更新：2026-04-25 · 当前进度：Phase 1–4 主要完成。完整 BFS 精读：DLinear / PatchTST / Informer / iTransformer / TimesNet / Autoformer / DUET / FITS / TimeMixer（共 9 个）。部分完成：FEDformer（总览 + FourierBlock）、Non-stationary（概念笔记）。CycleNet / TimeXer / TimesFM 因 TFB 无代码暂搁置。下一缺口：FEDformer 全层 BFS 文档。

DLinear_v1_archive

Informer_v1_archive

PatchTST_v1_archive

12-SelfAttention_Family

01-DLinear

02-PatchTST

03-Informer

时序模型学习计划与路线逻辑

一、核心叙事线：每篇论文为什么存在

二、Phase 逻辑详解

Phase 0–1：打基础，建问题意识

Phase 2：DLinear 是关键转折，必须深刻理解

Phase 3：Patch 时代 — 四种新范式

Phase 4：问题专攻 — 论文写作的范本

Phase 5：Foundation Models — 新战场

三、我现在在哪？

四、具体学习路径（论文轨 + 精读轨）

论文轨：建立概念直觉

精读轨：BFS 代码深读（按需，不强制每篇都做）

五、Phase 结束后的问题清单

六、关键概念演化地图

时序模型学习计划与路线逻辑 ​

一、核心叙事线：每篇论文为什么存在 ​

二、Phase 逻辑详解 ​

Phase 0–1：打基础，建问题意识 ​

Phase 2：DLinear 是关键转折，必须深刻理解 ​

Phase 3：Patch 时代 — 四种新范式 ​

Phase 4：问题专攻 — 论文写作的范本 ​

Phase 5：Foundation Models — 新战场 ​

三、我现在在哪？ ​

四、具体学习路径（论文轨 + 精读轨） ​

论文轨：建立概念直觉 ​

精读轨：BFS 代码深读（按需，不强制每篇都做） ​

五、Phase 结束后的问题清单 ​

六、关键概念演化地图 ​

时序模型学习计划与路线逻辑

一、核心叙事线：每篇论文为什么存在

二、Phase 逻辑详解

Phase 0–1：打基础，建问题意识

Phase 2：DLinear 是关键转折，必须深刻理解

Phase 3：Patch 时代 — 四种新范式

Phase 4：问题专攻 — 论文写作的范本

Phase 5：Foundation Models — 新战场

三、我现在在哪？

四、具体学习路径（论文轨 + 精读轨）

论文轨：建立概念直觉

精读轨：BFS 代码深读（按需，不强制每篇都做）

五、Phase 结束后的问题清单

六、关键概念演化地图