Skip to content

模型精读导航

Abstract

这里维护两条并行的学习轨道:

  • 论文轨:按发展脉络读论文,建立"为什么这个模型出现"的历史感
  • 精读轨:对每个模型做 BFS 分层代码精读,建立"代码怎么跑通"的工程感

两条轨道不必完全同步,但每个精读文档必须建立在真实 TFB 入口之上。


1. 当前学习状态(2026-04-25)

已完成论文学习

按实际学习顺序:

顺序模型Phase会议核心创新
1DLinearPhase 2ICLR 2023线性基线挑战 Transformer;排列不变性缺陷
2PatchTSTPhase 3ICLR 2023Patch token + Channel Independence
3InformerPhase 1AAAI 2021 🏆ProbSparse Attention,O(LlogL)
4AutoformerPhase 1NeurIPS 2021Auto-Correlation + 趋势季节分解
5iTransformerPhase 3ICLR 2024倒置 token:变量作序列维,注意力在变量间
6TimesNetPhase 3ICLR 20231D→2D reshape,Inception 捕捉周期结构
7FEDformerPhase 1ICML 2022频域注意力(FFT/Wavelet)+ MOEDecomp
8Non-stationaryPhase 1NeurIPS 2022De-stationary Attention,还原非平稳统计量
9FITSPhase 3ICLR 2024复频域线性插值,~10K 参数
10TimeMixerPhase 4ICLR 2024多分辨率池化 + PDM/FMM 双向混合
11DUETPhase 4时间×通道双向聚类路由,MoE gating

已完成 BFS 精读文档

✅ 完整精读(有调试形参 + 全层文档)

模型Phase文件数核心精读点
DLinearPhase 25静态分解 + Linear,共享/独立权重路径
PatchTSTPhase 311Patch unfold、CI reshape、ViT Encoder
InformerPhase 113ProbSparse、Distilling ConvLayer、context_filling
AutoformerPhase 113Auto-Correlation(FFT 互相关)、Decoder 双路 trend 累加
iTransformerPhase 310倒置 token、变量轴注意力 O(N2)
TimesNetPhase 39FFT 周期、1D→2D reshape、Inception Block
FITSPhase 35rfft→截断→复数域 Linear→irfft
DUETPhase 410MoE 路由、SparseDispatcher、Mahalanobis Mask
TimeMixerPhase 410多尺度 AvgPool、PDM 双向混合、FMM CI 还原

🔶 部分完成(有总览,无完整 BFS 层级)

模型Phase文件数缺少什么
FEDformerPhase 12仅总览 + FourierBlock 一篇;无 Layer0/Layer1/收束
Non-stationaryPhase 11仅概念笔记;无 BFS 精读文档

🚫 暂搁置(TFB 无代码)

模型Phase原因
CycleNetPhase 4ts_benchmark/baselines/ 里无对应代码
TimeXerPhase 4同上
TimesFMPhase 5同上

2. 下一步计划

论文轨:Phase 5 预览

Phase 4 完结(TimeMixer + DUET)

Phase 5 预览:TimesFM(零样本基础模型,概念层阅读)

精读轨:补完现有缺口

优先级任务预计产出
⭐⭐⭐FEDformer 全层 BFSLayer0/Layer1/FourierBlock/MOEDecomp/收束
⭐⭐Non-stationary 精读DSAttention 机制(De-stationary projection)
选一个已精读模型实验修改模块验证 → 选 TimeMixer 或 DLinear

3. 两条轨道的关系

论文轨(理解 WHY)          精读轨(理解 HOW)
─────────────────          ─────────────────
读摘要 + Method            BFS 分层文档
建立 motivation 意识        tensor shape 追踪
跨模型对比                  toy 数值验证

不强制要求两轨同步。论文轨可以超前跑,精读轨选重点做(不必每篇都 BFS)。 当前重点精读的判据:

  • 架构有新组件(注意力变种 / 新嵌入方式)
  • 代码实现和论文公式之间有非显而易见的映射
  • 自己看代码超过 30 分钟还没搞清楚

满足任意一条就值得做精读文档。


4. 文档目录结构(实际状态)

modelread/
├── 00-模型精读导航.md          ← 本文档
├── 01-学习计划与路线逻辑.md    ← Phase 叙事线 + 我现在在哪
├── assets/                     ← 所有 SVG 图(统一存放)
├── DLinear/                    ← ✅ 完整
├── PatchTST/                   ← ✅ 完整
├── Informer/                   ← ✅ 完整
├── Autoformer/                 ← ✅ 完整
├── iTransformer/               ← ✅ 完整
├── TimesNet/                   ← ✅ 完整
├── FITS/                       ← ✅ 完整
├── DUET/                       ← ✅ 完整
├── TimeMixer/                  ← ✅ 完整
├── FEDformer/                  ← 🔶 部分(仅 2 文件)
├── Nonstationary/              ← 🔶 部分(仅概念笔记)
└── archive/                    ← 旧文档归档

5. 精读文档规范(速查)

每个模型的 BFS 文档遵循 ts-model-coderead skill 规范:

要点规则
分层每个调用深度独立 md 文件,不合并
toy 数值所有维度取不同数值;每步追踪具体数字
SVG双残差块、多头拆分、热力图等必须有 SVG
代码块只放原始源码,shape 注解写在代码块外的 Markdown 散文里
跨模型对比总览文档必须有 ≥5 维的模型对比表

详细规范见 skill:C:\Users\兴平\.claude\skills\ts-model-coderead\SKILL.md


6. 阶段性问题清单

学完每个阶段后,能回答这些问题说明理解到位:

- Phase 1–2 检验(已学模型)
  1. 从 Informer 到 Non-stationary,每篇的 motivation 是什么?能画出因果链吗?
  2. Autoformer 和 FEDformer 都用了频域,但目的根本不同——各是什么?
  3. DLinear 的"排列不变性"缺陷,用一个具体例子解释:给 Transformer 打乱 token 顺序,输出会变吗?为什么?
- Phase 3 检验(已学模型)
  1. PatchTST(Channel Independence)和 iTransformer(Channel Dependence)假设相反,各自什么时候更好?能给出一个实际场景吗?
  2. FITS 的"复频域线性插值 = 时域预测"从物理直觉上怎么理解?
  3. TimesNet 的 1D→2D reshape:如果 seq_len=24,主周期=8,reshape 后的 2D 矩阵是什么形状?每行代表什么?
- Phase 4 检验(已学模型)
  1. TimeMixer 的多分辨率 AvgPool 和 FEDformer 的随机频率采样解决的是同一个问题吗?区别在哪?
  2. DUET 解决的"分布漂移"和 Non-stationary Transformer 解决的"过平稳化"是同一个问题吗?
  3. DUET 的 MoE gating 和 Mahalanobis Mask 各自在防止什么:路由崩塌?通道穿越?
- Phase 5 检验(待读)
  1. TimesFM 为什么选 Decoder-only 而不是 Encoder-Decoder?
  2. NLP 的预训练数据(文本)和时序预训练数据有什么本质区别?这使得时序基础模型面临什么独特挑战?

*记录并在线阅读我的笔记*